期刊文献+
共找到223篇文章
< 1 2 12 >
每页显示 20 50 100
word2vec-ACV:OOV语境含义的词向量生成模型 被引量:9
1
作者 王永贵 郑泽 李玥 《计算机应用研究》 CSCD 北大核心 2019年第6期1623-1628,共6页
针对word2vec模型生成的词向量缺乏语境的多义性以及无法创建集外词(OOV)词向量的问题,引入相似信息与word2vec模型相结合,提出word2vec-ACV模型。该模型首先基于连续词袋(CBOW)和Hierarchical softmax的word2vec模型训练出词向量矩阵... 针对word2vec模型生成的词向量缺乏语境的多义性以及无法创建集外词(OOV)词向量的问题,引入相似信息与word2vec模型相结合,提出word2vec-ACV模型。该模型首先基于连续词袋(CBOW)和Hierarchical softmax的word2vec模型训练出词向量矩阵即权重矩阵;然后将共现矩阵进行归一化处理得到平均上下文词向量,再将词向量组成平均上下文词向量矩阵;最后将平均上下文词向量矩阵与权重矩阵相乘得到词向量矩阵。为了能同时解决集外词及多义性问题,将平均上下文词向量分为全局平均上下文词向量(global ACV)和局部平均上下文词向量(local ACV)两种,并对两者取权值组成新的平均上下文词向量矩阵,并将word2vec-ACV模型和word2vec模型分别进行类比任务实验和命名实体识别任务实验。实验结果表明,word2vec-ACV模型同时解决了语境多义性以及创建集外词词向量的问题,降低了时间消耗,提升了词向量表达的准确性和对海量词汇的处理能力。 展开更多
关键词 word2vec模型 向量 共现矩阵 平均上下文向量
在线阅读 下载PDF
基于LDA和Word2Vec模型的学位论文评阅意见主题挖掘与分析 被引量:1
2
作者 王孟 苏进城 陈志德 《福建师范大学学报(自然科学版)》 CAS 北大核心 2024年第5期41-51,共11页
选取某高校部分硕士学位论文评阅意见为研究对象,使用自然语言处理和机器学习技术进行自动化的硕士学位论文评阅意见主题挖掘与分析。首先,采用LDA(latent dirichlet allocation)模型对评阅数据进行主题建模,提取文本中的潜在主题,并将... 选取某高校部分硕士学位论文评阅意见为研究对象,使用自然语言处理和机器学习技术进行自动化的硕士学位论文评阅意见主题挖掘与分析。首先,采用LDA(latent dirichlet allocation)模型对评阅数据进行主题建模,提取文本中的潜在主题,并将评阅意见转化为主题分布向量;其次,结合Word2Vec模型将评阅意见的关键词转化为向量表达;最后,采用TextRank方法提取关键词,以揭示评阅专家的关注核心主题。实验结果表明,所提方法能为高校管理人员提供切实有效的分析工具,有助于他们更好地分析总结评阅意见,同时也为硕士研究生撰写高质量学位论文提供有益借鉴。 展开更多
关键词 硕士学位论文 自然语言处理 LDA模型 word2vec模型 TextRank方法
在线阅读 下载PDF
基于Word2Vec和LDA主题模型的中国省级五年规划“文化政策”文本研究 被引量:2
3
作者 高娜 东梅 《网络安全与数据治理》 2024年第7期47-55,共9页
运用Word2Vec和LDA相结合的主题模型分析技术,对我国31个省份三个时期五年规划文本中文化政策部分进行主题识别,从时间和空间两个维度进行“文化政策”主题挖掘和演化分析。研究发现,“文化政策”主题在发展趋势、重点转移、政策导向、... 运用Word2Vec和LDA相结合的主题模型分析技术,对我国31个省份三个时期五年规划文本中文化政策部分进行主题识别,从时间和空间两个维度进行“文化政策”主题挖掘和演化分析。研究发现,“文化政策”主题在发展趋势、重点转移、政策导向、技术应用等方面随时间推移呈现不同演化趋势;四大区域受经济发展水平、文化资源禀赋、政策导向影响,在企业角色强调程度、地区特色旅游发展以及国家级项目和竞争力方面存在地域差异。 展开更多
关键词 LDA主题模型 word2vec 五年规划 文化政策 文本分析
在线阅读 下载PDF
一种Word2vec构建词向量模型的实现方法 被引量:13
4
作者 席宁丽 朱丽佳 +2 位作者 王录通 陈俊 万晓容 《电脑与信息技术》 2023年第1期43-46,共4页
Word2vec是一种基于简单神经网络的自然语言处理方法,是一种词嵌入技术,可用于构建高维词向量。研究针对Word2vec词向量表示方法进行模型构建和分析,通过NLPCC2014语料训练,将词映射到高维词向量空间中,完成了Word2vec的功能实现以及可... Word2vec是一种基于简单神经网络的自然语言处理方法,是一种词嵌入技术,可用于构建高维词向量。研究针对Word2vec词向量表示方法进行模型构建和分析,通过NLPCC2014语料训练,将词映射到高维词向量空间中,完成了Word2vec的功能实现以及可视化输出。实验中进一步针对CBOW模型与Skip-gram模型,这两种Word2vec中的重要模型进行对比研究,输出结果表明:在通过大语料训练中文词向量时,Skip-gram模型在新词识别上具有明显优势,综合模型准确性与时间性能来说,总体可靠性更优。 展开更多
关键词 向量 word2vec CBOW Skip-gram NLP
在线阅读 下载PDF
基于自然语言处理的Word2Vec词向量应用 被引量:12
5
作者 石凤贵 《黑河学院学报》 2020年第7期173-177,共5页
计算机要理解自然语言,首先需要理解词语的语义,要考虑词的同义、近义、词的上下文关系,数字化即转化为词向量,通过计算处理词向量来处理文本。阐述词向量及Word2Vec词模型的特点,Word2Vec是被广泛使用的词向量模型,同时基于《西游记》... 计算机要理解自然语言,首先需要理解词语的语义,要考虑词的同义、近义、词的上下文关系,数字化即转化为词向量,通过计算处理词向量来处理文本。阐述词向量及Word2Vec词模型的特点,Word2Vec是被广泛使用的词向量模型,同时基于《西游记》语料进行应用实现。 展开更多
关键词 自然语言处理 向量 共现矩阵 word2vec
在线阅读 下载PDF
基于Word2Vec模型与RAG框架的医疗检索增强生成算法 被引量:1
6
作者 刘彦宏 崔永瑞 《人工智能与机器人研究》 2024年第3期479-486,共8页
当今通用人工智能(AGI)发展火热,各大语言模型(LLMs)层出不穷。大语言模型的广泛应用大大提高了人们的工作水平和效率,但大语言模型也并非完美的,同样伴随着诸多缺点。如:敏感数据安全性、幻觉性、时效性等。同时对于通用大语言模型来讲... 当今通用人工智能(AGI)发展火热,各大语言模型(LLMs)层出不穷。大语言模型的广泛应用大大提高了人们的工作水平和效率,但大语言模型也并非完美的,同样伴随着诸多缺点。如:敏感数据安全性、幻觉性、时效性等。同时对于通用大语言模型来讲,对于一些专业领域问题的回答并不是很准确,这就需要检索增强生成(RAG)技术的支持。尤其是在智慧医疗领域方面,由于相关数据的缺乏,不能发挥出大语言模型优秀的对话和解决问题的能力。本算法通过使用Jieba分词,Word2Vec模型对文本数据进行词嵌入,计算句子间的向量相似度并做重排序,帮助大语言模型快速筛选出最可靠可信的模型外部的医疗知识数据,再根据编写相关的提示词(Prompt),可以使大语言模型针对医生或患者的问题提供令人满意的答案。Nowadays, general artificial intelligence is developing rapidly, and major language models are emerging one after another. The widespread application of large language models has greatly improved people’s work level and efficiency, but large language models are not perfect and are also accompanied by many shortcomings. Such as: data security, illusion, timeliness, etc. At the same time, for general large language models, the answers to questions in some professional fields are not very accurate, which requires the support of RAG technology. Especially in the field of smart medical care, due to the lack of relevant data, the excellent conversation and problem-solving capabilities of the large language model cannot be brought into play. This algorithm uses Jieba word segmentation and the Word2Vec model to embed text data, calculate the vector similarity between sentences and reorder them, helping the large language model to quickly screen out the most reliable and trustworthy medical knowledge data outside the model, and then write relevant prompts to enable the large language model to provide satisfactory answers to doctors or patients’ questions. 展开更多
关键词 通用人工智能 大语言模型 检索增强生成 Jieba分 word2vec PROMPT
在线阅读 下载PDF
融合单词贡献度与Word2Vec词向量的文档表示 被引量:16
7
作者 彭俊利 谷雨 +1 位作者 张震 耿小航 《计算机工程》 CAS CSCD 北大核心 2021年第4期62-67,共6页
针对现有文档向量表示方法受噪声词语影响和重要词语语义不完整的问题,通过融合单词贡献度与Word2Vec词向量提出一种新的文档表示方法。应用数据集训练Word2Vec模型,计算数据集中词语的贡献度,同时设置贡献度阈值,提取贡献度大于该阈值... 针对现有文档向量表示方法受噪声词语影响和重要词语语义不完整的问题,通过融合单词贡献度与Word2Vec词向量提出一种新的文档表示方法。应用数据集训练Word2Vec模型,计算数据集中词语的贡献度,同时设置贡献度阈值,提取贡献度大于该阈值的单词构建单词集合。在此基础上,寻找文档与集合中共同存在的单词,获取其词向量并融合单词贡献度生成文档向量。实验结果表明,该方法在搜狗中文文本语料库和复旦大学中文文本分类语料库上分类的平均准确率、召回率和F1值均优于TF-IDF、均值Word2Vec、PTF-IDF加权Word2Vec模型等传统方法,同时其对英文文本也能进行有效分类。 展开更多
关键词 贡献度 word2vec向量 嵌入 文档表示 文本分类
在线阅读 下载PDF
一种融入用户点击模型Word2Vec查询词聚类 被引量:4
8
作者 杨河彬 贺樑 杨静 《小型微型计算机系统》 CSCD 北大核心 2016年第4期676-681,共6页
用户查询聚类能够帮助搜索引擎了解当前热点、用户兴趣及需求,在搜索引擎性能优化及定向广告投放等起到了非常重要的作用.基于用户查询词长度非常短的特点,提出基于Word2Vec的词向量的用户查询词表示方法.并在Word2Vec的基础上提出CT-Wo... 用户查询聚类能够帮助搜索引擎了解当前热点、用户兴趣及需求,在搜索引擎性能优化及定向广告投放等起到了非常重要的作用.基于用户查询词长度非常短的特点,提出基于Word2Vec的词向量的用户查询词表示方法.并在Word2Vec的基础上提出CT-Word2Vec神经网络语言模型.CT-Word2Vec模型不仅利用词汇的上下文信息将词转化成向量,而且还将用户的搜索点击行为融入词向量的学习过程当中.聚类实验结果表明,基于Word2Vec的词向量的查询词表示方法相对于传统的词袋法在熵、纯度衡量指标上有20%到30%的提高.基于CT-Word2Vec的词向量表示方法与Word2Vec相比有2%到4%的提升. 展开更多
关键词 查询 聚类 word2vec 点击模型 CT-word2vec
在线阅读 下载PDF
基于word2vec模型的专业通用词提取算法及应用举例
9
作者 田艳 王天奇 《沧州师范学院学报》 2018年第3期68-72,共5页
专业通用词是某一专业领域中所使用的通用词汇,在翻译过程中往往较难把握。目前,专业通用词主要依靠人工提取,这对分析人员的语言素养及其对语料的熟悉程度提出了较高要求,同时存在提取效率问题。基于Google发布的神经网络机器学习算法... 专业通用词是某一专业领域中所使用的通用词汇,在翻译过程中往往较难把握。目前,专业通用词主要依靠人工提取,这对分析人员的语言素养及其对语料的熟悉程度提出了较高要求,同时存在提取效率问题。基于Google发布的神经网络机器学习算法模型word2vec,提出一套专业通用词的自动提取算法,并通过Python 2.7编写的脚本实现。以国际财务报告准则语料库为例,对该算法的应用加以说明。 展开更多
关键词 word2vec 专业通用提取 语料库翻译
在线阅读 下载PDF
基于Word2Vec词嵌入和聚类模型的安全生产事故文本案例分类 被引量:7
10
作者 吴德平 华钢 《计算机系统应用》 2021年第1期141-145,共5页
安全生产事故的分析对应急管理能力提升具有重要意义.通过对安全生产案例的语义分析,利用Word2Vec词嵌入技术和聚类模型,选用CBOW+负采样技术实现词向量,并结合安全生产事故案例分类的数据特点,通过基于半监督学习的聚类模型算法,根据... 安全生产事故的分析对应急管理能力提升具有重要意义.通过对安全生产案例的语义分析,利用Word2Vec词嵌入技术和聚类模型,选用CBOW+负采样技术实现词向量,并结合安全生产事故案例分类的数据特点,通过基于半监督学习的聚类模型算法,根据事故性质的认定特点,提出了一种优化初始聚类中心的算法,并利用K-means聚类算法实现安全事故文本案例的分类.实验表明该方法较好实现安全生产的事故案例分类,并对安全生产事故的多个维度分析具有很好借鉴意义. 展开更多
关键词 word2vec嵌入 聚类 半监督学习 安全生产事故 案例分类
在线阅读 下载PDF
基于Word2vec的电网调度词汇词向量生成方法及语音识别应用 被引量:12
11
作者 蒿峰 王小海 庞传军 《内蒙古电力技术》 2020年第5期72-76,共5页
随着电网结构不断扩大和电网运行方式日益复杂,传统的电网调度自动化系统难以满足发展需求,电网调度人员的工作强度越来越高,急需引入语音识别、自然语言处理等新一代人工智能技术以提高电网调控的智能化水平。语言模型是语音识别的重... 随着电网结构不断扩大和电网运行方式日益复杂,传统的电网调度自动化系统难以满足发展需求,电网调度人员的工作强度越来越高,急需引入语音识别、自然语言处理等新一代人工智能技术以提高电网调控的智能化水平。语言模型是语音识别的重要功能模块,针对调度领域语料库训练专有的语言模型是提高调度语音识别准确率的关键。为了使电网调度领域专业词汇具有可计算性以适用于调度专业语言模型,基于调度领域历史语料采用Word2vec技术,考虑调度语言语义关系,实现调度领域专业词汇的向量化表达,实现调度词汇的可计算性。实际算例分析结果表明,该方法生成的词汇向量可以表达调度领域词汇的语义关系,提高语音识别技术在电网调度领域应用的准确率。 展开更多
关键词 电网调度 人工智能 word2vec 向量 语音识别
在线阅读 下载PDF
基于Word2Vec词嵌入和双向LSTM模型对用户回答文本进行分类 被引量:4
12
作者 张良君 《电子技术与软件工程》 2021年第14期208-211,共4页
本文将利用Word2Vec+双向LSTM对用户回答的短文本进行分类,同时跟Word2Vec+单向LSTM的效果进行对比,以验证双向LSTM和单向LSTM方法的优劣。
关键词 短文本分类 word2vec 嵌入(Embedding) 双向LSTM模型(BiLSTM)
在线阅读 下载PDF
基于Word2vec模型进行古诗词个性化推荐的研究
13
作者 刘宗亮 黄浩 《计算机科学与应用》 2018年第8期1292-1299,共8页
古诗词是中华优秀传统文化上璀璨的明珠,两千年来,我国优秀诗人辈出,其诗作若满天繁星,内容丰富,影响深远。随着计算机技术的不断发展,推荐系统在我们的生活中处处可见,为越来越多的用户提供了便利。然而,目前对于古诗词的个性化智能推... 古诗词是中华优秀传统文化上璀璨的明珠,两千年来,我国优秀诗人辈出,其诗作若满天繁星,内容丰富,影响深远。随着计算机技术的不断发展,推荐系统在我们的生活中处处可见,为越来越多的用户提供了便利。然而,目前对于古诗词的个性化智能推荐系统比较匮乏,绝大多数的诗词网站也只是对于诗词内容的简单展示,而非推荐,所以进行古诗词推荐方面的研究对于促进中华优秀传统文化的传播具有重要意义。本文基于Word2vec模型,通过利用网络上爬取的古诗词数据进行训练,实现了古诗词的个性化推荐。 展开更多
关键词 推荐系统 古诗 word2vec模型
在线阅读 下载PDF
基于向量空间模型和Word2vec的试题相似度研究 被引量:1
14
作者 孙鹏辉 邹金霞 +1 位作者 韩婧妍 曲家锴 《信息记录材料》 2020年第4期149-151,共3页
随着教育领域信息化技术的不断深入发展,试卷信息系统应运而生,不过由于老师上传试卷的各种主客观因素,试卷的重复问题一直无法避免。利用Word2vec模型和向量空间模型对试题进行相似度分析,使用跳字模型对语料库进行训练之后得到词向量... 随着教育领域信息化技术的不断深入发展,试卷信息系统应运而生,不过由于老师上传试卷的各种主客观因素,试卷的重复问题一直无法避免。利用Word2vec模型和向量空间模型对试题进行相似度分析,使用跳字模型对语料库进行训练之后得到词向量,最后再使用余弦相似度算法得到检查结果。实验结果显示,算法的准确度与人工判定的结果对比达到了90.47%,算法取得了较好的成果。 展开更多
关键词 相似度检查 word2vec 向量空间模型 余弦理论
在线阅读 下载PDF
融入Attention机制改进Word2vec技术的水利水电工程专业词智能提取与分析方法 被引量:23
15
作者 李明超 田丹 +2 位作者 沈扬 Jonathan Shi 韩帅 《水利学报》 EI CSCD 北大核心 2020年第7期816-826,共11页
水利水电工程专业文本信息处理与分析以往主要依赖于人工交互,存在过程繁琐、效率低且易出错等问题。本文基于自然语言处理技术,引入Attention机制对Word2vec技术加以改进,提出了一种智能高效的水利水电工程专业词识别提取与分析方法。... 水利水电工程专业文本信息处理与分析以往主要依赖于人工交互,存在过程繁琐、效率低且易出错等问题。本文基于自然语言处理技术,引入Attention机制对Word2vec技术加以改进,提出了一种智能高效的水利水电工程专业词识别提取与分析方法。该方法通过组合Attention机制,改进Word2vec技术建立了专业词向量计算模型;根据所求词向量,计算词语间相似度,以词语间相似度为组合标准,组合提取水利水电工程专业词;进而结合已有的水利水电工程专业文本,验证所提取专业词的可信度,实现了水利水电工程专业词的自动提炼,构建了一套水利水电工程专业词智能识别提取与分析体系。该方法应用于实际某混凝土大坝长达229周的施工监理周报文本分析中,经过3轮识别计算与分析,获得了9034个水利水电工程专业词,准确率为87.58%,有效提升了水利水电工程专业文本信息提取分析的效率、准确率与智能化水平。 展开更多
关键词 水利水电工程 专业文本 自然语言处理 向量 word2vec技术 Attention机制 智能提取
在线阅读 下载PDF
融合Word2Vec的半积累引用共词网络的领域主题演化研究 被引量:7
16
作者 程秀峰 邹晶晶 +1 位作者 叶光辉 夏立新 《情报学报》 CSSCI CSCD 北大核心 2023年第7期801-815,共15页
发现并厘清学科及领域的发展路径和演化脉络,对科学研究和学科发展具有重要意义。针对传统共词分析法的不足和主题演化分析维度的单一性问题,本文提出了一种基于引用共词网络的主题发现与演化分析方法,并以情报学领域为例进行了实证研... 发现并厘清学科及领域的发展路径和演化脉络,对科学研究和学科发展具有重要意义。针对传统共词分析法的不足和主题演化分析维度的单一性问题,本文提出了一种基于引用共词网络的主题发现与演化分析方法,并以情报学领域为例进行了实证研究。通过引用关系定义“引用共现”关联,并融合词嵌入技术构建关键词网络;使用社区探测法识别领域主题,采用后离散分析法,从内容结构和发展趋势两个角度进行学科主题演化分析,并可视化呈现主题演化路径及发展趋势。研究结果表明,本文所构建网络比传统共词网络能呈现粒度更优的主题聚类效果,并且能较好地呈现主题动态演化趋势,是共词分析法的有效补充。 展开更多
关键词 主题演化 引用共网络 word2vec模型 时间序列 战略坐标
在线阅读 下载PDF
基于word2vec的大中华区词对齐库的构建 被引量:6
17
作者 王明文 徐雄飞 +1 位作者 徐凡 李茂西 《中文信息学报》 CSCD 北大核心 2015年第5期76-83,共8页
该文针对大陆、香港和台湾地区(简称大中华区)存在同一种语义但采用不同词语进行表达的语言现象进行分析。首先,我们抓取了维基百科以及简繁体新闻网站上的3 200 000万组大中华区平行句对,手工标注了一致性程度达到95%以上的10 000组大... 该文针对大陆、香港和台湾地区(简称大中华区)存在同一种语义但采用不同词语进行表达的语言现象进行分析。首先,我们抓取了维基百科以及简繁体新闻网站上的3 200 000万组大中华区平行句对,手工标注了一致性程度达到95%以上的10 000组大中华区平行词对齐语料库。同时,我们提出了一个基于word2vec的两阶段大中华区词对齐模型,该模型采用word2vec获取大中华区词语的向量表示形式,并融合了有效的余弦相似度计算方法以及后处理技术。实验结果表明我们提出的大中华区词对齐模型在以上两种不同文体的词对齐语料库上的F1值显著优于现有的GIZA++和基于HMM的基准模型。此外,我们在维基百科上利用该词对齐模型进一步生成了90 029组准确率达82.66%的大中华区词语三元组。 展开更多
关键词 大中华区 对齐 最长公共子序列 word2vec
在线阅读 下载PDF
基于词向量Doc2vec的双向LSTM情感分析 被引量:8
18
作者 张俊飞 毕志升 吴小玲 《计算机与数字工程》 2018年第12期2385-2389,2399,共6页
针对词嵌入技术Word2vec仅仅利用上下文环境生成词向量,对文档词序语义表达不足,提出Doc2vec词向量生成方式;LSTM按照历史顺序处理时间序列数据,没有考虑到下文信息,因此提出双向LSTM实现评教评语的情感分析。通过两组对比实验:Word2vec... 针对词嵌入技术Word2vec仅仅利用上下文环境生成词向量,对文档词序语义表达不足,提出Doc2vec词向量生成方式;LSTM按照历史顺序处理时间序列数据,没有考虑到下文信息,因此提出双向LSTM实现评教评语的情感分析。通过两组对比实验:Word2vec和Doc2vec词向量生成对比实验、LSTM和双向LSTM评教评语情感分析对比实验,验证了Doc2vec词向量技术对句子的表达优于Word2vec,双向LSTM在情感分析中具有更高的精准度。 展开更多
关键词 嵌入 word2vec Doc2vec LSTM 双向LSTM
在线阅读 下载PDF
基于Huffman-LDA和Weight-Word2vec的文本表示模型研究 被引量:4
19
作者 黄春雨 胡迪 +1 位作者 邱宁佳 孙爽滋 《长春理工大学学报(自然科学版)》 2020年第1期89-96,132,共9页
LDA是对主题到文档的全局结构建模,但其特征中缺少文档内部的局部词之间的关系,只能获得稀疏特征。Word2vec是一种基于上下文预测目标词的词嵌入模型,然而,基于这种方法只能以局部信息表示文档特征,缺乏全局信息。LDA和Word2vec的文本... LDA是对主题到文档的全局结构建模,但其特征中缺少文档内部的局部词之间的关系,只能获得稀疏特征。Word2vec是一种基于上下文预测目标词的词嵌入模型,然而,基于这种方法只能以局部信息表示文档特征,缺乏全局信息。LDA和Word2vec的文本表示模型是基于主题向量和文档向量计算新的特征表示文本,但直接计算所得的稀疏主题特征与基于词向量的文档特征的距离,缺乏特征的一致性。本文提出了Huffman-LDA和Weight-Word2vec的文本表示模型,首先,使用LDA模型得到主题向量后构建主题哈夫曼树,再运用梯度上升方法更新主题向量,新的主题向量包含不同主题词之间的关系,求得的特征不再具有稀疏性;然后,使用LDA主题向量与主题矩阵中词的主题特性计算词权重更新Word2vec的词向量,使得词向量包含主题词之间的关系进而表示文档向量;最后,通过主题向量和文档向量的欧式距离得到具有强分类特征的文本表示。实验结果表明,该方法可获得更强的文本表示特征,有效提高文档分类精度。 展开更多
关键词 主题模型 嵌入 文本表示 Huffman-LDA Weight-word2vec
在线阅读 下载PDF
基于LDA-Word2vec的图书情报领域机器学习研究主题演化与热点主题识别 被引量:15
20
作者 胡泽文 韩雅蓉 王梦雅 《现代情报》 CSSCI 北大核心 2024年第4期154-167,共14页
[目的/意义]在人工智能技术及应用快速发展与深刻变革背景下,机器学习领域不断出现新的研究主题和方法,深度学习和强化学习技术持续发展。因此,有必要探索不同领域机器学习研究主题演化过程,并识别出热点与新兴主题。[方法/过程]本文以... [目的/意义]在人工智能技术及应用快速发展与深刻变革背景下,机器学习领域不断出现新的研究主题和方法,深度学习和强化学习技术持续发展。因此,有必要探索不同领域机器学习研究主题演化过程,并识别出热点与新兴主题。[方法/过程]本文以图书情报领域中2011—2022年Web of Science数据库中的机器学习研究论文为例,融合LDA和Word2vec方法进行主题建模和主题演化分析,引入主题强度、主题影响力、主题关注度与主题新颖性指标识别热点主题与新兴热点主题。[结果/结论]研究结果表明,(1)Word2vec语义处理能力与LDA主题演化能力的结合能够更加准确地识别研究主题,直观展示研究主题的分阶段演化规律;(2)图书情报领域的机器学习研究主题主要分为自然语言处理与文本分析、数据挖掘与分析、信息与知识服务三大类范畴。各类主题之间的关联性较强,且具有主题关联演化特征;(3)设计的主题强度、主题影响力和主题关注度指标及综合指标能够较好地识别出2011—2014年、2015—2018年和2019—2022年3个不同周期阶段的热点主题。 展开更多
关键词 机器学习 LDA模型 word2vec 主题演化 热点主题 主题影响力 主题关注度
在线阅读 下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部