期刊文献+
共找到599篇文章
< 1 2 30 >
每页显示 20 50 100
基于LDA和Word2Vec模型的学位论文评阅意见主题挖掘与分析 被引量:1
1
作者 王孟 苏进城 陈志德 《福建师范大学学报(自然科学版)》 CAS 北大核心 2024年第5期41-51,共11页
选取某高校部分硕士学位论文评阅意见为研究对象,使用自然语言处理和机器学习技术进行自动化的硕士学位论文评阅意见主题挖掘与分析。首先,采用LDA(latent dirichlet allocation)模型对评阅数据进行主题建模,提取文本中的潜在主题,并将... 选取某高校部分硕士学位论文评阅意见为研究对象,使用自然语言处理和机器学习技术进行自动化的硕士学位论文评阅意见主题挖掘与分析。首先,采用LDA(latent dirichlet allocation)模型对评阅数据进行主题建模,提取文本中的潜在主题,并将评阅意见转化为主题分布向量;其次,结合Word2Vec模型将评阅意见的关键词转化为向量表达;最后,采用TextRank方法提取关键词,以揭示评阅专家的关注核心主题。实验结果表明,所提方法能为高校管理人员提供切实有效的分析工具,有助于他们更好地分析总结评阅意见,同时也为硕士研究生撰写高质量学位论文提供有益借鉴。 展开更多
关键词 硕士学位论文 自然语言处理 LDA模型 word2vec模型 TextRank方法
在线阅读 下载PDF
基于Word2Vec模型与RAG框架的医疗检索增强生成算法 被引量:1
2
作者 刘彦宏 崔永瑞 《人工智能与机器人研究》 2024年第3期479-486,共8页
当今通用人工智能(AGI)发展火热,各大语言模型(LLMs)层出不穷。大语言模型的广泛应用大大提高了人们的工作水平和效率,但大语言模型也并非完美的,同样伴随着诸多缺点。如:敏感数据安全性、幻觉性、时效性等。同时对于通用大语言模型来讲... 当今通用人工智能(AGI)发展火热,各大语言模型(LLMs)层出不穷。大语言模型的广泛应用大大提高了人们的工作水平和效率,但大语言模型也并非完美的,同样伴随着诸多缺点。如:敏感数据安全性、幻觉性、时效性等。同时对于通用大语言模型来讲,对于一些专业领域问题的回答并不是很准确,这就需要检索增强生成(RAG)技术的支持。尤其是在智慧医疗领域方面,由于相关数据的缺乏,不能发挥出大语言模型优秀的对话和解决问题的能力。本算法通过使用Jieba分词,Word2Vec模型对文本数据进行词嵌入,计算句子间的向量相似度并做重排序,帮助大语言模型快速筛选出最可靠可信的模型外部的医疗知识数据,再根据编写相关的提示词(Prompt),可以使大语言模型针对医生或患者的问题提供令人满意的答案。Nowadays, general artificial intelligence is developing rapidly, and major language models are emerging one after another. The widespread application of large language models has greatly improved people’s work level and efficiency, but large language models are not perfect and are also accompanied by many shortcomings. Such as: data security, illusion, timeliness, etc. At the same time, for general large language models, the answers to questions in some professional fields are not very accurate, which requires the support of RAG technology. Especially in the field of smart medical care, due to the lack of relevant data, the excellent conversation and problem-solving capabilities of the large language model cannot be brought into play. This algorithm uses Jieba word segmentation and the Word2Vec model to embed text data, calculate the vector similarity between sentences and reorder them, helping the large language model to quickly screen out the most reliable and trustworthy medical knowledge data outside the model, and then write relevant prompts to enable the large language model to provide satisfactory answers to doctors or patients’ questions. 展开更多
关键词 通用人工智能 大语言模型 检索增强生成 Jieba分词 word2vec PROMPT
在线阅读 下载PDF
基于Word2vec模型进行古诗词个性化推荐的研究
3
作者 刘宗亮 黄浩 《计算机科学与应用》 2018年第8期1292-1299,共8页
古诗词是中华优秀传统文化上璀璨的明珠,两千年来,我国优秀诗人辈出,其诗作若满天繁星,内容丰富,影响深远。随着计算机技术的不断发展,推荐系统在我们的生活中处处可见,为越来越多的用户提供了便利。然而,目前对于古诗词的个性化智能推... 古诗词是中华优秀传统文化上璀璨的明珠,两千年来,我国优秀诗人辈出,其诗作若满天繁星,内容丰富,影响深远。随着计算机技术的不断发展,推荐系统在我们的生活中处处可见,为越来越多的用户提供了便利。然而,目前对于古诗词的个性化智能推荐系统比较匮乏,绝大多数的诗词网站也只是对于诗词内容的简单展示,而非推荐,所以进行古诗词推荐方面的研究对于促进中华优秀传统文化的传播具有重要意义。本文基于Word2vec模型,通过利用网络上爬取的古诗词数据进行训练,实现了古诗词的个性化推荐。 展开更多
关键词 推荐系统 古诗词 word2vec模型
在线阅读 下载PDF
基于word2vec模型的专业通用词提取算法及应用举例
4
作者 田艳 王天奇 《沧州师范学院学报》 2018年第3期68-72,共5页
专业通用词是某一专业领域中所使用的通用词汇,在翻译过程中往往较难把握。目前,专业通用词主要依靠人工提取,这对分析人员的语言素养及其对语料的熟悉程度提出了较高要求,同时存在提取效率问题。基于Google发布的神经网络机器学习算法... 专业通用词是某一专业领域中所使用的通用词汇,在翻译过程中往往较难把握。目前,专业通用词主要依靠人工提取,这对分析人员的语言素养及其对语料的熟悉程度提出了较高要求,同时存在提取效率问题。基于Google发布的神经网络机器学习算法模型word2vec,提出一套专业通用词的自动提取算法,并通过Python 2.7编写的脚本实现。以国际财务报告准则语料库为例,对该算法的应用加以说明。 展开更多
关键词 word2vec 专业通用词提取 语料库翻译
在线阅读 下载PDF
基于Word2Vec模型和K-Means算法的信息技术文档聚类研究 被引量:3
5
作者 毛郁欣 邱智学 《中国信息技术教育》 2020年第8期99-101,共3页
互联网上与信息技术相关的文档和学习资料较为分散,而且会随着信息技术的发展而动态更新。作者提出了一种基于Word2Vec模型和K-Means算法的聚类方法,能够实现对与信息技术相关的网络文档的聚类,并对不同来源和主题的技术文档自动分类,... 互联网上与信息技术相关的文档和学习资料较为分散,而且会随着信息技术的发展而动态更新。作者提出了一种基于Word2Vec模型和K-Means算法的聚类方法,能够实现对与信息技术相关的网络文档的聚类,并对不同来源和主题的技术文档自动分类,此方法对构建信息技术知识库和在线学习平台具有较强的支撑作用。 展开更多
关键词 文本聚类 word2vec K-MEANS算法 领域本体
在线阅读 下载PDF
基于词典-TextCNN-Word2Vec组合模型的在线评价细粒度情感分析
6
作者 惠调艳 王智 +1 位作者 何振华 秦春秀 《情报理论与实践》 北大核心 2025年第2期168-177,共10页
[目的/意义]线上购物逐渐成为消费主流,在线情感评价成为消费者购买、厂商产品改进的重要决策依据。[方法/过程]深度挖掘商品显性和隐性属性特征,提出了融合词典-TextCNN-Word2Vec的在线评价细粒度情感分析模型。首先,利用Protég&#... [目的/意义]线上购物逐渐成为消费主流,在线情感评价成为消费者购买、厂商产品改进的重要决策依据。[方法/过程]深度挖掘商品显性和隐性属性特征,提出了融合词典-TextCNN-Word2Vec的在线评价细粒度情感分析模型。首先,利用Protégé软件和Pellet推理机推理等,构建了涵盖外观、硬件、软件、价格、质量、物流和服务7大主题维度的领域本体模型,并建立属性特征词典和情感词典;其次,针对三类在线评价,分别应用基于词典的显性属性情感分析模型、基于TextCNN的显性特征情感分类模型、基于Word2Vec的隐性特征情感分析模型,计算属性特征词的情感值;最后,通过词频加权法和熵权法,自下而上计算各层级主题属性的情感值,实现了多层次细粒度的情感挖掘。[结果/结论]综合基于词典、TextCNN和Word2Vec情感属性映射的三种模型的在线情感分析,显著提高了商品属性特征和情感分析的准确性,商品显性和隐性属性特征的总提取率高达93.77%,商品特征情感分析的加权平均准确率为86.78%。该组合模型为数字经济时代商品多属性特征的细粒度在线情感评价提供了创新研究方法。 展开更多
关键词 细粒度情感分析 情感词典 TextCNN word2vec
在线阅读 下载PDF
我国慢性病医防融合领域文献主题演化——基于Word2vec与LDA模型的可视化分析
7
作者 李艳 唐岚 黄豪 《临床医学进展》 2025年第3期980-989,共10页
为了深入研究我国慢性病医防融合领域的发展趋势和演化过程,本文收集了2006~2024年的373篇相关文献,经过数据清洗和预处理后,引入Word2vec的LDA模型进行文献的主题挖掘,确定每个时期的最佳主题数量,并生成主题演化桑基图。计算不同时间... 为了深入研究我国慢性病医防融合领域的发展趋势和演化过程,本文收集了2006~2024年的373篇相关文献,经过数据清洗和预处理后,引入Word2vec的LDA模型进行文献的主题挖掘,确定每个时期的最佳主题数量,并生成主题演化桑基图。计算不同时间段内各主题强度,并通过交互式条形图描述热点主题。结果显示,在第一阶段2006~2020年,大部分研究主要集中在如何整合医疗服务,以及如何将慢性病防控与医防结合;在第二阶段2021~2022年,除了延续既有的主题,部分研究焦点转移到如何更好地管理和融合综合医疗服务,以及如何将公共卫生服务与医疗体系更有效地结合;在第三阶段2023~2024年,研究重点在于如何实现健康服务与医防的深度融合,以及如何在医疗服务中具体落实医防融合的理念,研究更加注重实际操作和具体应用。通过主题演化分析揭示了不同时期内主题之间的关联和演化过程,综合医疗服务、慢性病防控与医防结合等主题在不同阶段都有较强的延续性,而研究重点随着时间的推移逐渐从综合医疗服务向医防融合和健康服务管理方向转移。研究发现,一些主题在不同时期内保持较高的强度,从本研究主题强度图可以看出,在慢性病医防融合领域,社区基层医疗机构在医防融合中具有重要作用,此外2021年及以后的阶段中公共卫生体系建设及医防融合成为研究的共识热点。该研究有助于更全面地理解慢性病医防融合领域的研究动态,为未来的研究方向和政策制定提供有益的参考,同时也为文本分析方法的应用提供了实践示范。未来的研究可以进一步挖掘基层医疗与医防协同机制以及健康服务管理与慢性病防控方面的潜力,更好地帮助社区基层医疗机构服务提供者应对来自人口老龄化社会慢性病高发以及多样化健康需求的挑战,同时也要关注对应的新兴技术如人工智能和大数据分析和对应的数据隐私和伦理挑战,以及政策实施中的风险。In this paper, in order to deeply study the development trend and evolution process in the field of chronic disease medical preventive integration in China, 373 relevant literatures from 2006~2024 were collected, and after data cleaning and pre-processing, the LDA model of Word2vec was introduced in the theme mining of the literature to determine the optimal number of themes in each period and generate the theme evolution Sankey diagram. The intensity of each topic in different time periods is calculated and hot topics are described by interactive bar charts. The results show that in the first period of 2006~2020, most of the studies focused on how to integrate healthcare services and how to combine chronic disease prevention and control with medical prevention;in the second period of 2021~2022, in addition to the continuation of the existing themes, some of the studies shifted their focus to how to better manage and integrate integrated healthcare services and how to combine public health services with the healthcare system more effectively;in the third stage, 2023~2024, the research focused on how to realize the deep integration of health services and medical preventive, and how to implement the concept of medical prevention integration in health care services, and the research focused more on practical operation and specific application. The analysis of theme evolution reveals the connection and evolution process between themes in different periods. The themes of comprehensive medical service, chronic disease prevention and control and medical prevention integration have strong continuity in different stages, while the focus of research gradually shifts from comprehensive medical service to medical prevention integration and health service management over time. It is found that some themes maintain a high intensity in different periods, and the intensity map of the themes in this study shows that in the field of chronic disease medical prevention integration, community-based primary healthcare organizations have an important role in medical prevention integration, and in addition, public health system construction and medical prevention integration have become consensus hotspots in research in the stage of 2021 and beyond. This study contributes to a more comprehensive understanding of the research dynamics in the field of chronic disease medical prevention integration, provides useful references for future research directions and policy formulation, and also provides a practical demonstration of the application of text analysis methods. Future research can further explore the potential of primary care and medical prevention synergistic mechanisms as well as health service management and chronic disease prevention and control to better help community-based primary care providers to cope with the challenges from the high prevalence of chronic diseases and diversified health needs of an aging population, as well as to pay attention to the corresponding emerging technologies such as artificial intelligence and big data analytics and the corresponding data privacy and ethical challenges, and the risks in policy implementation. 展开更多
关键词 文本挖掘 主题识别 LDA word2vec 慢性病 医防融合
在线阅读 下载PDF
基于Word2Vec和LDA主题模型的中国省级五年规划“文化政策”文本研究 被引量:2
8
作者 高娜 东梅 《网络安全与数据治理》 2024年第7期47-55,共9页
运用Word2Vec和LDA相结合的主题模型分析技术,对我国31个省份三个时期五年规划文本中文化政策部分进行主题识别,从时间和空间两个维度进行“文化政策”主题挖掘和演化分析。研究发现,“文化政策”主题在发展趋势、重点转移、政策导向、... 运用Word2Vec和LDA相结合的主题模型分析技术,对我国31个省份三个时期五年规划文本中文化政策部分进行主题识别,从时间和空间两个维度进行“文化政策”主题挖掘和演化分析。研究发现,“文化政策”主题在发展趋势、重点转移、政策导向、技术应用等方面随时间推移呈现不同演化趋势;四大区域受经济发展水平、文化资源禀赋、政策导向影响,在企业角色强调程度、地区特色旅游发展以及国家级项目和竞争力方面存在地域差异。 展开更多
关键词 LDA主题模型 word2vec 五年规划 文化政策 文本分析
在线阅读 下载PDF
基于SVM和Word2vec的微博评论情感识别模型 被引量:1
9
作者 闫芳序 王剑辉 《现代计算机》 2024年第10期60-64,共5页
微博作为高互动性的社媒平台,其中富含大量主观性文本数据。为挖掘评论文本中潜在的信息价值,针对传统方法中存在的语义缺失和过度依赖背景知识等问题,提出一种基于SVM和Word2vec的情感识别模型。通过Word2vec模型中的Skip-gram方法利... 微博作为高互动性的社媒平台,其中富含大量主观性文本数据。为挖掘评论文本中潜在的信息价值,针对传统方法中存在的语义缺失和过度依赖背景知识等问题,提出一种基于SVM和Word2vec的情感识别模型。通过Word2vec模型中的Skip-gram方法利用当前语境的中心词预测上下文结构,将词语映射为词向量,进而转化成向量矩阵,输入至SVM模型进行训练与分类。实验结果表明,模型的准确率为0.943,召回率为0.941,F1值为0.946,具有良好的泛化性。 展开更多
关键词 情感分析 SVM word2vec 微博
在线阅读 下载PDF
word2vec-ACV:OOV语境含义的词向量生成模型 被引量:9
10
作者 王永贵 郑泽 李玥 《计算机应用研究》 CSCD 北大核心 2019年第6期1623-1628,共6页
针对word2vec模型生成的词向量缺乏语境的多义性以及无法创建集外词(OOV)词向量的问题,引入相似信息与word2vec模型相结合,提出word2vec-ACV模型。该模型首先基于连续词袋(CBOW)和Hierarchical softmax的word2vec模型训练出词向量矩阵... 针对word2vec模型生成的词向量缺乏语境的多义性以及无法创建集外词(OOV)词向量的问题,引入相似信息与word2vec模型相结合,提出word2vec-ACV模型。该模型首先基于连续词袋(CBOW)和Hierarchical softmax的word2vec模型训练出词向量矩阵即权重矩阵;然后将共现矩阵进行归一化处理得到平均上下文词向量,再将词向量组成平均上下文词向量矩阵;最后将平均上下文词向量矩阵与权重矩阵相乘得到词向量矩阵。为了能同时解决集外词及多义性问题,将平均上下文词向量分为全局平均上下文词向量(global ACV)和局部平均上下文词向量(local ACV)两种,并对两者取权值组成新的平均上下文词向量矩阵,并将word2vec-ACV模型和word2vec模型分别进行类比任务实验和命名实体识别任务实验。实验结果表明,word2vec-ACV模型同时解决了语境多义性以及创建集外词词向量的问题,降低了时间消耗,提升了词向量表达的准确性和对海量词汇的处理能力。 展开更多
关键词 word2vec模型 词向量 共现矩阵 平均上下文词向量
在线阅读 下载PDF
Word2Vec-KNN技术支持下潮流玩具质量检测模型研究
11
作者 吕远智 《计算机应用文摘》 2024年第10期92-94,共3页
随着人们生活水平的提高,越来越多的消费者更加注重所购产品的质量,特别是在儿童玩具方面。质量不合格的玩具产品会给儿童带来诸多影响,包括但不限于安全隐患及对儿童健康产生的影响。然而,工业制造中的产品质量检测报告种类繁多且不易... 随着人们生活水平的提高,越来越多的消费者更加注重所购产品的质量,特别是在儿童玩具方面。质量不合格的玩具产品会给儿童带来诸多影响,包括但不限于安全隐患及对儿童健康产生的影响。然而,工业制造中的产品质量检测报告种类繁多且不易被理解,无法直观体现产品质量。因此,文章提出了一种基于Word2Vec与K最近邻分类算法相结合的产品质量评估模型。该模型能够通过产品质量报告对某玩具进行评估,从而判断其质量。实验结果表明,在数据集尺寸达到900时,K均值聚类算法模型、局部加权最近邻算法模型和混合模型算法模型的准确率分别为0.84,0.91与0.96,损失函数值分别为0.07,0.05及0.03,证明所提模型能够对玩具产品进行准确评估,从而为消费者和质量监管部门提供一定的决策支持。 展开更多
关键词 产品质量评估 K最近邻 word2vec 大数据
在线阅读 下载PDF
基于Word2vec与注意力机制的情感分析研究
12
作者 任伟建 徐海杰 +3 位作者 康朝海 霍凤财 任璐 张永丰 《计算机与数字工程》 2024年第10期2991-2995,3147,共6页
针对传统情感分析模型对关键词特征抓取不准确、局部情感特征提取不全面造成分类效果差的问题,提出一种基于TW-BiLSTM-ATT情感分析模型。通过对TF-IDF改进,并与Word2vec结合,使权重特征融入词向量提升对关键信息的抓取能力;将词向量的... 针对传统情感分析模型对关键词特征抓取不准确、局部情感特征提取不全面造成分类效果差的问题,提出一种基于TW-BiLSTM-ATT情感分析模型。通过对TF-IDF改进,并与Word2vec结合,使权重特征融入词向量提升对关键信息的抓取能力;将词向量的位置特征融入到注意力机制中,使模型可以关注到目标词汇附近的词,进而更加全面地将情感特征提取出来。对比实验结果表明TW-BiLSTM-ATT模型在处理情感分析任务中分类效果好于同类模型。 展开更多
关键词 word2vec TF-IDF BiLSTM ATTENTION 情感分析
在线阅读 下载PDF
分类数据的Word2Vec与Jaccard相似度聚类方法的比较分析
13
作者 孙晶 《软件》 2024年第9期49-51,共3页
在实际问题中,使用K-means算法进行聚类的数据点往往有很多特征值,这些特征值大多以文本形式存在,因此如何将大量特征值形成的稀疏数据集进行有效编码,再进行数据点聚类是一个重要的研究方向。本文提出了一种优化思路:将贝叶斯优化应用... 在实际问题中,使用K-means算法进行聚类的数据点往往有很多特征值,这些特征值大多以文本形式存在,因此如何将大量特征值形成的稀疏数据集进行有效编码,再进行数据点聚类是一个重要的研究方向。本文提出了一种优化思路:将贝叶斯优化应用于Word2Vec和K-means聚类算法的参数调优过程,通过多次迭代寻找最优参数解。通过计算分析,并与基于独热编码的Jaccard相似度计算方法实现的聚类算法结果进行比较,证明本文提出的优化改进思路聚类效果更好,准确率更高。 展开更多
关键词 K-MEANS算法 贝叶斯优化 word2vec模型 独热编码 Jaccard相似度
在线阅读 下载PDF
基于词性与词序的相关因子训练的word2vec改进模型 被引量:12
14
作者 潘博 于重重 +2 位作者 张青川 徐世璇 曹帅 《电子学报》 EI CAS CSCD 北大核心 2018年第8期1976-1982,共7页
词性是自然语言处理的基本要素,词语顺序包含了所传达的语义与语法信息,它们都是自然语言中的关键信息.在word embedding模型中如何有效地将两者结合起来,是目前研究的重点.本文提出的Structured word2vec on POS联合了词语顺序与词性... 词性是自然语言处理的基本要素,词语顺序包含了所传达的语义与语法信息,它们都是自然语言中的关键信息.在word embedding模型中如何有效地将两者结合起来,是目前研究的重点.本文提出的Structured word2vec on POS联合了词语顺序与词性两种信息,不仅使模型可以感知词语位置顺序,而且利用词性关联信息来建立上下文窗口内词语之间的固有句法关系.Structured word2vec on POS将词语按其位置顺序定向嵌入,对词向量和词性相关加权矩阵进行联合优化.实验通过词语类比、词相似性任务,证明了所提出的方法的有效性. 展开更多
关键词 word EMBEDDING 词性 相关权重 词序 word2vec
在线阅读 下载PDF
基于Word2vec和改进型TF-IDF的卷积神经网络文本分类模型 被引量:43
15
作者 王根生 黄学坚 《小型微型计算机系统》 CSCD 北大核心 2019年第5期1120-1126,共7页
针对传统机器学习文本分类算法语义特征表达弱、文本表示维度高、词序丢失、矩阵稀疏等问题,提出基于Word2vec、改进型TF-IDF和卷积神经网络三者相结合的文本分类模型(CTMWT):首先通过Word2vec模型训练得出样本中所有的词向量;然后提出... 针对传统机器学习文本分类算法语义特征表达弱、文本表示维度高、词序丢失、矩阵稀疏等问题,提出基于Word2vec、改进型TF-IDF和卷积神经网络三者相结合的文本分类模型(CTMWT):首先通过Word2vec模型训练得出样本中所有的词向量;然后提出基于类频方差改进型TF-IDF算法,分析每个词向量在文本中的权重,构建基于词向量和权重的文本向量表示;最后借助卷积神经网络从局部到全局相关性特征的学习能力,对该大量文本向量进行深度学习.试验结果表明三者结合的文本分类模型不仅能实现文本的准确分类,并且相比传统的机器学习文本分类算法具有更好的分类效果. 展开更多
关键词 word2vec 改进型TF-IDF算法 卷积神经网络 文本分类 CTMWT
在线阅读 下载PDF
基于Huffman-LDA和Weight-Word2vec的文本表示模型研究 被引量:4
16
作者 黄春雨 胡迪 +1 位作者 邱宁佳 孙爽滋 《长春理工大学学报(自然科学版)》 2020年第1期89-96,132,共9页
LDA是对主题到文档的全局结构建模,但其特征中缺少文档内部的局部词之间的关系,只能获得稀疏特征。Word2vec是一种基于上下文预测目标词的词嵌入模型,然而,基于这种方法只能以局部信息表示文档特征,缺乏全局信息。LDA和Word2vec的文本... LDA是对主题到文档的全局结构建模,但其特征中缺少文档内部的局部词之间的关系,只能获得稀疏特征。Word2vec是一种基于上下文预测目标词的词嵌入模型,然而,基于这种方法只能以局部信息表示文档特征,缺乏全局信息。LDA和Word2vec的文本表示模型是基于主题向量和文档向量计算新的特征表示文本,但直接计算所得的稀疏主题特征与基于词向量的文档特征的距离,缺乏特征的一致性。本文提出了Huffman-LDA和Weight-Word2vec的文本表示模型,首先,使用LDA模型得到主题向量后构建主题哈夫曼树,再运用梯度上升方法更新主题向量,新的主题向量包含不同主题词之间的关系,求得的特征不再具有稀疏性;然后,使用LDA主题向量与主题矩阵中词的主题特性计算词权重更新Word2vec的词向量,使得词向量包含主题词之间的关系进而表示文档向量;最后,通过主题向量和文档向量的欧式距离得到具有强分类特征的文本表示。实验结果表明,该方法可获得更强的文本表示特征,有效提高文档分类精度。 展开更多
关键词 主题模型 词嵌入 文本表示 Huffman-LDA Weight-word2vec
在线阅读 下载PDF
结合Word2vec和BiLSTM的民航非计划事件分析方法 被引量:1
17
作者 王捷 周迪 +1 位作者 左洪福 黄维 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2024年第7期917-924,共8页
安全是民航业的核心主题。针对目前民航非计划事件分析严重依赖专家经验及分析效率低下的问题,文章提出一种结合Word2vec和双向长短期记忆(bidirectional long short-term memory,BiLSTM)神经网络模型的民航非计划事件分析方法。首先采... 安全是民航业的核心主题。针对目前民航非计划事件分析严重依赖专家经验及分析效率低下的问题,文章提出一种结合Word2vec和双向长短期记忆(bidirectional long short-term memory,BiLSTM)神经网络模型的民航非计划事件分析方法。首先采用Word2vec模型针对事件文本语料进行词向量训练,缩小空间向量维度;然后通过BiLSTM模型自动提取特征,获取事件文本的完整序列信息和上下文特征向量;最后采用softmax函数对民航非计划事件进行分类。实验结果表明,所提出的方法分类效果更好,能达到更优的准确率和F 1值,对不平衡数据样本同样具有较稳定的分类性能,证明了该方法在民航非计划事件分析上的适用性和有效性。 展开更多
关键词 民航安全 文本分析 非计划事件 word2vec 双向长短期记忆(BiLSTM)神经网络
在线阅读 下载PDF
基于word2vec的内容过滤科技成果推荐模型研究 被引量:1
18
作者 陈冬林 吴天昊 +1 位作者 吴江 徐书情 《武汉理工大学学报(信息与管理工程版)》 CAS 2023年第4期599-606,共8页
针对科技成果转化难、提供方与需求方信息不对称等问题,基于word2vec构建了内容过滤推荐改进模型,以期提高科技成果推荐效率和转化率。通过word2vec对科技服务需求与科技成果的文本数据进行建模,提取词向量,再使用TF-IDF方法提取关键词... 针对科技成果转化难、提供方与需求方信息不对称等问题,基于word2vec构建了内容过滤推荐改进模型,以期提高科技成果推荐效率和转化率。通过word2vec对科技服务需求与科技成果的文本数据进行建模,提取词向量,再使用TF-IDF方法提取关键词,最后利用提取的关键词词向量的余弦相似度Sim值进行匹配,以寻找出与科技服务需求匹配的科技成果。利用公共科技服务平台“科惠网”的现代农业领域数据集对改进模型、均值word2vec模型、textrank+word2vec模型、TF-IDF余弦相似度模型进行实验,使用不同领域数据集进行对比分析。结果表明:改进模型在精确率、召回率、F 1值、ROC曲线及AUC值上表现较好,具有较高的应用价值,能够更好地帮助科技服务平台完成推荐。 展开更多
关键词 科技成果 内容过滤 word2vec 个性化推荐 科技服务需求
在线阅读 下载PDF
基于LDA-Word2vec的图书情报领域机器学习研究主题演化与热点主题识别 被引量:15
19
作者 胡泽文 韩雅蓉 王梦雅 《现代情报》 CSSCI 北大核心 2024年第4期154-167,共14页
[目的/意义]在人工智能技术及应用快速发展与深刻变革背景下,机器学习领域不断出现新的研究主题和方法,深度学习和强化学习技术持续发展。因此,有必要探索不同领域机器学习研究主题演化过程,并识别出热点与新兴主题。[方法/过程]本文以... [目的/意义]在人工智能技术及应用快速发展与深刻变革背景下,机器学习领域不断出现新的研究主题和方法,深度学习和强化学习技术持续发展。因此,有必要探索不同领域机器学习研究主题演化过程,并识别出热点与新兴主题。[方法/过程]本文以图书情报领域中2011—2022年Web of Science数据库中的机器学习研究论文为例,融合LDA和Word2vec方法进行主题建模和主题演化分析,引入主题强度、主题影响力、主题关注度与主题新颖性指标识别热点主题与新兴热点主题。[结果/结论]研究结果表明,(1)Word2vec语义处理能力与LDA主题演化能力的结合能够更加准确地识别研究主题,直观展示研究主题的分阶段演化规律;(2)图书情报领域的机器学习研究主题主要分为自然语言处理与文本分析、数据挖掘与分析、信息与知识服务三大类范畴。各类主题之间的关联性较强,且具有主题关联演化特征;(3)设计的主题强度、主题影响力和主题关注度指标及综合指标能够较好地识别出2011—2014年、2015—2018年和2019—2022年3个不同周期阶段的热点主题。 展开更多
关键词 机器学习 LDA模型 word2vec 主题演化 热点主题 主题影响力 主题关注度
在线阅读 下载PDF
基于Word2Vec和决策树的故障定位技术 被引量:1
20
作者 王露露 陈军华 《上海师范大学学报(自然科学版中英文)》 2024年第2期223-227,共5页
利用Word2Vec方法对Java源代码进行深层语义编码,生成文件级和行级的语义向量,并将其用作输入数据来训练决策树模型,以实现精确的文件级别和行级别故障定位,优化故障检测过程,构建一个综合文件级别与行级别分析的高效故障定位框架.实验... 利用Word2Vec方法对Java源代码进行深层语义编码,生成文件级和行级的语义向量,并将其用作输入数据来训练决策树模型,以实现精确的文件级别和行级别故障定位,优化故障检测过程,构建一个综合文件级别与行级别分析的高效故障定位框架.实验结果表明:该模型在各项目中的故障定位准确率均高于83%. 展开更多
关键词 故障定位 语义表示 word2vec 决策树
在线阅读 下载PDF
上一页 1 2 30 下一页 到第
使用帮助 返回顶部