期刊文献+
共找到30篇文章
< 1 2 >
每页显示 20 50 100
基于LDA和TF-IDF的关键词提取算法研究 被引量:6
1
作者 苏婧琼 苏艳琼 《长江信息通信》 2024年第1期78-80,共3页
在自然语言处理领域,对于海量的文本文件,让用户在最短的时间找到到自己感兴趣的文档,最关键的工作是要每篇文档的关键词提取出来。而不管是针对一篇长文章或是一篇短文章,通常能够直接通过这几个关键字去窥探出整篇文章背后的主题思想... 在自然语言处理领域,对于海量的文本文件,让用户在最短的时间找到到自己感兴趣的文档,最关键的工作是要每篇文档的关键词提取出来。而不管是针对一篇长文章或是一篇短文章,通常能够直接通过这几个关键字去窥探出整篇文章背后的主题思想。文章分别介绍了LDA主题模型和TFIDF算法在关键词提取中的应用,并进行了对比,结果表明在关键词提取方面都可以取得较好的效果。 展开更多
关键词 LDA主题模型 TFIDF算法 关键词提取
在线阅读 下载PDF
基于语义的中文文本关键词提取算法 被引量:48
2
作者 王立霞 淮晓永 《计算机工程》 CAS CSCD 2012年第1期1-4,共4页
为克服传统关键词提取算法局限于字面匹配、缺乏语义理解的缺点,提出一种基于语义的中文文本关键词提取(SKE)算法。将词语语义特征融入关键词提取过程中,构建词语语义相似度网络并利用居间度密度度量词语语义关键度。实验结果表明,与基... 为克服传统关键词提取算法局限于字面匹配、缺乏语义理解的缺点,提出一种基于语义的中文文本关键词提取(SKE)算法。将词语语义特征融入关键词提取过程中,构建词语语义相似度网络并利用居间度密度度量词语语义关键度。实验结果表明,与基于统计特征的关键词提取算法相比,SKE算法提取的关键词能体现文档的主题,更符合人们的感知逻辑,且算法性能较优。 展开更多
关键词 提取算法相比 SKE算法提取关键词能体现文档的主题 更符合人们的感知逻辑 算法性能较优.关键词:关键词提取 语义相似度 词语语义相似度网络 居间度 中文文本
在线阅读 下载PDF
基于上下文关系和TextRank算法的关键词提取方法 被引量:4
3
作者 杜海舟 陈政波 钟孔露 《上海电力学院学报》 CAS 2017年第6期607-612,共6页
为了从海量文本中高效提取知识,提出了一种基于上下文关系和TextRank算法的中文文本关键词提取方法.首先使用传统方法提取出初始关键词,然后利用互信息筛选出在上下文中对关键词依赖程度大的词,将其作为候选关键词,最后利用TextRank算... 为了从海量文本中高效提取知识,提出了一种基于上下文关系和TextRank算法的中文文本关键词提取方法.首先使用传统方法提取出初始关键词,然后利用互信息筛选出在上下文中对关键词依赖程度大的词,将其作为候选关键词,最后利用TextRank算法计算出最能表达文本主题思想的特征关键词.实验结果表明,与传统方法相比,所提算法在查准率、查全率等相关指标上均有提高. 展开更多
关键词 关键词提取 上下文关系 互信息 TextRank算法
在线阅读 下载PDF
基于TextRank算法的微博个人关键词云提取的设计与实现 被引量:2
4
作者 杨雁莹 姜莹 《电脑编程技巧与维护》 2019年第2期14-16,60,共4页
如今互联网已经成为民众表达个人态度的大平台,微博凭借其独特的传播方式对人民生活和社会舆论传播产生了极其重要的影响。面对海量的微博数据,获取文本关键词可以提高舆论监控效率,更快速、更准确地筛选出重要的文本信息并分析特征。... 如今互联网已经成为民众表达个人态度的大平台,微博凭借其独特的传播方式对人民生活和社会舆论传播产生了极其重要的影响。面对海量的微博数据,获取文本关键词可以提高舆论监控效率,更快速、更准确地筛选出重要的文本信息并分析特征。实验利用网络爬虫获取个人微博数据,经过文本预处理后根据TextRank算法提取出大量微博数据中的关键字词,显示在可视化的关键词云中,分析个人关注点及标签特征。 展开更多
关键词 微博 TextRank算法 关键词提取 词云
在线阅读 下载PDF
基于大数据技术的网络热搜关键词提取算法
5
作者 王珊珊 梁同乐 《电子测试》 2021年第10期48-49,97,共3页
传统的网络热搜关键词提取方法查全率低,无法满足使用者的需求。因此,提出基于大数据技术的网络热搜关键词提取算法。确定网络热搜关键词特征的模糊空间,基于大数据加权融合网络热搜关键词,采用大数据技术Reduce中的稀疏表示技巧,实现... 传统的网络热搜关键词提取方法查全率低,无法满足使用者的需求。因此,提出基于大数据技术的网络热搜关键词提取算法。确定网络热搜关键词特征的模糊空间,基于大数据加权融合网络热搜关键词,采用大数据技术Reduce中的稀疏表示技巧,实现网络热搜关键词提取。实验结果表明,实验组测得的查全率高于对照组两倍以上,可以弥补传统网络热搜关键词提取算法中存在的不足。 展开更多
关键词 大数据技术 网络热搜 关键词 提取算法
在线阅读 下载PDF
基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类 被引量:9
6
作者 阿力甫.阿不都克里木 李晓 《计算机科学》 CSCD 北大核心 2016年第12期36-40,共5页
针对维吾尔语文本的分类问题,提出一种基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类方法。首先,对输入文本进行预处理,滤除非维吾尔语的字符和停用词;然后,利用词语语义相似度、词语位置和词频重要性加权的TextRank... 针对维吾尔语文本的分类问题,提出一种基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类方法。首先,对输入文本进行预处理,滤除非维吾尔语的字符和停用词;然后,利用词语语义相似度、词语位置和词频重要性加权的TextRank算法提取文本关键词集合;最后,根据互信息相似度度量,计算输入文本关键词集和各类关键词集的相似度,最终实现文本的分类。实验结果表明,该方案能够提取出具有较高识别度的关键词,当关键词集大小为1250时,平均分类率达到了91.2%。 展开更多
关键词 维吾尔语 文本分类 关键词提取 TextRank算法 互信息相似度
在线阅读 下载PDF
TextRank在多模态教学资源关键词提取中应用
7
作者 李章民 杨明月 《福建电脑》 2024年第11期25-30,共6页
为提高多模态教学资源的利用率,本文提出一种利用TextRank算法提取多模态教学资源关键词的方法。首先从非文本模态中提取合适的特征,将其转化为可以计算的文本单元,然后采用TextRank算法将多模态教学资源进行归类,并利用三方工具把多模... 为提高多模态教学资源的利用率,本文提出一种利用TextRank算法提取多模态教学资源关键词的方法。首先从非文本模态中提取合适的特征,将其转化为可以计算的文本单元,然后采用TextRank算法将多模态教学资源进行归类,并利用三方工具把多模态资源转化为文本资源。实验结果表明,TextRank算法能有效地从多模态教学资源中提取关键词,具有较高的有效性和准确性。 展开更多
关键词 多模态教学资源 TextRank算法 关键词提取
在线阅读 下载PDF
中文短文本自动关键词提取的改进RAKE算法 被引量:11
8
作者 陈可嘉 黄思翌 《小型微型计算机系统》 CSCD 北大核心 2021年第6期1171-1175,共5页
针对RAKE(Rapid Automatic Keywords Extraction)算法在中文短文本关键词提取算法中未考虑词语语义和候选关键词过长的问题,提出一种以RAKE算法为基础的改进方法.在词语特征值计算阶段,利用词项距离、词间关系频率、共现频率构建共现矩... 针对RAKE(Rapid Automatic Keywords Extraction)算法在中文短文本关键词提取算法中未考虑词语语义和候选关键词过长的问题,提出一种以RAKE算法为基础的改进方法.在词语特征值计算阶段,利用词项距离、词间关系频率、共现频率构建共现矩阵,利用语境值计算公式计算每个候选关键词的特征值;按照特征值的降序输出候选关键词,若候选关键词词语个数超过n个,则利用窗口输出算法限制关键词的长度.实验表明,本文方法在中文短文本关键词提取方面相比RAKE算法及其它算法有更好的表现. 展开更多
关键词 RAKE算法 自动关键词提取 语境 窗口输出
在线阅读 下载PDF
基于粗糙数据推理的TextRank关键词提取算法 被引量:13
9
作者 周宁 石雯茜 朱昭昭 《中文信息学报》 CSCD 北大核心 2020年第9期44-52,共9页
基于图模型的TextRank算法是一种有效的关键词提取算法,在提取关键词时可取得较高准确度。但该算法在构造图的关联边时,所采用的共现窗口规则仅考虑了局部词汇间的关联,并具有较大随意性与不确定性。针对这一问题,该文提出了一种基于粗... 基于图模型的TextRank算法是一种有效的关键词提取算法,在提取关键词时可取得较高准确度。但该算法在构造图的关联边时,所采用的共现窗口规则仅考虑了局部词汇间的关联,并具有较大随意性与不确定性。针对这一问题,该文提出了一种基于粗糙数据推理理论的改进TextRank关键词提取算法,粗糙数据推理可扩大关联范围,增加关联数据,得到的结果更加全面。结合粗糙数据推理理论中的关联规则,该文提出的算法做了以下改进:依据词义对候选关键词进行划分;再通过粗糙数据推理对不同分类中候选词间的关联关系进行推理。实验结果表明,与传统的TextRank算法相比,改进后算法的提取精度有了明显的提高,证明了利用粗糙数据推理的思想能有效地改善算法提取关键词的性能。 展开更多
关键词 粗糙数据推理 关键词提取 关联规则 TextRank算法
在线阅读 下载PDF
结合拓扑势与TextRank算法的关键词提取方法 被引量:14
10
作者 罗婉丽 张磊 《计算机应用与软件》 北大核心 2022年第1期334-338,共5页
传统的TextRank算法进行关键词提取时词语之间的连接边采用权值均分的形式进行加权,未考虑词语的语义信息。针对这种情况,提出结合拓扑势与TextRank算法的关键词提取方法。方法使用词频和词语在文中的分布情况对词语加权作为词语的全局... 传统的TextRank算法进行关键词提取时词语之间的连接边采用权值均分的形式进行加权,未考虑词语的语义信息。针对这种情况,提出结合拓扑势与TextRank算法的关键词提取方法。方法使用词频和词语在文中的分布情况对词语加权作为词语的全局影响;使用拓扑势的思想结合词语全局影响计算词语间的转移概率作为词语的局部影响;将转移概率矩阵应用于传统TextRank算法中。实验表明,考虑词语全局及局部重要性等语义信息可有效提升TextRank算法的准确率和召回率。 展开更多
关键词 TextRank算法 关键词提取 语义信息 拓扑势
在线阅读 下载PDF
基于词频统计的文本关键词提取方法 被引量:78
11
作者 罗燕 赵书良 +2 位作者 李晓超 韩玉辉 丁亚飞 《计算机应用》 CSCD 北大核心 2016年第3期718-725,共8页
针对传统TF-IDF算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大... 针对传统TF-IDF算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大多数是低频词;最后,将词频统计规律应用于关键词提取,提出基于词频统计的TFIDF算法。采用中、英文文本实验数据集进行仿真实验,其中推导出的同频词数计算公式平均相对误差未超过0.05;确立的各频次词语所占比重的最大误差绝对值为0.04;提出的基于词频统计的TF-IDF算法与传统TF-IDF算法相比,平均查准率、平均查全率和平均F1度量均有提高,而平均运行时间则均有降低。实验结果表明,在文本关键词提取中,基于词频统计的TF-IDF算法在查准率、查全率及F1指标上均优于传统TF-IDF算法,并能够有效减少关键词提取运行时间。 展开更多
关键词 词频统计 齐普夫定律 同频词 关键词提取 TF-IDF算法
在线阅读 下载PDF
中文文本同频词统计规律及在关键词提取中的应用 被引量:4
12
作者 李晓超 赵书良 +2 位作者 罗燕 陈敏 柳萌萌 《计算机应用研究》 CSCD 北大核心 2016年第4期1007-1012,共6页
通过大量实验对中文文本中同频词的统计规律进行了研究,利用齐普夫定律推导出了适合中文文本的同频词数的数学表达式,能更准确地表示出不同长度的文本中各频次的同频词数;借助同频词数的数学表达式,重新确立了中文文本中高频词和低频词... 通过大量实验对中文文本中同频词的统计规律进行了研究,利用齐普夫定律推导出了适合中文文本的同频词数的数学表达式,能更准确地表示出不同长度的文本中各频次的同频词数;借助同频词数的数学表达式,重新确立了中文文本中高频词和低频词的界分公式,并通过实验验证了该公式能够更好地界分高频词和低频词。将提出的统计规律应用于中文文本关键词提取,有效提高了关键词提取效率,在文本长度不小于3 010词的前提下,频次为1和频次为2的词不必参与TF-IDF值的计算,可将计算效率提高2~7倍,且没有造成关键词丢失。解决了学术界关心的如何处理中文低频词的问题,对关键词提取中如何处理低频词提供了可操作标准。 展开更多
关键词 同频词 齐普夫定律 布茨定律 关键词提取 TF-IDF算法
在线阅读 下载PDF
单文档关键词自动提取方法述评 被引量:2
13
作者 张越龄 《信息工程期刊(中英文版)》 2013年第1期1-7,共7页
关键词作为定义一篇文章主旨的重要元素,在文本处理、文档聚类、数据挖掘、新闻阅读、机器翻译、自动问答系统等多个方面都扮演着重要的角色。本文对单文档关键词提取方法进行了综述,分析了现有提取方法的技术特点、优势与不足,并指... 关键词作为定义一篇文章主旨的重要元素,在文本处理、文档聚类、数据挖掘、新闻阅读、机器翻译、自动问答系统等多个方面都扮演着重要的角色。本文对单文档关键词提取方法进行了综述,分析了现有提取方法的技术特点、优势与不足,并指出提高关键词自动标注算法的实用性是未来的研究热点。 展开更多
关键词 关键词 提取算法 语料库 词共现 词汇链 PAGERANK算法
在线阅读 下载PDF
基于远程学习的关键词提取技术研究 被引量:1
14
作者 曹聪慧 兰强 +1 位作者 侯群 漆为民 《电脑与电信》 2021年第8期1-5,9,共6页
伴随着互联网技术的发展,文本数量的爆发式增长带来了处理文本数据的一些困扰,传统的文本聚类以及关键词提取的技术不能很好解决对大数据进行精准筛选的需求。对此,提出利用基于LDA算法的潜在语义模型来对文本进行文本聚类,得到了对文... 伴随着互联网技术的发展,文本数量的爆发式增长带来了处理文本数据的一些困扰,传统的文本聚类以及关键词提取的技术不能很好解决对大数据进行精准筛选的需求。对此,提出利用基于LDA算法的潜在语义模型来对文本进行文本聚类,得到了对文本进行聚类的结果和LDA提取出来的主题词语;然后利用FP-growth算法对LDA算法的结果进行分析,对文本进行挖掘,得到中文关键词集;借助网络知识库的思想,利用百度百科提出了汉语比对算法对中文关键词集进行筛选,过滤掉了很多噪声词。实验表明,本文的方法可以很好地对给定的中文语料文本进行文本聚类和关键词提取,特别是在增加了基于百度百科远程学习的筛选之后,系统的准确率有大幅度的提高。 展开更多
关键词 文本聚类 关键词提取 LDA算法 远程学习 汉语比对算法
在线阅读 下载PDF
基于评论数据的文本关键词提取和可视化方法 被引量:1
15
作者 林素红 杜玉红 《信息与电脑》 2022年第23期101-103,共3页
针对大数据时代,各业务评论数据的增长速度前所未有,阅读耗时且难以把握关键内容,数据普遍存在杂乱无章、内容量大以及价值信息难提取等问题。因此,提出基于评论数据的文本关键词提取和可视化方法。通过网络数据爬虫技术采集商业旅游网... 针对大数据时代,各业务评论数据的增长速度前所未有,阅读耗时且难以把握关键内容,数据普遍存在杂乱无章、内容量大以及价值信息难提取等问题。因此,提出基于评论数据的文本关键词提取和可视化方法。通过网络数据爬虫技术采集商业旅游网站景点评论数据,从Pythonjieba分词工具包里导入文本提取功能,再采用TextRank算法对景点评价词汇进行处理,提取热度关键词和权重值,最后经Echarts图进行展示,形成词云图,通过看图直接掌握文本重要内容,可节省大量的阅读时间。 展开更多
关键词 评论数据 文本关键词提取 可视化 数据爬虫 TextRank算法 Echarts图
在线阅读 下载PDF
基于通配符模式与随机游走的关键词提取方法 被引量:1
16
作者 马慧芳 李苗 +1 位作者 童海斌 詹子俊 《计算机工程》 CAS CSCD 北大核心 2020年第7期78-83,共6页
结合通配符模式与引入先验信息的随机游走算法,提出一种改进的关键词提取方法。使用通配符约束捕获词语之间的语义关系,提取满足间隙约束和一次性条件的顺序模式以计算模式支持度,并在模式支持度大于等于最小支持度阈值时建立节点关联... 结合通配符模式与引入先验信息的随机游走算法,提出一种改进的关键词提取方法。使用通配符约束捕获词语之间的语义关系,提取满足间隙约束和一次性条件的顺序模式以计算模式支持度,并在模式支持度大于等于最小支持度阈值时建立节点关联图。将维基百科知识库中词语间的相似度作为先验信息,利用基于先验信息的PageRank算法在关联图上进行随机游走直至其排名分数趋于稳定,选取排名前Top K个词语作为关键词。实验结果表明,与TextRank、GraphSum算法相比,该方法具有更高的提取准确率及稳定性。 展开更多
关键词 关键词提取 通配符模式 随机游走 间隙约束 PAGERANK算法
在线阅读 下载PDF
基于关键词的文本向量化与分类算法研究 被引量:5
17
作者 苏玉龙 张著洪 《贵州大学学报(自然科学版)》 2018年第3期101-105,共5页
针对自然语言文本集的预处理和分类问题,将词频统计方法(TF-IDF)引入到关键词提取(TextRank)算法中,并结合word2vec词向量化方法获得基于关键词的改进型文本向量化算法;进而,在k近邻算法中引入k值校正规则,并与该改进型算法结合获得文... 针对自然语言文本集的预处理和分类问题,将词频统计方法(TF-IDF)引入到关键词提取(TextRank)算法中,并结合word2vec词向量化方法获得基于关键词的改进型文本向量化算法;进而,在k近邻算法中引入k值校正规则,并与该改进型算法结合获得文本集的改进型分类算法。利用格式和类别多样、数据量较大的文本集数据进行实验,结果表明,通过该方法可有效实现文档深层语义特征与浅层词频统计特征的融合,提取的文本关键词能较好表征文档的内容和类别,证明了获得的分类效果具有明显的优势。 展开更多
关键词 TF-IDF算法 关键词提取 文本向量化 自适应KNN算法 文本分类
在线阅读 下载PDF
基于文本的关键词提取方法研究与实现 被引量:2
18
作者 姜永清 赵宪佳 《信息与电脑》 2020年第5期51-54,共4页
关键词提取技术是目前计算机文本分类等技术采用的基本技术。笔者根据传统TFIEF算法的特点,研究出创新型的关键词提取算法,算法的基础是以词语权重来计算的,并在文本候选关键词中把词频比设计成去噪音的权值以及引入词语相似度,该方法... 关键词提取技术是目前计算机文本分类等技术采用的基本技术。笔者根据传统TFIEF算法的特点,研究出创新型的关键词提取算法,算法的基础是以词语权重来计算的,并在文本候选关键词中把词频比设计成去噪音的权值以及引入词语相似度,该方法对降低文本同类语料库提取关键词权重的影响都是非常有效的,也消除了TFIDF算法存在偏差。经过实验的分析和对比,该新型方法拥有更高的平均召回率。 展开更多
关键词 TFIDF算法 关键词提取 词语相似度
在线阅读 下载PDF
应用HITS算法对文本聚类结果进行类别描述的可行性分析 被引量:2
19
作者 赵悦阳 崔雷 《医学信息学杂志》 CAS 2012年第12期37-41,共5页
介绍HITS算法的基本思想和执行方法,提取出聚类结果中每一类的特征词,基于HITS算法客观地描述聚类分析结果,分析其可行性并进行应用尝试。实践证明利用该算法进行聚类结果特征提取切实可行。
关键词 HITS算法 关键词提取 同被引聚类分析 聚类树图
在线阅读 下载PDF
基于VBA的简答题自动阅卷系统相关算法研究
20
作者 李莹 杨春哲 《中国高新技术企业》 2015年第35期20-21,共2页
在教育部大力倡导教育信息化发展的今天,自动阅卷技术的研究逐渐成为热点,其已经成为教育信息化平台搭建中不可或缺的一部分。文章针对简答题自动阅卷过程中涉及的分句与分词算法、关键词提取算法、相似度计算算法进行了分析。
关键词 自动阅卷系统 简答题 分句算法 分词算法 关键词提取算法 VBA
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部