TF-IDF与规则相结合的中文关键词自动抽取研究被引量：35

TF-IDF and Rules Based Automatic Extraction of Chinese Keywords

在线阅读下载PDF

导出

摘要关键词的抽取广泛应用于自然语言处理过程中.对于中文关键词抽取,分词结果及候选词的选取严重影响后期的抽取结果.针对候选词的选取,提出一种连续单字未登录词识别和多词短语识别的方法来进行候选词选择,可以较好的识别出频率大于1的未登录词,且不依赖于语料库规模和领域.并且,在传统的TF-IDF基础上,结合位置特征和长度特征的情况下,考虑兼类词的不同词性问题,提出改进的TF-IDF计算公式,进行关键词抽取.通过比较实验,证明了候选词对关键词抽取的影响,与TF-IDF进行比较实验,改进的TF-IDF的准确率提高了5%左右. Keywords extraction is widely used in natural language processing.For Chinese keyword extraction,the selection of candidate words affects the final result of keywords extraction.This paper proposes a method to recognize unknown words that consist of continuous individual chinese characters and muti-words phrases.The method can better identify the unknown word whose frequency is greater than one without depending on the scale and scope of the corpus.Considering of the words with different part of speeches and word＇s position and length,keywords and key phrases extraction is completed based on a newmethod which adds those features to traditional TF-IDF.With comparision exteriments,it shows that the affection of candidate words.Compared to the traditional TF-IDF,the value of P,R and F of the improved TD-IDF method improves about 5%.

作者牛萍黄德根

机构地区大连理工大学计算机学院

出处《小型微型计算机系统》 CSCD 北大核心 2016年第4期711-715,共5页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(61173100 61173101 61272375)资助

关键词抽取未登录词识别候选词抽取 TF-IDF extraction unknown word recognition candidate word selection TF-IDF

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1王锦波,王莲芝,高万林,喻健.一种改进的朴素贝叶斯关键词提取算法研究[J].计算机应用与软件,2014,31(2):174-176. 被引量：9
2黄先珍,杨玉珍,刘培玉.信息过滤中基于统计与规则的关键词抽取研究[J].计算机工程,2012,38(2):57-59. 被引量：9
3张建娥.基于TFIDF和词语关联度的中文关键词提取方法[J].情报科学,2012,30(10):1542-1544. 被引量：43
4战学刚,吴强.基于TF统计和语法分析的关键词提取算法[J].计算机应用与软件,2014,31(1):47-49. 被引量：12
5霍帅,张敏,刘奕群,马少平.基于微博内容的新词发现方法[J].模式识别与人工智能,2014,27(2):141-145. 被引量：25
6林自芳,蒋秀凤.基于词内部模式的新词识别[J].计算机与现代化,2010(11):162-164. 被引量：17
7Huang Degen,Tong Deqin.Context Information and Fragments Based Cross-Domain Word Segmentation[J].China Communications,2012,9(3):49-57. 被引量：8
8刘佳宾,陈超,邵正荣,吉翔华.基于机器学习的科技文摘关键词自动提取方法[J].计算机工程与应用,2007,43(14):170-172. 被引量：15

二级参考文献57

1钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
2孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
3李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93
4邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：60
5夏天,樊孝忠,刘林.利用JNI实现ICTCLAS系统的Java调用[J].计算机应用,2004,24(B12):177-178. 被引量：24
6周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43
7郑家恒,卢娇丽.关键词抽取方法的研究[J].计算机工程,2005,31(18):194-196. 被引量：41
8王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
9程岚岚,何丕廉,孙越恒.基于朴素贝叶斯模型的中文关键词提取算法研究[J].计算机应用,2005,25(12):2780-2782. 被引量：13
10陈文亮,朱靖波,朱慕华,姚天顺.基于领域词典的文本特征表示[J].计算机研究与发展,2005,42(12):2155-2160. 被引量：23

共引文献116

1徐文海,温有奎.一种基于TFIDF方法的中文关键词抽取算法[J].情报理论与实践,2008,31(2):298-302. 被引量：65
2林冀.基于网络标签的研究[J].中国科技博览,2010(8):94-95.
3蒋昌金,彭宏,陈建超,马千里,严桂夺.基于组合词和同义词集的关键词提取算法[J].计算机应用研究,2010,27(8):2853-2856. 被引量：18
4杨春明,韩永国.快速的领域文档关键词自动提取算法[J].计算机工程与设计,2011,32(6):2142-2145. 被引量：12
5黄轩,李熔烽.博客语料的新词发现方法[J].现代电子技术,2013,36(2):144-146. 被引量：17
6冷伏海,白如江,祝清松.面向科技文献的混合语义信息抽取方法研究[J].图书情报工作,2013,57(11):112-119. 被引量：28
7刘兴林.改进的增量词集频率主题词提取算法[J].计算机应用,2013,33(9):2546-2549. 被引量：2
8杨宏进.基于关键词检查属性指标的方法研究[J].统计研究,2013,30(8):10-16. 被引量：3
9张建娥.基于多特征融合的中文文本关键词提取方法[J].情报理论与实践,2013,36(10):105-108. 被引量：17
10战学刚,吴强.基于TF统计和语法分析的关键词提取算法[J].计算机应用与软件,2014,31(1):47-49. 被引量：12

同被引文献317

1周文波.盾构法隧道施工智能化辅助决策系统的研制与应用[J].岩石力学与工程学报,2003,22(z1):2412-2417. 被引量：14
2王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
3左晓飞,刘怀亮,范云杰,赵辉.基于概念语义场的文本聚类算法研究[J].情报杂志,2012,31(5):180-184. 被引量：2
4朱云龙.食品安全网络舆情引导应对研究[J].东南传播,2013(5):43-44. 被引量：5
5王来华.中国特色舆情理论研究及学科建设论略[J].南京社会科学,2014(1):107-114. 被引量：11
6周文波.盾构法隧道施工对周围环境影响和防治的专家系统[J].地下工程与隧道,1993(4):120-128. 被引量：10
7谌志群,张国煊.文本挖掘研究进展[J].模式识别与人工智能,2005,18(1):65-74. 被引量：52
8吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
9陈昌曙.产业研究论纲[J].自然辩证法研究,1994,10(11):48-54. 被引量：17
10王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129

引证文献35

1李文慧,张英俊,潘理虎.多因素影响特征选择的短文本分类方法[J].计算机系统应用,2018,27(12):216-221. 被引量：3
2张锡忠,徐建民.基于术语同义关系的文档相似度研究[J].河北大学学报（自然科学版）,2017,37(1):108-112. 被引量：3
3李猛,刘元宁.一种基于信息增益的新垃圾邮件特征选择算法[J].吉林大学学报（理学版）,2017,55(2):379-382. 被引量：2
4汤洋,汤敏倩.网络招聘信息中职业类型与专业领域的情报分析[J].情报杂志,2017,36(6):72-77. 被引量：11
5姚梦辉,刘军旗,封瑞雪,陈根深,赵剑雄.地质灾害信息存储技术及检索方法[J].计算机系统应用,2018,27(6):209-213. 被引量：2
6黄晓玲,王浩,李磊,伏明兰.基于邻居网络的科学文献关键词提取[J].模式识别与人工智能,2018,31(8):750-762.
7李时.基于大数据的电网设备台账对应准确度提升[J].电力大数据,2018,21(11):15-21. 被引量：3
8张希翔,梁彪.基于潜语义模型的电网信息作业实施方案风险评估方法[J].电工技术,2019,0(9):37-39. 被引量：1
9景永霞,王治和,苟和平.基于矩阵奇异值分解的文本分类算法研究[J].西北师范大学学报（自然科学版）,2018,54(3):51-56. 被引量：7
10何天文,王红,刘海燕.基于词语相关性的对话系统话题分割[J].计算机应用研究,2019,36(4):1010-1014. 被引量：3

二级引证文献175

1周抒,王昊,施国良,石斌,裘靖文.一种多粒度多注意力交互匹配网络模型在金融领域智能问答系统的对话改进研究[J].数据分析与知识发现,2024,8(8):240-250.
2赵建飞,陈挺,王小梅,冯冲.基于大语言模型知识自蒸馏的无标注专利关键信息抽取[J].数据分析与知识发现,2024,8(8):133-143. 被引量：2
3朱丽雅,张珺,洪亮,罗绍辉,兰度.数字人文领域的知识图谱:研究进展与未来趋势[J].知识管理论坛,2022(1):87-100. 被引量：5
4李一啸,罗春华,林葭莹.标签与情感性对政务微博网民参与度的影响研究[J].知识管理论坛,2019,0(6):359-368. 被引量：3
5李春霞,许键,彭艳兵.基于语义关联融合的案件识别[J].数字技术与应用,2024,42(3):155-160.
6温海涤,邱振博.新媒体时代突发公共危机事件网络舆情治理能力研究[J].情报科学,2022,40(8):38-43. 被引量：1
7任明,许光,王文祥.家谱文本中实体关系提取方法研究[J].中文信息学报,2020(6):45-54. 被引量：8
8李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
9菡冰.Windows95/NT环境下MFC多线程编程技术Step By Step[J].电脑编程技巧与维护,2000(5):40-48.
10付韬,胡亮,王峰.SDN支撑的MEC系统效能评估综述[J].吉林大学学报（信息科学版）,2018,36(6):629-638. 被引量：2

1李进.矿井长直巷道中WSN的LEACH路由协议研究[J].科技广场,2016(1):70-73. 被引量：2
2董兴华,周俊林,郭树盛,吐尔洪.吾司曼.基于短语的汉维/维汉统计机器翻译[J].计算机工程,2011,37(9):16-18. 被引量：15
3赵世民,贺智涛,张志红,王惠,贾世通,姬江涛.烟叶自动定级分拣系统设计[J].农业装备与车辆工程,2017,55(1):12-16. 被引量：4
4罗智勇 ,宋柔 .一种基于可信度的人名识别方法[J].中文信息学报,2005,19(3):67-72. 被引量：20
5赖国庭,吴玉厚,富大伟.PMAC位置捕捉功能的应用[J].制造业自动化,2001,23(8):40-42. 被引量：2
6陈佑雄,向阳,张骐,潘涛.基于LSH和MapReduce的近邻模型推荐算法[J].微电子学与计算机,2013,30(12):47-49. 被引量：2
7艾山.吾买尔,吐尔根.依布拉音,卡哈尔江.阿比的热西提,早克热.卡德尔,买合木提.买买提,亚森.艾则孜.基于条件随机场的维吾尔文组块分析[J].中文信息学报,2016,30(3):90-95. 被引量：1
8林树宽,柳帅,陈祖龙,乔建忠.基于分类层次偏好树和用户间信任度的位置推荐方法[J].小型微型计算机系统,2015,36(8):1677-1681. 被引量：4
9胡亚楠,舒佳根,钱龙华,朱巧明.基于机器翻译的跨语言关系抽取[J].中文信息学报,2013,27(5):191-197. 被引量：2
10董跃华,郭士串.结合权重因子和特征向量改进的混合聚类方法[J].计算机应用与软件,2015,32(11):264-268. 被引量：2

小型微型计算机系统

2016年第4期

浏览历史

内容加载中请稍等...

TF-IDF与规则相结合的中文关键词自动抽取研究被引量：35

参考文献8

二级参考文献57

共引文献116

同被引文献317

引证文献35

二级引证文献175

相关作者

相关机构

相关主题

浏览历史

TF-IDF与规则相结合的中文关键词自动抽取研究 被引量：35

参考文献8

二级参考文献57

共引文献116

同被引文献317

引证文献35

二级引证文献175

相关作者

相关机构

相关主题

浏览历史

TF-IDF与规则相结合的中文关键词自动抽取研究被引量：35