一种基于词共现图的文档主题词自动抽取方法被引量：30

A Kind of Automatic Text Keyphrase Extraction Method Based on Word Co-occurrence

在线阅读下载PDF

导出

摘要主题词抽取是文本自动处理的基础性工作.在对现有主题词抽取方法深入研究的基础上,提出了一种基于词共现图的文档主题词自动抽取方法;该方法以基于词频统计方法为基础,利用在词共现图形成的主题信息以及不同主题间的连接特征信息自动地提取文档中的主题词,旨在找出一些非高频词且又对主题贡献大的词.实验表明了该抽取方法抽取出的主题词更能准确地符合了作者的主题. Advances in high-volume storage media have led to an explosion in the amount of machine readable text. Keyphrase extraction is one of the fundamental works of natural language processing. In this paper, a novel automatic text keyphrase extraction method based on word co-occurrence is put forward on the basis of the research of existing keyphrase extraction method. The method, based on word frequency statistics utilizes text subject information based on word co-occurrence graph and linkage information of different text subjects. Our goal is to extract keyphrases with content most accurately matching specific and unique interest of the user. This algorithm for extracting keyphrases represents the asserted main point in a document, without relying on external devices such as natural language processing tools or a document corpus. Our algorithm is based on the segmentation of a graph, representing the co occurrence between terms in a document, into clusters. Each cluster corresponds to a concept on which author＇ s idea is based, and the top ranked terms on statistical basis. The relationship between each term to these clusters is selected as keyphrases. The experimental results show that thus extracted terms match author＇s point quite accurately, even though this method does not use the average frequency of each term in a corpus, i.e., this method is a content sensitive, domain independent device of indexing. Its purpose finds the words of nonfrequeney but great contribution to text subject. The concepts or ideas. greatest benefit is the extraction of nonfrequency words which carry the effect of the document, i. e. , preseuted by the author. This merit can lead to the satisfaction of search engine users with unique interests.

作者耿焕同蔡庆生于琨赵鹏

机构地区中国科学技术大学计算机科学技术系

出处《南京大学学报（自然科学版）》 CAS CSCD 北大核心 2006年第2期156-162,共7页 Journal of Nanjing University（Natural Science）

基金国家自然科学基金(70171052 90104030) 安徽省教育厅自然科学基金(2005kj009zd)

关键词自然语言处理词共现图主题词 TFIDF natural language processing, word co-occurrence graph, keyphrase, term-frequency in verse-document-frenquency （TFIDF）

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1赵一唯,王和珍,李振东.WWW信息检索综述[J].南京大学学报（自然科学版）,2001,37(2):192-198. 被引量：9
2Luhn H P. A statistical approach to the mechanized encoding and searching of literary information. IBM Journal of Research and Development,1957,1(4) : 309-317.
3Luhn H P. The automatic creation of literature abstract. IBM Journal of Research and Development, 1958,2(8). 159-165
4Salton G, Yang C S. On the specification of term values in automatic indexing. Journal of Documentation, 1973,29(4): 351-372.
5Cohen J. Highlights: Language-and domain-in-dependent automatic indexing terms for abstracting. Journal of American Society for Information Science, 1995,46(3): 162-174.
6Written I H, Paynter G W, Frank E, et al.KEA: Practical automatic keyphrase extraction.Proceedings of the Fourth ACM Conference on Digital Libraries. 1999.254-255.
7Tzeras K, Hartmann S. Automatic indexing based on Bayesian inference networks. Procceedins of Interuational ACM SIGIR Conference Research and Development in Information Retrieval, Inference Networks. 1993, 22-34.
8Yutaka M, Yukio O, Mitsuru I. KeyWorld: Extracting keywords in a document as a small world. Proceeding of Discovery Science, 2001,271-281.
9Peat H J, Willet P. The limitations of term cooccurrence data for query expansion in document retrieval systems. Journal of American Society for Information Science, 1991,42(5) : 378-383.
10Chinese Natural Language Processing Platform.http://www.nlp.org.cn/docs/docredirect.php?doc_id=295,2005-03-06.

二级参考文献3

1阳小华,周龙骧.World Wide Web的索引与查询技术[J].计算机科学,1997,24(6):29-34. 被引量：21
2陈智健.WWW上Meta-Search的研究与实现[J].计算机科学,1999,26(4):38-42. 被引量：6
3马红妹,谭庆平,陈火旺.基于Push技术的信息获取方式及其应用[J].计算机科学,1999,26(3):55-58. 被引量：5

共引文献8

1宋峻峰,张维明,肖卫东,唐九阳.基于本体的信息检索模型研究[J].南京大学学报（自然科学版）,2005,41(2):189-197. 被引量：44
2武兴龙,刘新旺.二元语义信息检索模型[J].现代图书情报技术,2006(6):43-46. 被引量：1
3胡文瑜,孙志挥,张柏礼.Outlier-DivideConquer:近似聚集查询中离群分治取样算法[J].南京大学学报（自然科学版）,2011,47(5):524-531. 被引量：1
4魏瑞斌.基于微软学术搜索的信息检索研究的文献计量分析[J].图书情报工作,2012,56(20):53-57. 被引量：4
5吴秦,白玉昭,梁久祯.一种基于语义词典的局部查询扩展方法[J].南京大学学报（自然科学版）,2014,50(4):526-533. 被引量：8
6黄伟光.WWW生物信息资源的开发[J].龙岩师专学报,2002,20(6):46-48.
7许鑫,曹昉,袁翀.利用移动Agent技术改进基于概念的信息检索[J].图书情报工作,2003,47(1):86-90. 被引量：3
8柯青,王秀峰.网络检索系统研究进展综述[J].图书情报工作,2004,48(2):49-53. 被引量：4

同被引文献328

1蒋云钟,冶运涛,赵红莉,梁犁丽,曹引,顾晶晶.水利大数据研究现状与展望[J].水力发电学报,2020,39(10):1-32. 被引量：93
2钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
3叶正,林鸿飞,苏绥,刘菁菁.基于支持向量机的人物属性抽取[J].计算机研究与发展,2007,44(z2):271-275. 被引量：11
4刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
5李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93
6和亚丽,陈立潮.Web文本挖掘中的特征选取方法研究[J].计算机工程,2005,31(5):181-182. 被引量：14
7陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量：17
8王萌,何婷婷,姬东鸿,王晓荣.基于HowNet概念获取的中文自动文摘系统[J].中文信息学报,2005,19(3):87-93. 被引量：22
9季永华,许华虎,沈敏,万杰.自动答疑系统的研究与实现[J].计算机工程与应用,2005,41(14):224-225. 被引量：15
10耿焕同,肖明军,邹翔,蔡庆生.聚类算法在范例库维护中的应用研究[J].计算机工程,2005,31(12):166-168. 被引量：10

引证文献30

1耿焕同,李杰.范例推理在文本自动分类中的应用研究[J].情报理论与实践,2007,30(6):837-840. 被引量：1
2任克强,赵光甫,张国萍.基于带权语言网络的网页关键词抽取[J].计算机工程与应用,2008,44(8):155-157. 被引量：5
3耿焕同,毕硕本.范例推理在网络自动答疑系统中应用[J].计算机工程与应用,2008,44(3):31-33. 被引量：7
4聂卉.面向聚类主题的文本特征描述[J].情报学报,2009,28(4):524-529. 被引量：1
5朱倩,程显毅,丁镠,高飞.基于自然语言处理技术的网络博客版权保护双水印算法[J].南京大学学报（自然科学版）,2010,46(2):140-148. 被引量：2
6蒋昌金,彭宏,陈建超,马千里,严桂夺.基于组合词和同义词集的关键词提取算法[J].计算机应用研究,2010,27(8):2853-2856. 被引量：18
7刘兴林,彭宏,马千里.基于增量词集频率的文本主题词提取算法研究[J].计算机应用研究,2010,27(9):3237-3238. 被引量：5
8常鹏,马辉.高效的短文本主题词抽取方法[J].计算机工程与应用,2011,47(20):126-128. 被引量：14
9郭剑毅,李真,余正涛,张志坤.领域本体概念实例、属性和属性值的抽取及关系预测[J].南京大学学报（自然科学版）,2012,48(4):383-389. 被引量：32
10刘俊,邹东升,邢欣来,李英豪.基于主题特征的关键词抽取[J].计算机应用研究,2012,29(11):4224-4227. 被引量：30

二级引证文献296

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：8
2聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
3吴运明,王令村,魏子栋,郭顺利.基于Canopy-Kmeans的移动商务用户需求聚合挖掘及分析研究[J].情报科学,2022,40(10):97-106. 被引量：4
4宋岩,李帅,张鲁光.企业社会责任信息质量与业绩操纵——基于沪深A股上市公司年报的文本分析[J].产业经济评论（山东）,2020(2):124-141. 被引量：3
5刘一宁,郭功举,林木棵,王琳.基于位置描述的地理实体信息融合方法[J].测绘通报,2021(S01):65-69. 被引量：7
6焦自程,赵旭章,史珂轩.双语问答小程序的设计与实现[J].新一代信息技术,2022,5(5):18-20.
7潘光友,李娅芳,许易琦.学术论文关键词的概念辨析和选词应注意问题[J].云南大学学报（自然科学版）,2011,33(S2):57-58. 被引量：6
8谢凤宏,张大为,黄丹,谢福鼎.基于加权复杂网络的文本关键词提取[J].系统科学与数学,2010,30(11):1592-1596. 被引量：14
9时睿,封化民.一种基于名词的微博语义计算方法[J].北京电子科技学院学报,2011,19(4):16-22. 被引量：4
10李伟,杨思春,纪滨.自动答疑系统中问题的聚类分析[J].计算机技术与发展,2012,22(3):43-46. 被引量：1

1胡健,马范援.基于Morphology处理和主题词抽取的垃圾邮件过滤方法[J].上海交通大学学报,2005,39(12):1963-1966. 被引量：4
2钱强,庞林斌,高尚.一种基于词共现图的受限领域自动问答系统[J].计算机应用研究,2013,30(3):841-843. 被引量：16
3于娟,党延忠.结合词性分析与串频统计的词语提取方法[J].系统工程理论与实践,2010,30(1):105-111. 被引量：19
4常鹏,马辉.高效的短文本主题词抽取方法[J].计算机工程与应用,2011,47(20):126-128. 被引量：14
5齐保元,史忠植.基于维基百科和条件随机场的领域主题词抽取方法[J].高技术通讯,2014,24(6):602-608. 被引量：1
6石晶,李万龙.基于LDA模型的主题词抽取方法[J].计算机工程,2010,36(19):81-83. 被引量：47
7刘菲,黄萱菁,吴立德.利用关联规则挖掘文本主题词的方法[J].计算机工程,2008,34(7):81-83. 被引量：10
8肖红,许少华.改进的话题检测和跟踪算法研究[J].计算机技术与发展,2014,24(9):84-88. 被引量：3
9毛军,王永成,刘凯.基于关联矩阵的主题概念选择算法研究[J].计算机仿真,2005,22(5):90-91. 被引量：1
10余刚,陈华月,朱征宇,高原.基于词同现频率的文本特征描述[J].计算机工程与设计,2005,26(8):2180-2182. 被引量：8

南京大学学报（自然科学版）

2006年第2期

浏览历史

内容加载中请稍等...

一种基于词共现图的文档主题词自动抽取方法被引量：30

参考文献11

二级参考文献3

共引文献8

同被引文献328

引证文献30

二级引证文献296

相关作者

相关机构

相关主题

浏览历史

一种基于词共现图的文档主题词自动抽取方法 被引量：30

参考文献11

二级参考文献3

共引文献8

同被引文献328

引证文献30

二级引证文献296

相关作者

相关机构

相关主题

浏览历史

一种基于词共现图的文档主题词自动抽取方法被引量：30