基于概念统计的英文自动文摘研究被引量：9

Research on Automatic Summarization Based on Concept Counting for English Texts

在线阅读下载PDF

导出

摘要文章提出了一种基于概念统计和语义层次分析的自动文摘方法,并以此实现了一个英文自动文摘系统。系统利用WordNet对英文文章进行词语分析,用概念统计的方法选取文章的主题概念,以此构建向量空间模型;并根据主题概念在概念层次树上的分布划分意义块,以意义块为单位抽取文摘,初步解决多主题文章的文摘结构不平衡问题。该文主要介绍概念层次树的构造,主题概念的抽取步骤,句子重要度的计算和意义块的划分算法。测试表明该文提到的方法比传统的基于词频统计的方法有更高的召回率与精确率。 This paper puts forward a new summarizing method based on concept counting and semantic hierarchy anal-ysis.Based on the extracted topic concepts,it constructs concept counting and semantic hierarchy analysis an effective English Text Summarizing system is developed.This system uses topic concepts to construct Vector Space Model.Combing with discourse analysis and readability improvement ,the abstract of a text is generated.This paper proposes the parame-ters of evaluating topic concepts,and mainly describes the detail algorithm of building concept hierarchy tree,extracting topic concepts and the application of topic concepts in generating abstracts.The experiment result shows that compared to word counting,this new method has enhanced both the recall rate and the precision rate of the system,and it helps to solve the abstract distribution problem of multi-topic texts.

作者万敏罗振声季姮高小云

机构地区清华大学人文学院计算语言学研究室

出处《计算机工程与应用》 CSCD 北大核心 2002年第24期7-9,16,共4页 Computer Engineering and Applications

基金国家自然科学基金项目(批准号:69972025)

关键词概念统计英文自动文摘主题概念向量空间模型句子重要度计算机 Concept counting,Topic concept ,Vector space model,Sentence significance

分类号 G353.23 [文化科学—情报学]

引文网络
相关文献

参考文献8

1Edmundson H P.New methods in automatic extraction[J].Journal of the ACM, 1968; 16(2)
2Kupiec J,Pedersen J,Chen F.A trainable document summarizer[C].In:Proceedings of the Eighteenth Annual International ACM Conference on Research and Development in Information Retrieval(SIGIR),1995
3郭玉箐,万敏,罗振声.面向非受限领域的综合式自动中文文摘方法[J].清华大学学报（自然科学版）,2002,42(1):139-142. 被引量：10
4郭玉箐,张旭平,罗振声.自动文摘中统计信息与文本结构自动分析初探[C].In:International Conference on Machine Translation ＆ Computer Language Information Processing,1999
5WAN Min,LUO Zhensheng,GUO Yuqing. Study on semantic paragraph partition in automatic abstracting system[C].In:Natural Language Processing and Knowledge Engineering(NLPKE)Mini Symposium of the 2001 IEEE International Conference on Systems, Man,and Cybernetics(SMC2001) ,2001
6Lin. Knowledge-based automatic topic identification[J].Information Processing and Management , 1997; 26 (1)
7Grishman R,Macleod C,Meyers A.COMPLEX syntax:building a computational lexicon[C].In: Proceedings of COLING-94,1994
8DeJong G.Fast Skimming of News Stories:The FRUMP System[D].PhD thesis. 1978

二级参考文献2

1刘挺,吴岩,王开铸.基于信息抽取和文本生成的自动文摘系统设计[J].情报学报,1997,16(S1):31-36. 被引量：13
2林鸿飞,战学刚,姚天顺.文本层次分析与文本浏览[J].中文信息学报,1999,13(4):7-15. 被引量：12

共引文献9

1金旭,杨炳儒,菅志刚.自动文摘方法分析[J].计算机应用研究,2004,21(9):5-6. 被引量：8
2耿增民,刘万春,朱玉文.受限领域的自动文摘方法研究[J].北京理工大学学报,2006,26(8):712-715. 被引量：1
3刘茵,李弼程.基于模糊决策的主旨句生成算法[J].计算机工程与设计,2007,28(4):972-974.
4陆和健,李祝启.网络信息自动文摘研究[J].情报科学,2008,26(10):1597-1600. 被引量：1
5蒋效宇.基于关键词抽取的自动文摘算法[J].计算机工程,2012,38(3):183-186. 被引量：11
6杜玲莉,纪再祥,周宏,杨继唐,王俐.基于HNC理论和自动文摘的计算机辅助英汉科技翻译模式[J].湖北工程学院学报,2012,32(6):38-41.
7卢玲,杨武,曹琼.基于多重映射的自动短文摘方法[J].计算机应用,2016,36(2):432-436.
8高永兵,钟振华,王宇,马占飞.基于混合方法的中文微博自动摘要技术研究[J].计算机工程与科学,2016,38(6):1257-1261. 被引量：5
9季姮,罗振声,万敏,高小云.基于概念统计和语义层次分析的英文自动文摘研究[J].中文信息学报,2003,17(2):14-20. 被引量：9

同被引文献100

1徐妙君,顾沈明.面向Web的文本挖掘技术研究[J].控制工程,2003,10(z1):44-46. 被引量：4
2杨斌,孟志青.一种文本分类数据挖掘的技术[J].湘潭大学自然科学学报,2001,23(4):34-37. 被引量：10
3王萌,何婷婷,张伟.基于概念向量空间模型的中文自动文摘系统[J].计算机工程与应用,2005,41(1):107-110. 被引量：5
4苏海菊,王永成.中文科技文献文摘的自动编写[J].情报学报,1989,8(6):433-439. 被引量：26
5莫燕,王永成.中文文献摘要的自动编制[J].现代图书情报技术,1993(3):10-12. 被引量：15
6张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
7秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
8王建波,唐正伟,杜春玲,王开铸.篇章物理结构与意义结构的一种形式化表达方法[J].情报学报,1996,15(4):291-299. 被引量：3
9李明.从字频统计出发的中文文摘自动编写[J].现代图书情报技术,1996(3):42-45. 被引量：20
10吴岩,李秀坤.自动文摘基集语句的提取与润色的数学模型[J].计算机应用研究,2007,24(5):52-55. 被引量：2

引证文献9

1刘茂福,李淑君,金可佳,张晓龙.多文档自动文摘中的特征组合优化[J].计算机系统应用,2008,17(8):59-63. 被引量：3
2王萌,何婷婷,张伟.基于概念向量空间模型的中文自动文摘系统[J].计算机工程与应用,2005,41(1):107-110. 被引量：5
3王志琪,王永成,刘传汉.论自动文摘及其分类[J].情报学报,2005,24(2):214-221. 被引量：2
4王萌,何婷婷,姬东鸿,王晓荣.基于HowNet概念获取的中文自动文摘系统[J].中文信息学报,2005,19(3):87-93. 被引量：22
5袁军鹏,朱东华,李毅,李连宏,黄进.文本挖掘技术研究进展[J].计算机应用研究,2006,23(2):1-4. 被引量：59
6官礼和.Internet网络新闻文本自动摘要的研究[J].计算机工程与设计,2007,28(14):3518-3520. 被引量：9
7乌庆敏,杨思春.概念向量空间模型在智能答疑系统中的应用[J].安徽工业大学学报（自然科学版）,2008,25(2):193-196. 被引量：3
8赵峰.基于SWN理论的关键字抽取策略[J].科技传播,2011,3(24):227-227.
9厉宇航,罗振声,程慕胜.基于概念层次的英文文本自动分类研究[J].计算机工程与应用,2004,40(11):75-77. 被引量：3

二级引证文献104

1梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
2李涵霄,杜杏叶.近20年计算机与信息科学领域研究进展——IPM期刊主题分析[J].知识管理论坛,2022(1):24-36.
3何忠育,王勇,王瑛,陈新,廖朝辉.基于分布式计算的网络舆情分析系统的设计[J].警察技术,2010(3):19-22. 被引量：6
4陈频,王周敬.基于语义分析和外延匹配的文档分类方法[J].福建电脑,2005,21(10):44-45.
5袁军鹏,朱东华,李毅,李连宏,黄进.文本挖掘技术研究进展[J].计算机应用研究,2006,23(2):1-4. 被引量：59
6廖莎莎,江铭虎.中文文本分类中基于概念屏蔽层的特征提取方法[J].中文信息学报,2006,20(3):22-28. 被引量：12
7王德亮.语篇脉络理论述评——宏观语篇处理[J].现代外语,2006,29(3):309-316. 被引量：3
8李生,赵铁军.Chinese Information Processing and Its Prospects[J].Journal of Computer Science & Technology,2006,21(5):838-846. 被引量：1
9刘德喜,何炎祥,姬东鸿,杨华.一种基于演化算法进行句子抽取的多文档自动摘要系统SBGA[J].中文信息学报,2006,20(6):46-53. 被引量：10
10马慧芳,祁云平,杨小东.一种基于文本关系图的多文档自动摘要技术[J].情报杂志,2007,26(3):67-69. 被引量：7

1钟南萍.对当前我国科技期刊发展中一些倾向的几点看法[J].编辑之友,2002(4):54-55.
2张树池.简明——英文报刊文题的特点[J].沈阳教育学院学报,2000,2(3):73-75.
3王菊芬.配合书店搞好自办发行[J].中国出版,1981(10):36-36.
4周桂莲,温小平,窦延玲.中文农业学术期刊刊登英文文章的调查与分析[J].编辑学报,2008,20(5):423-426. 被引量：3
5郭俊文.中文科技文献自动文摘系统的研究[J].情报探索,1995(4):26-28. 被引量：1
6高小云,程慕胜.基于英文文本的自动文摘:技术与展望[J].清华大学教育研究,2002,23(S1):24-28. 被引量：2
7李朝云,徐海平.美国《社会学文摘》结构及其使用方法[J].图书馆理论与实践,1997(1):51-52.
8苏名.《读者文摘》推出新书《你也可以不平凡》[J].出版参考,2002(16):34-34.
9丁婉莹.基于用户标签的个人本体的构建模型研究[J].现代情报,2011,31(7):42-46. 被引量：6
10张保田.文字频改功夫自出[J].新闻世界,2003(2):41-41.

计算机工程与应用

2002年第24期

浏览历史

内容加载中请稍等...

基于概念统计的英文自动文摘研究被引量：9

参考文献8

二级参考文献2

共引文献9

同被引文献100

引证文献9

二级引证文献104

相关作者

相关机构

相关主题

浏览历史

基于概念统计的英文自动文摘研究 被引量：9

参考文献8

二级参考文献2

共引文献9

同被引文献100

引证文献9

二级引证文献104

相关作者

相关机构

相关主题

浏览历史

基于概念统计的英文自动文摘研究被引量：9