基于主题划分的网页自动摘要被引量：8

Automatic summarization of Web document based on topic segmentation

在线阅读下载PDF

导出

摘要提出了一种以网页结构为指导的自动摘要方法。对页面源文件进行解析时,利用文档的结构信息生成DOM树,并在此基础上划分文档主题。同时充分挖掘网页标记对主题词提取和句子重要性计算的价值。最后以主题块为单位,根据句子间的相似度调整句子权重,动态生成摘要。实验结果表明该方法能有效解决文档摘要分布不平衡问题,减少了文摘内容的冗余。 A method of automatic summarization in Web information retrieval was proposed based on the struetruc of the Web document. The document was partitioned into several topic blocks through parsing the document into DOM（ Document Object Model） tree and comparing the semantic similarity. The tag information was fully used to extract topic words and key sentences. Finally the abstract was created dynamically through adjusting the weights of sentences. The experiment results show that the new method can slove the imbalance problem of abstract and reduce the redundancy of the content effectively.

作者陈志敏沈洁林颖周峰

机构地区扬州大学信息工程学院

出处《计算机应用》 CSCD 北大核心 2006年第3期641-644,共4页 journal of Computer Applications

基金江苏省高校自然科学基金资助项目(MB20022312)

关键词 WEB信息检索文档对象模型主题划分句子重要度 Web information retrieval DOM topic segmentation sentence significance

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1LUHN HP.The automatic creation of literature abstract[J].IBM Journal of Research and Development,1958,2(2):159-165.
2RUSH JE,SALVADOR R,ZAMORA A.Automatic abstracting and indexing production of indicative abstracts by application of contextual inference and syntactic coherence criteria[J].Journal of American Society for Information Society,1971,22(4):260-274.
3SALTON G,SINGHAL A,MITRA M.Automatic Text Structuring and Summarization[J].Information Processing and Management,1997,33(2):193-207.
4王永成,许慧敏.OA中文文献自动摘要系统[J].情报学报,1997,16(2):128-132. 被引量：26
5RAU LF.Concpetual information extraction and retrieval from natural language input[A].Proceedings of RIAO 88 Conference[C],1988.424-437.
6刘挺,吴岩,王开铸.基于信息抽取和文本生成的自动文摘系统设计[J].情报学报,1997,16(S1):31-36. 被引量：13
7DELORT JY,BOUCHON-MEUNIER B,RIFQI M.Enhanced Web Document Summarization Using Hyperlinks[A].Proceedings of the fourteenth ACM conference on Hypertext and hypermedia[C].United Kingdom,2003.208-215.
8HU M,LIU B.Mining and Summarizing Customer Reviews[A].KDD04[C],2004.22-25.
9王继成,武港山,周源远,张福炎.一种篇章结构指导的中文Web文档自动摘要方法[J].计算机研究与发展,2003,40(3):398-405. 被引量：43
10GUPTA S,KAISER G,NSISTADT D,et al.DOM-based Content Extraction of HTML Documents[A].Proceedings International WWW Conference[C].New York:ACM Press,2003.207-214.

二级参考文献8

1J Kupiec. J Pedersen et al. A trainable document summarizer. In: Proc of the 18th Annual Int'l ACM SIGIR Conf on Research and Development in Information Retrieval (SIGIR'95). Seattle, Washington, USA: ACM Press, 1995. 68～73
2R Brandow, K Mitze, L F Rau. Automatic condensation of electronic publication by sentence selection. Information Processing and Management, 1995, 34(5): 575～685
3吴岩,刘挺,王开铸,陈彬.中文自动文摘原理与方法探索[J].中文信息学报,1998,12(2):8-16. 被引量：20
4孙春葵,李蕾,杨晓兰,钟义信.基于知识的文本摘要系统研究与实现[J].计算机研究与发展,2000,37(7):874-881. 被引量：19
5王继成,萧嵘,孙正兴,张福炎.Web信息检索研究进展[J].计算机研究与发展,2001,38(2):187-193. 被引量：118
6王文欣,黄萱菁,吴立德.基于统计方法的汉语自动文摘系统研究[J].计算机应用与软件,2000,17(9):28-33. 被引量：12
7李小滨,徐越.自动文摘系统EAAS[J].软件学报,1991,2(4):12-18. 被引量：8
8张波,王继成,王强,张福炎.Web文档清洗技术[J].计算机科学,2002,29(6):52-54. 被引量：3

共引文献75

1梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
2张清军,朱才连.基于LBS的中文自动文摘技术研究[J].四川大学学报（工程科学版）,2004,36(4):99-102. 被引量：1
3贺胜.信息抽取技术内涵及应用[J].南京师范大学文学院学报,2004(2):184-188. 被引量：3
4金旭,杨炳儒,菅志刚.自动文摘方法分析[J].计算机应用研究,2004,21(9):5-6. 被引量：8
5胡珀,何婷婷,姬东鸿.基于主题区域发现的中文自动文摘研究[J].计算机科学,2005,32(1):177-181. 被引量：5
6赵晶,林鸿飞,卢冶.可视化文本分类树浏览机制[J].小型微型计算机系统,2006,27(3):524-528. 被引量：1
7张云涛,龚玲,王永成.基于综合方法的文本主题句的自动抽取[J].上海交通大学学报,2006,40(5):771-774. 被引量：16
8付克志,林鸿飞.基于N-Level VSM在Web信息检索中的研究[J].计算机工程与应用,2006,42(19):158-160. 被引量：3
9梁循,陈华.在中文学术论文集eBook中生成作者单位索引的方法[J].电脑开发与应用,2006,19(8):55-57.
10李生,赵铁军.Chinese Information Processing and Its Prospects[J].Journal of Computer Science & Technology,2006,21(5):838-846. 被引量：1

同被引文献59

1陈翀,彭波,闫宏飞,王继民.一种词汇共现算法及共现词对检索系统排序的影响[J].清华大学学报（自然科学版）,2005,45(S1):1857-1860. 被引量：8
2吴光远,何丕廉,曹桂宏,聂颂.基于向量空间模型的词共现研究及其在文本分类中的应用[J].计算机应用,2003,23(z1):138-140. 被引量：24
3戴媛,姚飞.基于网络舆情安全的信息挖掘及评估指标体系研究[J].情报理论与实践,2008,31(6):873-876. 被引量：76
4刘挺,吴岩,王开铸.基于信息抽取和文本生成的自动文摘系统设计[J].情报学报,1997,16(S1):31-36. 被引量：13
5钟敏娟,林亚平,陈治平.基于超链接和标记文本的信息检索算法[J].小型微型计算机系统,2004,25(7):1344-1347. 被引量：7
6郭岩,白硕,于满泉.Web使用信息挖掘综述[J].计算机科学,2005,32(1):1-7. 被引量：50
7刘红,邵晓良,胡吉兵.基于页面内容和链接结构的超链接主题预测算法[J].现代图书情报技术,2005(5):41-45. 被引量：1
8王来华,刘毅.2004年舆情研究综述[J].天津大学学报（社会科学版）,2005,7(4):309-313. 被引量：32
9罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033. 被引量：56
10李树青.基于面向主题和面向分类相结合的搜索引擎[J].情报杂志,2005,24(10):69-71. 被引量：3

引证文献8

1杜光芹,张化祥.基于超链接结构和向量空间模型的网页排序算法研究[J].信息技术与信息化,2006(4):106-108.
2蒋效宇,樊孝忠,陈康.基于用户查询的中文自动文摘研究[J].计算机工程与应用,2008,44(5):48-50. 被引量：3
3李村合,李晗.基于词共现模型与DOM的石油主题采集策略[J].微计算机应用,2008,29(2):28-31.
4张文东,李伟.基于结构与内容的Web主要信息提取方法研究[J].计算机工程与设计,2008,29(24):6210-6212.
5陆蓓,程肖,谌志群.互联网舆情挖掘研究述略[J].情报资料工作,2010,31(2):41-45. 被引量：16
6安见才让.藏文搜索引擎系统中网页自动摘要的研究[J].微处理机,2010,31(5):77-80. 被引量：3
7陈志敏,姜艺,赵耀.基于用户查询扩展的自动摘要技术[J].计算机应用研究,2011,28(6):2188-2190. 被引量：5
8陈涛,薛丽敏,宋庆帅.基于DOM的信息检索研究[J].信息网络安全,2014(5):82-86. 被引量：1

二级引证文献28

1梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
2金慧兰.网络舆情分析对体育管理工作的影响研究[J].浙江体育科学,2014,36(5):10-15.
3林莉.自动文摘的生成方法与评价研究[J].图书馆学刊,2009,31(5):94-95. 被引量：1
4陈建辉,陈祖芬,陈贞.应用文格式与内容模板整合开发研究[J].江汉大学学报（自然科学版）,2009,37(4):64-67. 被引量：1
5陆蓓,程肖,谌志群.基于改进蚁群聚类的热点主题发现算法研究[J].现代图书情报技术,2010(4):66-71. 被引量：4
6程肖,陆蓓,谌志群.热点主题词提取方法研究[J].现代图书情报技术,2010(10):43-48. 被引量：5
7刘东霞.互联网舆情监控系统对政治经济生活的影响[J].现代商业,2011(11):71-72.
8颜建华,刘岩,傅黎犁,刘亚民.基于网络的舆情分析系统及其应用研究[J].医学信息学杂志,2011,32(8):10-14. 被引量：8
9黄美璇.基于聚类分析的网络舆情监控系统的设计[J].宝鸡文理学院学报（自然科学版）,2011,31(4):40-44. 被引量：5
10张寿华,丛帅,尚开雨,孟庆武,李继民.网络舆情追踪中热点关键词的提取[J].河北大学学报（自然科学版）,2012,32(3):311-315. 被引量：9

1董小国,甘立国.基于句子重要度的特征项权重计算方法[J].计算机与数字工程,2006,34(8):35-37. 被引量：2
2阿热帕提·尕依提,维尼拉·木沙江.基于统计的维吾尔文网页自动摘要提取研究[J].电脑知识与技术,2011,7(1):185-186.
3叶星火,胡珀,张小鹏.基于特征信息提取的中文自动文摘方法[J].计算机应用与软件,2008,25(5):31-32. 被引量：3
4蒋效宇,樊孝忠,陈康.基于用户查询的中文自动文摘研究[J].计算机工程与应用,2008,44(5):48-50. 被引量：3
5蒋效宇.基于关键词抽取的自动文摘算法[J].计算机工程,2012,38(3):183-186. 被引量：11
6王长征,刘建辉.基于网页标记的信息隐藏技术研究与实现[J].科技广场,2007(5):104-105. 被引量：2
7申兵一,巩青歌.中文分词技术在搜索引擎中的应用研究[J].计算机与网络,2010,36(1):60-63. 被引量：2
8秦鹏,张华平,刘金刚.基于新词发现技术的关键词提算法的研究[J].微计算机信息,2010,26(33):257-258. 被引量：7
9白秋产,金春霞,章慧,周海岩.词共现文本主题聚类算法[J].计算机工程与科学,2013,35(7):164-168. 被引量：13
10索红光,梁玉环,刘玉树.基于时间戳的多文档自动文摘[J].计算机工程,2007,33(16):164-165. 被引量：3

计算机应用

2006年第3期

浏览历史

内容加载中请稍等...

基于主题划分的网页自动摘要被引量：8

参考文献13

二级参考文献8

共引文献75

同被引文献59

引证文献8

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

基于主题划分的网页自动摘要 被引量：8

参考文献13

二级参考文献8

共引文献75

同被引文献59

引证文献8

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

基于主题划分的网页自动摘要被引量：8