基于网页正文逻辑段落和长句提取的网页去重算法被引量：1

Detection and Elimination of Similar Web Pages Based on Logical Paragraphs and Extraction of Long Sentences

在线阅读下载PDF

导出

摘要网页去重是提高网络检索效果的有效途径。针对现有网页去重算法的不足和网页正文的结构特征,提出一个基于网页正文逻辑段落和长句提取的网页去重算法。该方法通过用户检索关键词将网页正文物理段落结构表示成逻辑段落,在此基础上提取逻辑段落中的长句作为网页特征码实现相似网页判断。实验证明,该方法提高了篇幅短小的镜像网页和近似镜像网页的去重效果。 The technology of detection and elimination of similar web pages is an effective way to improve the effect of network retrieval. Because of the inadequacy of algorithm and the struc- tural features of webpage texts, an algorithm, based on logical paragraphs and extraction of long sentences to detect and delete similar web pages, is proposed in this paper. Through retrieval keywords, this method expresses webpage＇ s physical paragraph structures as logical para- graphs. Based on that, long sentences are extracted from logical paragraphs as similar charac- teristics code of webpages. The experiment results show that this method can improve the effec- tiveness of short webpages and eliminating similar webpages in retrieval.

作者张小娣宋余庆

机构地区江苏大学科技信息研究所

出处《图书情报研究》 2012年第2期41-45,共5页 Library and Information Studies

关键词网页去重逻辑段落长句提取句子相似度 detection and elimination of similar web pages logical paragraphs extraction of long sentences sentence similarity

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1中国互联网络信息中心.中国互联网络发展状况统计报告:2011年1月[R/OL].[2011一04-12].http://wWW.ennic.net.en/dtygg/dtgg/201101/P020110119328960192287.pdf.
2彭曙蓉,章兢,杨文忠.MD5算法在消除重复网页算法中的应用[J].电脑知识与技术,2005(10):15-16. 被引量：5
3谢蕙,秦杰,胡双双.基于用户查询关键词的网页去重方法研究[J].现代图书情报技术,2008(7):43-46. 被引量：6
4樊勇,郑家恒.基于主题的网页去重[J].电脑开发与应用,2008,21(4):4-6. 被引量：2
5姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
6王哲.基于特征码的网页去重算法研究[J].山东电大学报,2009(1):14-16. 被引量：4
7吴平博,陈群秀,马亮.基于特征串的大规模中文网页快速去重算法研究[J].中文信息学报,2003,17(2):28-35. 被引量：41
8龚秋艳,陈良育,曾振柄.简单高效的URL消重的方法[J].计算机应用,2010,30(A01):49-50. 被引量：2
9高凯,王永成,肖君.网页去重策略[J].上海交通大学学报,2006,40(5):775-777. 被引量：13
10魏丽霞,郑家恒.基于网页文本结构的网页去重[J].计算机应用,2007,27(11):2854-2856. 被引量：13

二级参考文献61

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2王建勇,谢正茂,雷鸣,李晓明.近似镜像网页检测算法的研究与评价[J].电子学报,2000,28(z1):130-132. 被引量：21
3梁正友,张林才.基于Rabin指纹方法的URL去重算法[J].计算机应用,2008,28(S2):185-186. 被引量：8
4朱克斌,唐菁,杨炳儒.Web文本挖掘系统及聚类分析算法[J].计算机工程,2004,30(13):138-139. 被引量：7
5王萌,何婷婷,张伟.基于概念向量空间模型的中文自动文摘系统[J].计算机工程与应用,2005,41(1):107-110. 被引量：5
6张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
7刘世岳,李珩,张俐,姚天顺.Co-training机器学习方法在中文组块识别中的应用[J].中文信息学报,2005,19(3):73-79. 被引量：8
8刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量：68
9肖明忠,闵博楠,王佳聪,代亚非.一个实用的针对URL的哈希函数[J].小型微型计算机系统,2006,27(3):538-541. 被引量：3
10吴丽辉,白硕,张刚,张凯.Web信息采集中的哈希函数比较[J].小型微型计算机系统,2006,27(4):673-676. 被引量：8

共引文献74

1廖思周.MD5算法防穷举(冲撞)破译的设计及其实现[J].五邑大学学报（自然科学版）,2006,20(4):33-37. 被引量：1
2谢蕙,秦杰.基于元搜索的网页消重方法研究[J].计算机系统应用,2008,17(8):94-96. 被引量：5
3姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
4曹传东,郭理.一种基于文本抽取的网页正文去重算法[J].科技信息,2009(1):102-103. 被引量：1
5谢瑶兵.基于特征串的网页文本并行去重算法[J].微电子学与计算机,2015,32(2):69-72. 被引量：2
6魏常丽,刘玉玲.搜索引擎结果去重Agent系统[J].内蒙古科技与经济,2006(02S):82-85.
7彭曙蓉,王耀南.针对小文本的Web数据挖掘技术及其应用[J].微计算机信息,2006,22(07X):203-205. 被引量：10
8连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量：7
9黄永光,刘挺,车万翔,胡晓光.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68. 被引量：17
10罗永莲,张永奎.基于发布时间的新闻网页去重方法研究[J].计算机工程与应用,2007,43(6):119-121. 被引量：3

同被引文献14

1姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
2曹传东,郭理.一种基于文本抽取的网页正文去重算法[J].科技信息,2009(1):102-103. 被引量：1
3王哲.基于特征码的网页去重算法研究[J].山东电大学报,2009(1):14-16. 被引量：4
4王建勇,谢正茂,雷鸣,李晓明.近似镜像网页检测算法的研究与评价[J].电子学报,2000,28(z1):130-132. 被引量：21
5高凯,王永成,肖君.网页去重策略[J].上海交通大学学报,2006,40(5):775-777. 被引量：13
6杨文忠,章兢.用信息-摘要算法提高Web信息检索效率的研究[J].计算机技术与发展,2006,16(6):222-223. 被引量：3
7魏丽霞,郑家恒.基于网页文本结构的网页去重[J].计算机应用,2007,27(11):2854-2856. 被引量：13
8谢蕙,秦杰,胡双双.基于用户查询关键词的网页去重方法研究[J].现代图书情报技术,2008(7):43-46. 被引量：6
9阎亚杰.网页去重方法研究[J].电脑开发与应用,2008,21(8):60-62. 被引量：6
10樊勇,郑家恒.网页去重方法研究[J].计算机工程与应用,2009,45(12):141-143. 被引量：7

引证文献1

1闫俊伢.基于MD5的网页去重算法的设计与研究[J].实验室研究与探索,2013,32(12):105-108. 被引量：1

二级引证文献1

1刘驰,闫宏飞.基于元信息的云盘资源检索结果去重[J].山东大学学报（理学版）,2016,51(7):11-17.

1黄仁,冯胜,杨吉云,刘宇,敖民.基于正文结构和长句提取的网页去重算法[J].计算机应用研究,2010,27(7):2489-2491. 被引量：13
2刘四维,章轶,夏勇明,钱松荣.基于HTML标记和长句提取的网页去重算法[J].微型电脑应用,2009(8):30-32. 被引量：2
3陈基漓,牛秦洲.基于特征码的网页去重[J].微计算机信息,2006,22(03X):113-115. 被引量：11
4张艳.基于专业搜索引擎的网页去重技术研究[J].软件导刊,2012,11(4):138-141.
5徐娜,刘四维,汪翔,倪卫明.基于Bloom Filter的网页去重算法[J].微型电脑应用,2011(3):48-51. 被引量：6
6周小平,黄家裕,刘连芳,梁一平,申文明.基于网页正文主题和摘要的网页去重算法[J].广西科学院学报,2009,25(4):251-253. 被引量：5
7张玉连,王莎莎,宋桂江.基于元搜索的网页去重算法[J].燕山大学学报,2011,35(2):121-123. 被引量：2
8曹传东,郭理.一种基于文本抽取的网页正文去重算法[J].科技信息,2009(1):102-103. 被引量：1
9马辉.网页去重技术问题研究[J].移动信息,2015(8):67-67.
10闫俊伢.基于MD5的网页去重算法的设计与研究[J].实验室研究与探索,2013,32(12):105-108. 被引量：1

图书情报研究

2012年第2期

浏览历史

内容加载中请稍等...

基于网页正文逻辑段落和长句提取的网页去重算法被引量：1

参考文献13

二级参考文献61

共引文献74

同被引文献14

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于网页正文逻辑段落和长句提取的网页去重算法 被引量：1

参考文献13

二级参考文献61

共引文献74

同被引文献14

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于网页正文逻辑段落和长句提取的网页去重算法被引量：1