一种基于文本抽取的网页正文去重算法被引量：1

在线阅读下载PDF

导出

摘要搜索结果页面的去重处理是提高网页检索结果质量的有效途径,笔者结合二叉排序树设计了一种基于文本抽取的网页正文去重算法,本文给出了该算法的具体实现。实验测试结果表明该算法在判断准确率、时间复杂度方面均具有一定优势,可应用于网络信息检索结果优化处理中的页面正文内容去重。

作者曹传东郭理

机构地区石河子大学信息科学与技术学院

出处《科技信息》 2009年第1期102-103,共2页 Science & Technology Information

关键词文本抽取网页特征码二叉排序树网页去重

分类号 TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1王鹏,张永奎,张彦,刘睿.基于新闻网页主题要素的网页去重方法研究[J].计算机工程与应用,2007,43(28):177-180. 被引量：7
2高凯,王永成,肖君.网页去重策略[J].上海交通大学学报,2006,40(5):775-777. 被引量：13
3吴平博,陈群秀,马亮.基于特征串的大规模中文网页快速去重算法研究[J].中文信息学报,2003,17(2):28-35. 被引量：41

二级参考文献18

1孙世恺.从新闻诸要素谈起(上)[J].新闻与写作,1997(6):6-7. 被引量：1
2董振东,董强.面向信息处理的词汇语义研究中的若干问题[J].语言文字应用,2001(3):27-32. 被引量：36
3[1]T.W. Yan and H. Garcia- Molina. Duplicate removal in information dissemination. In Proceedings of the 21st International Conference on Very Large Data Bases(VLDB' 95) ,66 - 77,San Francisco,Ca., USA,September 1995. Morgan Kaufmann Publishers, Inc.
4[2]Narayanan Shivakumar and Hector Garcia- Molina. SCAM: a copy detection mechanism for digital documents. In Proceedings of 2nd International Conference in Theory and Practice of Digital Libraries (DL'95) ,Austin, Texas,June 1995.
5[3]T. Yan and H. Garcia- Molina. The sift information dissemination system. In ACM TODS,2000.
6[4]J.W. Kirriemuir & P. Willett Identification of duplicate and near - duplicate full - text records in database search outputs using hierarchic cluster analysis,in Program-automated library and information,(1995)29(3) :241-256.
7[5]Buckley C. ,Cardie C. ,Mardis S. ,Mitra M. ,Pierce D. ,Wagstaff K. ,Walz J. ,The Smart/Empire TIPSTER IR System, TIPSTER Phase Ⅲ Proceedings,Morgan Kaufmann,San Francisco,CA,2000.
8中国互联网络信息中心．第十六次中国互联网络发展状况统计报告[EB／OL]．http://www．cnnic．net．cn／index／OE／00／11／index．htm．2005—07—01．
9Border A Z, Glassman S C, Manasse M S, etal. Syntactic clustering of the Web[C]//Proceedings of the 6th ACM International Conference on World Wide Web.USA: ACM Press, 1997:1157-1166.
10Cho J H, Shivakumar N, Gareia-Molina H. Finding replicated web collections[C]//Proeeedings of the ACM International Conference on Management of the Data.USA: ACM Press, 2000, 29(2): 355-366.

共引文献54

1谢蕙,秦杰.基于元搜索的网页消重方法研究[J].计算机系统应用,2008,17(8):94-96. 被引量：5
2姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
3谢瑶兵.基于特征串的网页文本并行去重算法[J].微电子学与计算机,2015,32(2):69-72. 被引量：2
4魏常丽,刘玉玲.搜索引擎结果去重Agent系统[J].内蒙古科技与经济,2006(02S):82-85.
5连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量：7
6黄永光,刘挺,车万翔,胡晓光.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68. 被引量：17
7罗永莲,张永奎.基于发布时间的新闻网页去重方法研究[J].计算机工程与应用,2007,43(6):119-121. 被引量：3
8沙芸,张国英,孟凡亮.基于关键词提取的娱乐新闻文档去重算法[J].广西师范大学学报（自然科学版）,2007,25(2):30-33. 被引量：3
9钱爱兵,江岚.基于后缀树的中文新闻重复网页识别算法[J].现代图书情报技术,2008(3):55-61. 被引量：6
10陈锦言,孙济洲,张亚平.基于傅立叶变换的网页去重算法[J].计算机应用,2008,28(4):948-950. 被引量：2

同被引文献14

1姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
2王哲.基于特征码的网页去重算法研究[J].山东电大学报,2009(1):14-16. 被引量：4
3王建勇,谢正茂,雷鸣,李晓明.近似镜像网页检测算法的研究与评价[J].电子学报,2000,28(z1):130-132. 被引量：21
4高凯,王永成,肖君.网页去重策略[J].上海交通大学学报,2006,40(5):775-777. 被引量：13
5杨文忠,章兢.用信息-摘要算法提高Web信息检索效率的研究[J].计算机技术与发展,2006,16(6):222-223. 被引量：3
6魏丽霞,郑家恒.基于网页文本结构的网页去重[J].计算机应用,2007,27(11):2854-2856. 被引量：13
7谢蕙,秦杰,胡双双.基于用户查询关键词的网页去重方法研究[J].现代图书情报技术,2008(7):43-46. 被引量：6
8阎亚杰.网页去重方法研究[J].电脑开发与应用,2008,21(8):60-62. 被引量：6
9樊勇,郑家恒.网页去重方法研究[J].计算机工程与应用,2009,45(12):141-143. 被引量：7
10王祖析.基于网页内容的网页消重高效检测算法研究[J].佳木斯大学学报（自然科学版）,2010,28(1):22-24. 被引量：1

引证文献1

1闫俊伢.基于MD5的网页去重算法的设计与研究[J].实验室研究与探索,2013,32(12):105-108. 被引量：1

二级引证文献1

1刘驰,闫宏飞.基于元信息的云盘资源检索结果去重[J].山东大学学报（理学版）,2016,51(7):11-17.

1陈基漓,牛秦洲.基于特征码的网页去重[J].微计算机信息,2006,22(03X):113-115. 被引量：11
2刘书一.基于文本相似度的网页消重策略[J].计算机应用与软件,2011,28(11):228-229. 被引量：6
3倪云霞,刘以安.自适应加权在智能交通系统中的应用[J].中国科技博览,2010(2):289-289.
4房佳鹏,冯国会.基于参数测量的液压系统故障诊断方法[J].冶金设备管理与维修,2017,35(1):33-35. 被引量：2
5张晓颜,韩斌,周世友.离散余弦变换在火焰识别中的应用[J].核电子学与探测技术,2009,29(6):1319-1323. 被引量：2
6高广太.网页检索加速[J].电脑知识与技术（过刊）,2001,8(17):50-51.
7常莉.网页检索技术[J].河南科技,2004,23(9):36-36.
8肖木.在信息的海洋里寻找[J].中国计算机用户,2002(44):48-48.
9张柳珍.Google搜索引擎在英语教学中的应用[J].中小学外语教学（下半月）,2008(10):22-26.
10张斌.正则表达式在垂直搜索引擎中的应用[J].农业网络信息,2010(8):162-163. 被引量：1

科技信息

2009年第1期

浏览历史

内容加载中请稍等...

一种基于文本抽取的网页正文去重算法被引量：1

参考文献3

二级参考文献18

共引文献54

同被引文献14

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于文本抽取的网页正文去重算法 被引量：1

参考文献3

二级参考文献18

共引文献54

同被引文献14

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于文本抽取的网页正文去重算法被引量：1