期刊文献+

一种基于文本抽取的网页正文去重算法 被引量:1

在线阅读 下载PDF
导出
摘要 搜索结果页面的去重处理是提高网页检索结果质量的有效途径,笔者结合二叉排序树设计了一种基于文本抽取的网页正文去重算法,本文给出了该算法的具体实现。实验测试结果表明该算法在判断准确率、时间复杂度方面均具有一定优势,可应用于网络信息检索结果优化处理中的页面正文内容去重。
作者 曹传东 郭理
出处 《科技信息》 2009年第1期102-103,共2页 Science & Technology Information
  • 相关文献

参考文献3

二级参考文献18

  • 1孙世恺.从新闻诸要素谈起(上)[J].新闻与写作,1997(6):6-7. 被引量:1
  • 2董振东,董强.面向信息处理的词汇语义研究中的若干问题[J].语言文字应用,2001(3):27-32. 被引量:36
  • 3[1]T.W. Yan and H. Garcia- Molina. Duplicate removal in information dissemination. In Proceedings of the 21st International Conference on Very Large Data Bases(VLDB' 95) ,66 - 77,San Francisco,Ca., USA,September 1995. Morgan Kaufmann Publishers, Inc.
  • 4[2]Narayanan Shivakumar and Hector Garcia- Molina. SCAM: a copy detection mechanism for digital documents. In Proceedings of 2nd International Conference in Theory and Practice of Digital Libraries (DL'95) ,Austin, Texas,June 1995.
  • 5[3]T. Yan and H. Garcia- Molina. The sift information dissemination system. In ACM TODS,2000.
  • 6[4]J.W. Kirriemuir & P. Willett Identification of duplicate and near - duplicate full - text records in database search outputs using hierarchic cluster analysis,in Program-automated library and information,(1995)29(3) :241-256.
  • 7[5]Buckley C. ,Cardie C. ,Mardis S. ,Mitra M. ,Pierce D. ,Wagstaff K. ,Walz J. ,The Smart/Empire TIPSTER IR System, TIPSTER Phase Ⅲ Proceedings,Morgan Kaufmann,San Francisco,CA,2000.
  • 8中国互联网络信息中心.第十六次中国互联网络发展状况统计报告[EB/OL].http://www.cnnic.net.cn/index/OE/00/11/index.htm.2005—07—01.
  • 9Border A Z, Glassman S C, Manasse M S, etal. Syntactic clustering of the Web[C]//Proceedings of the 6th ACM International Conference on World Wide Web.USA: ACM Press, 1997:1157-1166.
  • 10Cho J H, Shivakumar N, Gareia-Molina H. Finding replicated web collections[C]//Proeeedings of the ACM International Conference on Management of the Data.USA: ACM Press, 2000, 29(2): 355-366.

共引文献54

同被引文献14

引证文献1

二级引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部