期刊文献+

基于Heritrix的主题网络爬虫设计与实现 被引量:3

The Design and Implementation of the Heritrix-based Topic Web Crawlers
在线阅读 下载PDF
导出
摘要 通过介绍主题网络爬虫,以及使用Java开发的开源网络爬虫Heritrix的系统构架,设计基于遗传算法的主题网络爬虫算法,并使用Heritrix构造基于遗传算法的主题网络爬虫。实验结果表明,采用Heritrix实现的基于遗传算法的主题网络爬虫,能取得不错的效果。 Based on the introduction of the principles for implementing the topic Web crawlers as well as Heritrix, the Internet Archive's open-source web crawler project developed by Java, the article probes into the application of the topic Web crawlers based on genetic algorithm.
作者 高伟锋
出处 《南宁职业技术学院学报》 2011年第1期97-100,共4页 Journal of Nanning College for Vocational Technology
关键词 HERITRIX 主题网络爬虫 遗传算法 搜索引擎 Heritrix the topic Web crawlers genetic algorithm
  • 相关文献

参考文献5

  • 1Heritrix项目网站[EB/OL].http://www.archive.org.
  • 2Mohr, G., Kimpton, M., Stack, M. Ranitovic, I. Introduction to Heritrix, an archival quality Web crawler [C]. Proceedings of the 4th International Web Archiving Workshop 2004.
  • 3Sigurdsson, K[J]. Adaptive revisiting in Heritrix. Master's thesis, University of Iceland.2005.
  • 4刘国靖,康丽,罗长寿.基于遗传算法的主题爬虫策略[J].计算机应用,2007,27(B12):172-174. 被引量:14
  • 5关慧芬,师军,马继红.基于遗传算法的主题爬行技术研究[J].计算机与数字工程,2008,36(10):50-53. 被引量:4

二级参考文献15

  • 1刘林,汪涛,樊孝忠.主题爬虫的解决方案[J].华南理工大学学报(自然科学版),2004,32(z1):137-141. 被引量:10
  • 2欧阳柳波,李学勇,李国徽,王鑫.专业搜索引擎搜索策略综述[J].计算机工程,2004,30(13):32-33. 被引量:34
  • 3李春旺.Web信息主题采集技术研究[J].图书情报工作,2005,49(4):77-80. 被引量:18
  • 4吴安清,张颖江,涂军.主题搜索ROBOT综合爬行策略的研究[J].武汉理工大学学报,2006,28(2):74-76. 被引量:6
  • 5郑健珍,林坤辉,周昌乐,康恺.基于本体语义的定题爬虫[J].山东大学学报(理学版),2006,41(3):106-110. 被引量:11
  • 6DEBRA P, HOUBEN G, KORNATZKY Y, et al. Information retrieval in distributed hypertexts[ C]// 4th RIAO Conference. New York:Computer-assisted Information Retrieval, 1994:481 -491.
  • 7HERSEOVICI M, JACOV M, MAREK Y S. The Shark-search algorithm - an application: Tailored Web site mapping[ J]. Computer Networks and ISDN Systems, 1998, 30(17) : 317 - 326.
  • 8CHEN H. CHUNG Y M, RAMSEY M, et al. An intelligent personal spider (agent) for dynamic Internet/Intranet searching[ J]. Decision Support Systems , 1998, 23(1) : 41 -58.
  • 9Milad shokouhi, Pirooz Chubak, Zaynab Raeesy. Enhancing Focused Crawling with Genetic Algorithms[C]. Proceedings of the International Conference on Information Technology: Coding and Computing, March 15,2005
  • 10Yulian Zhang, Chunxia Yin. An Application of Improved PageRank in Focused Crawler[C]. Fourth International Conference on Fuzzy Systems and Knowledge Discovery,2007

共引文献13

同被引文献23

引证文献3

二级引证文献6

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部