摘要
通过介绍主题网络爬虫,以及使用Java开发的开源网络爬虫Heritrix的系统构架,设计基于遗传算法的主题网络爬虫算法,并使用Heritrix构造基于遗传算法的主题网络爬虫。实验结果表明,采用Heritrix实现的基于遗传算法的主题网络爬虫,能取得不错的效果。
Based on the introduction of the principles for implementing the topic Web crawlers as well as Heritrix, the Internet Archive's open-source web crawler project developed by Java, the article probes into the application of the topic Web crawlers based on genetic algorithm.
出处
《南宁职业技术学院学报》
2011年第1期97-100,共4页
Journal of Nanning College for Vocational Technology