摘要
首先给出了主题网络爬虫的定义和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;最后对未来的研究方向进行了展望。
This paper gave the goal of focused crawling, then comprehensively analyzed the recent advances of the relevant researches and applications about focused-crawler, included focused crawling methods based on text contents, link analyses' methods, classifier-guided methods and other focused methods. Finally pointed out the future direction of focused crawling.
出处
《计算机应用研究》
CSCD
北大核心
2007年第10期26-29,47,共5页
Application Research of Computers
关键词
主题网络爬虫
信息检索
WEB挖掘
topic-focused crawler
information retrieval
Web mining