期刊文献+

基于多个分类器的分布式主题爬虫研究 被引量:1

Research on Network Theme Crawler Based on Multiple Classifiers
在线阅读 下载PDF
导出
摘要 随着网络信息资源的爆发式增长,现有的搜索引擎已经无法满足迅速获取准确信息的需要,为搜索引擎引入搜索内容更为精确、搜索信息量更大的爬虫显得十分迫切.本文实现了一种基于多个分类器的分布式主题爬虫方法.实验结果表明,该爬虫的速度和精度均较为良好,特别适合于对大数据量的特定主题信息的抓取. As the network information resources grow in an explosive magnitude,current search engines have failed to meet the need for quick and accurate information retrieval.It is crucial to introduce better crawler that can retrieve information more precisely and in larger quantities.This paper introduces a solution of distributional theme crawler based on multiple classifiers.Experimental results prove that the speed and accuracy of this crawler is satisfactory,and particularly suited to capturing large quantities of data of thematic information.
作者 孙滨
出处 《洛阳师范学院学报》 2011年第11期51-53,57,共4页 Journal of Luoyang Normal University
基金 河南省科技攻关计划基金资助项目(08210221007102300410198)
关键词 主题提取 分类器 主题爬虫 theme extraction classifier theme crawler
  • 相关文献

参考文献3

二级参考文献11

  • 1.CNNIC(中国互联网络信息中心)[EB/OL].http://www.cnnic.net.cn/,.
  • 2Yinglian Xie,David O'Hallaron.Locality in Search Engine Queries and Its Implications for Caching[C].In :Proc IEEE Infocom,2002
  • 3A Spink,D Wolfram,B J Jansen et al.Searching the web:The public and their queries[J].Journal of the American Society for Information Science, 2001; 53 (2): 226~234
  • 4P Baldi,P Frasconi,P Smyth. Modeling the Intemet and the Web,probabilistic methods and algorithms[M]John Wiley,2003
  • 5.天网搜索引擎[EB/OL].http://e.pku.edu.cn,.
  • 6胡昌化 张军波.基于Matlab的系统分析与设计--小波分析[M].西安电子科技大学出版社,1999..
  • 7王鹏 单保慈 曾振柄.多尺度网络时序数据挖掘,搜索引擎与Web挖掘进展[M].北京:高等教育出版社,2003..
  • 8G E P Box,G M Jenkins,G C Reinsel.Time Series Analysis:Forecasting and Control[M].Prentice_hall,Inc, 1994
  • 9李盛韬,吴丽辉,于满泉,潘文锋,余智华,王斌,程学旗.主题Web信息采集的研究与设计[A]语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集,2003.
  • 10王建勇,单松巍,雷鸣,谢正茂,李晓明.海量Web搜索引擎系统中用户行为的分布特征及其启示[J].中国科学(E辑),2001,31(4):372-384. 被引量:45

共引文献52

同被引文献4

引证文献1

二级引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部