基于Hadoop的分布式主题网络爬虫研究被引量：9

Research on a Distributed Topic Web Crawler Based on Hadoop

在线阅读下载PDF

导出

摘要主题网络爬虫采用集中式体系结构,具有对单台服务器性能要求高、可扩展性差等缺点。提出了一种基于Hadoop的分布式主题网络爬虫架构,通过将主题网络爬虫部署在分布式集群中的不同机器,运用MapReduce编程模型对数据进行抓取分析,使不同机器共同完成对指定任务的抓取工作。实验证明,采用分布式架构,通过动态调节分布式集群中的节点个数,能够明显改善主题网络爬虫的抓取效果。 Topic Web crawler uses a centralized architecture for a single server have high performance requirements, seal- ability poor shortcomings,this paper presents a distributed topic crawler Hadoop--based architecture. Topic by different machines in a distributed Web crawler deployment cluster, using the MapReduce programming model for data analysis crawl, crawl all the different machines together to complete work on a given task. Experiments show that the use of a dis tributed architecture, distributed by dynamically adjusting the number of nodes in the cluster, can significantly improve the topic crawler to crawl effect.

作者李应

机构地区西安工程大学计算机科学学院

出处《软件导刊》 2016年第3期24-26,共3页 Software Guide

关键词 HADOOP MAPREDUCE 分布式架构主题网络爬虫 Hadoop Distributed Architecture ~ Topic Web Crawler

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献6

1廖彬,于炯,张陶,杨兴耀.基于分布式文件系统HDFS的节能算法[J].计算机学报,2013,36(5):1047-1064. 被引量：58
2余琦,凌捷.基于HDFS的云存储安全技术研究[J].计算机工程与设计,2013,34(8):2700-2705. 被引量：26
3李建江,崔健,王聃,严林,黄义双.MapReduce并行编程模型研究综述[J].电子学报,2011,39(11):2635-2642. 被引量：188
4李成华,张新访,金海,向文.MapReduce:新型的分布式并行计算编程模型[J].计算机工程与科学,2011,33(3):129-135. 被引量：113
5刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29. 被引量：132
6于娟,刘强.主题网络爬虫研究综述[J].计算机工程与科学,2015,37(2):231-237. 被引量：103

二级参考文献128

1杨学明,刘柏嵩.主题爬虫在数字图书馆中的应用[J].图书馆杂志,2007,26(8):47-50. 被引量：3
2周锋,李旭伟.一种改进的MapReduce并行编程模型[J].科协论坛（下半月）,2009(2):65-66. 被引量：14
3李卫,刘建毅,何华灿,王枞.基于主题的智能Web信息采集系统的研究与实现[J].计算机应用研究,2006,23(2):163-166. 被引量：15
4谢建全,阳春华.RSA算法中几种可能泄密的参数选择[J].计算机工程,2006,32(16):118-119. 被引量：10
5宁焕生,张瑜,刘芳丽,刘文明,渠慎丰.中国物联网信息服务系统研究[J].电子学报,2006,34(B12):2514-2517. 被引量：151
6夏崇镨,康丽.基于叙词表的主题爬虫技术研究[J].现代图书情报技术,2007(5):41-44. 被引量：8
7吴宝贵,丁振国.基于Map/Reduce的分布式搜索引擎研究[J].现代图书情报技术,2007(8):52-55. 被引量：9
8J Dean,S Ghemawat.MapReduce:Simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.
9J L Wagener.High performance fortran[J].Computer Standards & Interfaces,Elsevier,1996,18(4):371-377.
10W Gropp,E Lusk,et al.Using MPI:Portable Parallel Programming with the Message Passing Interface[M].Cambridge:MIT Press,1999.1-350.

共引文献584

1李家瑞,李华昱,闫阳,付亚凤.基于事件抽取的学科建设知识图谱构建与应用[J].计算机系统应用,2022,31(11):100-110. 被引量：4
2齐虎春.高职化工院校网络化工数据采集课程实践研究[J].内蒙古石油化工,2020,46(10):88-90. 被引量：1
3李川,陶波.多任务并行处理框架下的雷达信息处理设计[J].中国电子科学研究院学报,2023,18(5):438-443.
4井世洁,邹利.“校园欺凌”的网络表达与治理——基于LDA主题模型的大数据分析[J].青少年犯罪问题,2020(6):60-68.
5孙骎童.关于集群虚拟机资源调度专利申请分析[J].军民两用技术与产品,2018,0(16):198-198.
6桂智明,向宇,李玉鉴.基于出租车轨迹的并行城市热点区域发现[J].华中科技大学学报（自然科学版）,2012,40(S1):187-190. 被引量：22
7李艳平,徐雅斌,陈俊伊.搜索服务中基于云计算的垃圾网页识别研究[J].华中科技大学学报（自然科学版）,2012,40(S1):249-253.
8赵志滨,贾岩峰,姚兰,鲍玉斌.含有丰富结构化数据的Web页面分类技术的研究[J].计算机研究与发展,2013,50(S1):53-60. 被引量：5
9尹江,尹治本,黄洪.网络爬虫效率瓶颈的分析与解决方案[J].计算机应用,2008,28(5):1114-1116. 被引量：18
10曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：39

同被引文献41

1周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：156
2孟涛,王继民,闫宏飞.网页变化与增量搜集技术[J].软件学报,2006,17(5):1051-1067. 被引量：22
3周德懋,李舟军.高性能网络爬虫:研究综述[J].计算机科学,2009,36(8):26-29. 被引量：95
4徐尚瑜.基于泊松过程的爬虫调度策略分析[J].现代计算机,2009,15(12):68-71. 被引量：1
5高伟锋.基于Heritrix的主题网络爬虫设计与实现[J].南宁职业技术学院学报,2011,16(1):97-100. 被引量：3
6于成龙,于洪波.网络爬虫技术研究[J].东莞理工学院学报,2011,18(3):25-29. 被引量：23
7廉捷,周欣,曹伟,刘云.新浪微博数据挖掘方案[J].清华大学学报（自然科学版）,2011,51(10):1300-1305. 被引量：120
8马志杰.国外搜索引擎评价研究综述[J].图书馆学研究,2013(2):2-6. 被引量：8
9刘红梅.垂直搜索引擎主题爬虫搜索策略研究[J].科技信息,2013(24):252-253. 被引量：1
10程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908. 被引量：751

引证文献9

1黄文杰,姚庚梅.大数据时代下爬虫技术应用与研究——以标讯快车项目为例[J].科技创新与应用,2018,8(6):37-38. 被引量：7
2阮阳,刘禹,韩港成,康晓凤.基于爬虫的定向数据检索系统[J].软件,2018,39(5):118-120. 被引量：5
3杨凌云.主题网络爬虫关键技术的应用探讨[J].电脑编程技巧与维护,2018(11):33-35. 被引量：4
4鲍薇.爬虫技术在互联网领域的应用探索[J].电脑迷,2017(10):109-109. 被引量：2
5王芳.基于Python的招聘网站信息爬取与数据分析[J].信息技术与网络安全,2019,38(8):42-46. 被引量：20
6韩瑞昕.基于时效性的爬虫调度[J].软件导刊,2020,19(1):108-112. 被引量：1
7郭锋锋.基于python的网络爬虫研究[J].佳木斯大学学报（自然科学版）,2020,38(2):62-65. 被引量：13
8王芳,张睿,宫海瑞.基于Scrapy框架的分布式爬虫设计与实现[J].信息技术,2019,43(3):96-101. 被引量：14
9舒万畅.爬虫技术在大数据领域中的应用分析[J].科学技术创新,2018(36):91-92. 被引量：7

二级引证文献73

1谈帅,唐天琪,高雅.网络众源地理信息获取与整合方法研究[J].现代测绘,2021(2):53-58.
2李慧敏,孙佳亮.论爬虫抓取数据行为的法律边界[J].电子知识产权,2018(12):58-67. 被引量：54
3肖良玉.爬虫技术在互联网领域的应用[J].数码世界,2017,0(12):548-549. 被引量：4
4张即帅.基于爬虫技术的校园网络热点话题提取分类研究[J].自动化与仪器仪表,2018,0(3):90-92. 被引量：2
5刘清.网络爬虫针对“反爬”网站的爬取策略分析[J].信息与电脑,2019,31(3):23-24. 被引量：11
6王超,程诗梦.国内网络爬虫行业发展情况及监管思考[J].江西通信科技,2019(1):39-40. 被引量：3
7王永坤,李保国.肝癌转移中脂代谢-免疫相关基因的筛选[J].软件,2019,40(3):144-150.
8陈付旻,洛桑嘎登,刘晓慧.爬虫分析城市温度之旅游导向[J].电脑知识与技术,2019,15(4Z):29-30.
9林长谋,黄玮.基于Python的就业岗位数据获取与预处理[J].电脑知识与技术,2019,15(4X):6-7. 被引量：4
10丁岚,范开勇,王英明,谷国栋,耿伟.基于Golang的网络爬虫系统设计与实现[J].电脑编程技巧与维护,2019,0(6):41-42.

1王丽娜,肖明,赵晶.基于Agent的工作流管理系统研究[J].价值工程,2010,29(2):73-74. 被引量：3
2高辉.一种网络分析测试设备的设计[J].安徽建筑工业学院学报（自然科学版）,2011,19(3):89-92.
3张锦,罗钊.基于VSM主题爬虫爬行策略的研究[J].信息通信,2014,27(2):37-38.
4孙仁科,孙鹏,丁颖.基于CORBA的SNMP中间件模型的研究[J].现代计算机,2003,9(12):23-26.
5陈香生.基于SQL技术的数据库开发实践的探讨[J].信息与电脑（理论版）,2010(11):103-103.
6王玮.基于网页抓取分析和统计压缩模型的垃圾邮件过滤系统研究[J].信息网络安全,2013(6):50-53.
7刘佳.不安全WiFi的背后[J].东西南北,2015,0(12):47-47.
8王艳阁.面向微博爬虫系统的分析[J].河南科技,2013,32(2X):16-17.
9刘畅,陈云秋.一种高能效的无线传感器网络模型[J].计算机与数字工程,2011,39(4):67-70.
10康庆生,孟正大,戴先中.综合重力的稳定抓取分析及其应用[J].制造业自动化,2005,27(5):33-34.

软件导刊

2016年第3期

浏览历史

内容加载中请稍等...

基于Hadoop的分布式主题网络爬虫研究被引量：9

参考文献6

二级参考文献128

共引文献584

同被引文献41

引证文献9

二级引证文献73

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的分布式主题网络爬虫研究 被引量：9

参考文献6

二级参考文献128

共引文献584

同被引文献41

引证文献9

二级引证文献73

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的分布式主题网络爬虫研究被引量：9