基于时效性的爬虫调度被引量：1

Crawler Scheduling Based on Timeliness

在线阅读下载PDF

导出

摘要搜索引擎作为互联网信息获取的入口,实现高效、准确的信息获取非常重要,爬虫作为搜索引擎的上游,其重要性不言而喻,特别是大数据时代信息更新频繁,如何在第一时间获取新闻是实现爬虫时效性的重要因素。为了充分利用有限资源,提升带宽利用率,设计一种基于历史数据预测的爬虫调度算法。该算法通过抓取网站历史,更新频次积累数据,使用随机森林回归建立模型,并在系统中实现爬虫调度。实验结果表明,该策略在抓取新链的命中率上提升了46%,平均成本降低了11%,平均抓取延时降低了14%。 As an entry point for the Internet to obtain information,it is very important for the search engine to obtain information effi⁃ciently and accurately.The importance of the crawler as the upstream of the search engine cannot be ignored.Especially in the era of big data,the information is updated frequently,how to get news timely is a key factor to ensure crawler timeliness.In order to make full use of limited resources and improve the utilization of bandwidth,a crawler scheduling algorithm based on historical data predic⁃tion is designed.The algorithm accumulates data by crawling the historical update frequency of the website,uses random forest regres⁃sion to build the model,and implements the strategy in the system.The experimental results show that the strategy has increased the hit rate of the new link by 46%,the average cost by 11%,and the average grab delay by 14%.

作者韩瑞昕 HAN Rui-xin(Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China)

机构地区北京工业大学信息学部

出处《软件导刊》 2020年第1期108-112,共5页 Software Guide

关键词搜索引擎爬虫调度回归预测随机森林 search engine crawler scheduling regression prediction random forest

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献9

1程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908. 被引量：751
2周德懋,李舟军.高性能网络爬虫:研究综述[J].计算机科学,2009,36(8):26-29. 被引量：95
3张兴华.搜索引擎技术及研究[J].现代情报,2004,24(4):142-145. 被引量：35
4马志杰.国外搜索引擎评价研究综述[J].图书馆学研究,2013(2):2-6. 被引量：8
5周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：156
6姜杉彪,黄凯林,卢昱江,张俊杰,曾志高,刘强.基于Python的专业网络爬虫的设计与实现[J].企业科技与发展,2016(8):17-19. 被引量：32
7李应.基于Hadoop的分布式主题网络爬虫研究[J].软件导刊,2016,15(3):24-26. 被引量：9
8孟涛,王继民,闫宏飞.网页变化与增量搜集技术[J].软件学报,2006,17(5):1051-1067. 被引量：22
9徐尚瑜.基于泊松过程的爬虫调度策略分析[J].现代计算机,2009,15(12):68-71. 被引量：1

二级参考文献93

1余锦,史树明.分布式网页排序算法及其传输模式分析[J].计算机工程与应用,2004,40(29):182-187. 被引量：1
2梅立军,周强,臧路,陈祖舜.知网与同义词词林的信息融合研究[J].中文信息学报,2005,19(1):63-70. 被引量：28
3孟涛,闫宏飞,王继民.Web网页信息变化的时间局部性规律及其验证[J].情报学报,2005,24(4):398-406. 被引量：8
4沈贺丹,潘亚楠,邵良杉.关于搜索引擎的研究综述[J].计算机技术与发展,2006,16(4):147-149. 被引量：17
5孟涛,王继民,闫宏飞.网页变化与增量搜集技术[J].软件学报,2006,17(5):1051-1067. 被引量：22
6蒋宗礼,赵钦,肖华,王蕊.高性能并行爬行器[J].计算机工程与设计,2006,27(24):4762-4766. 被引量：7
7张三峰,吴国新.一种面向动态异构网络的容错非对称DHT方法[J].计算机研究与发展,2007,44(6):905-913. 被引量：1
8董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007,21(4):3-9. 被引量：99
9中国互联网络发展状况统计报告[EB/OL].http://tech.qq.com/a/20080724/000277.htm.2008-9-27.
10Arasu A, Cho J. Searching the Web[J]. ACM Transactions on Internet Technology, 2001,1 (1) : 2-43.

共引文献1082

1郭玉洁,何钰,刘家强,周英华,吴超.大数据技术在中原城市群科技服务资源池构建中的应用[J].中国基础科学,2020(5):41-44.
2刘洋.谈基于结合大数据技术的用户画像推荐方法[J].新闻传播,2019,0(24):29-30.
3吕明元,苗效东.大数据能促进中国制造业结构优化吗?[J].云南财经大学学报,2020,0(3):31-42. 被引量：30
4师洪波,郭红梅,岳婷,钱力,黄定余,常志军.基于分布式大数据技术的科学计量模块化分析平台构建研究[J].数据分析与知识发现,2020,4(2):231-238. 被引量：3
5李振泉,张丁涌,周长敬,王兴武,安学先,高华,孙东,刘文聪,闫恩祥,李红强,孙秀玲,杨文辉,张腾,梁莹,王增光.集输系统能耗定量化预测大数据模型应用研究[J].当代化工,2020(12):2818-2821. 被引量：2
6蒋云钟,冶运涛,赵红莉,梁犁丽,曹引,顾晶晶.水利大数据研究现状与展望[J].水力发电学报,2020,39(10):1-32. 被引量：93
7施珠妹.从经验驱动到数据驱动——逮捕社会危险性评估模式的逻辑转换[J].人权研究（辑刊）,2023(1):400-422. 被引量：1
8韩旭,罗登昌.长江堤防工程大数据基本特征及应用策略[J].人民长江,2020(S01):262-264. 被引量：4
9庞景安.大数据时代:思维变革、产业转型与数据科学兴起[J].情报学进展,2016(1):186-218.
10段鹏.大数据时代的重大公共事务决策风险治理:研究历史与现状[J].文化产业研究,2019(4):20-33. 被引量：1

同被引文献8

1刘国靖,康丽,罗长寿.基于遗传算法的主题爬虫策略[J].计算机应用,2007,27(B12):172-174. 被引量：14
2童亚拉.自适应动态演化粒子群算法在Web主题信息搜索中的应用[J].武汉大学学报（信息科学版）,2008,33(12):1296-1299. 被引量：4
3贺晟,程家兴,蔡欣宝.基于模拟退火算法的主题爬虫[J].计算机技术与发展,2009,19(12):55-58. 被引量：8
4谢志妮.一种新的基于概念树的主题网络爬虫方法[J].计算机与现代化,2010(4):103-106. 被引量：2
5曾广朴,范会联.基于遗传算法的聚焦爬虫搜索策略[J].计算机工程,2010,36(11):167-169. 被引量：5
6宋海洋,刘晓然,钱海俊.一种新的主题网络爬虫爬行策略[J].计算机应用与软件,2011,28(11):264-267. 被引量：15
7左薇,张熹,董红娟,于梦君.主题网络爬虫研究综述[J].软件导刊,2020,19(2):278-281. 被引量：9
8傅向华,冯博琴,马兆丰,何明.可在线增量自学习的聚焦爬行方法[J].西安交通大学学报,2004,38(6):599-602. 被引量：18

引证文献1

1徐昊,沈江明.面向网站群的主题爬虫研究[J].软件导刊,2020,19(8):109-112. 被引量：3

二级引证文献3

1周璐,杨保岑,李伟凡,张秋实.内河航道综合信息服务中助航数据获取的方法研究与应用[J].中国水运（下半月）,2021(2):10-12.
2赵北庚.基于Flask与爬虫技术的可视化深度学习数据标注系统[J].电子制作,2020,28(20):36-37. 被引量：7
3毛晨希,董可扬,宋瑾钰.基于线性回归的房产分析与展示系统设计[J].软件导刊,2023,22(7):104-111.

1本刊编辑部.电子邮件投稿注意事项[J].中国中西医结合肾病杂志,2019,20(11):943-943.
2李文艳.微课在计算机基础教学中的应用[J].信息记录材料,2019,20(12):100-102. 被引量：2
3严行云,游天宇,朱宇航.远程控制技术在防汛抢险中的应用研究[J].水电科技,2020,3(1):57-59.
4鲁萌.产品设计的思维模式和表达方式[J].科学大众（科技创新）,2019,0(11):170-170.
5成冠锦,刘务芬,汪业盛.融媒体宣传教育模式探讨[J].中国人民防空,2019,0(12):55-55.
6张欢.问道不辞苦，教研启新篇[J].广东教育（综合版）,2020,0(1):74-75.
7周硙.远距离无线混合传输数据完整性检测方法仿真[J].计算机仿真,2019,36(12):447-450. 被引量：3
8徐海峰,郝学元,颜晓红.基于白光信道的多进制传输预加重方法[J].自动化技术与应用,2019,38(12):69-74.
9吕春英,丁笠华.基于产业融合的农家乐专业村市场营销策略研究——以南京汤山七坊为例[J].湖南农业科学,2019,0(11):99-103. 被引量：3
10刘俊宏,李涛,胡晓润.基于TEQC的GPS/MET观测资料预处理系统的研究与实现[J].计算机时代,2020,0(1):47-49. 被引量：1

软件导刊

2020年第1期

浏览历史

内容加载中请稍等...

基于时效性的爬虫调度被引量：1

参考文献9

二级参考文献93

共引文献1082

同被引文献8

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于时效性的爬虫调度 被引量：1

参考文献9

二级参考文献93

共引文献1082

同被引文献8

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于时效性的爬虫调度被引量：1