基于Scrapy的GitHub数据爬虫被引量：18

在线阅读下载PDF

导出

摘要作为最大的社交编程及代码托管网站,GitHub提供了丰富的数据来源。基于Python开源框架Scrapy设计实现了一个Web爬虫,能对GitHub的资源抓取和分析,并进行了结构化处理和存储,可为后续数据分析提供基础。介绍了GitHub爬虫的设计原理、算法的实现方式,对实验结果进行了分析。

作者赵本本殷旭东王伟

机构地区常熟理工学院计算机科学与工程学院苏州市浪潮电子信息有限公司

出处《电子技术与软件工程》 2016年第6期199-202,共4页 ELECTRONIC TECHNOLOGY & SOFTWARE ENGINEERING

基金 2015年江苏省大学生实践创新训练计划校企合作基金项目(201510333068H)

关键词网络爬虫数据爬取 Scrapy GitHub PYTHON NOSQL

分类号 TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1邬贺铨.大数据时代的机遇与挑战[J].中国经贸,2013(11):16-19. 被引量：21
2Git Hub中国开发者年度报告{2014}[EB/OL].[2015-02-03]http://githuber.info/Report.
3Manning爬虫技术浅析[EB/OL].http://drops.wooyun.org/tips/3915.
4Scrapy研究探索(七)——如何防止被ban之策略大集合[EB/OL].[2014-06-29]http://blog.csdn.net/u012150179/article/details/35774323.
5黄聪,李格人,罗楚.大数据时代下爬虫技术的兴起[J].计算机光盘软件与应用,2013,16(17):79-80. 被引量：8
6Twisted 15.4.0 documentation[EB/OL].http://twistedmatrix.com/documents/current/core/howto/defer.html.

二级参考文献6

1Times N Y. The age of big data[EB/OL].http://www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-in-the-world.html pagewanted=all&_r=0,2012.
2孙瑞.2012年数据管理优先度调查:数据增长速度加快.
3Manyika J,Chui M,Brown B. Big data:The next frontier for innovation, competition, and productivity[OL].http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation,2012.
4The Economist. Data,data,everywhere-A special report on managing information[EB/OL].http://www.economist.com/node/15557443,2012.
5维克托?迈尔?舍恩伯格;肯尼思?库克耶.大数据时代:生活、工作与思维的大变革[M]杭州:浙江人民出版社,201234-35.
6Scrapy developers. Architecture overview[EB/OL].http://doc.scrapy.org/en/latest/topics/architecture.html,2013.

共引文献27

1赵静.大数据时代公共管理面对机遇挑战的研究[J].新商务周刊,2019,0(14):69-69.
2李广福.基于搜索技术的校园网信息资源管理系统[J].山东师范大学学报（自然科学版）,2014,29(3):58-60.
3李慧敏,孙佳亮.论爬虫抓取数据行为的法律边界[J].电子知识产权,2018(12):58-67. 被引量：54
4李富.大数据时代世界产业发展的趋向及其对高职教育的影响[J].教育与职业,2015(18):14-17. 被引量：18
5黄乐.大数据在智慧城市中的关键技术研究[J].无线互联科技,2015,12(8):147-148. 被引量：1
6李婧,陈建平,王翔.地质大数据存储技术[J].地质通报,2015,34(8):1589-1594. 被引量：34
7李伟龙.大数据的概念与技术应用[J].中国科技博览,2016,0(20):268-268.
8赵启帆.用户生成内容UGC研究——视频内容分析[J].商,2016,0(9):192-192.
9刘献朝,唐文俊,陈竺,贾继民,张桂林.大数据在防恐反恐情报挖掘分析中的应用[J].解放军预防医学杂志,2016,34(2):289-291. 被引量：8
10李柳兰.在新形势下做好铁路企业档案管理工作的问题及对策分析[J].人才资源开发,2016(10):182-182. 被引量：3

同被引文献129

1闵慧祖,王济民,王海英.政策工具视域下幼儿园“小学化”治理方案研究——基于25份省级政策文本[J].教育学术月刊,2021(2):56-62. 被引量：19
2郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
3沈辉,张龙.基于WinPcap的网络数据监测及分析[J].计算机科学,2012,39(S2):15-18. 被引量：18
4万国根,秦志光.面向信息内容安全的文本过滤和分类系统研究与实现[J].计算机科学,2005,32(7):159-161. 被引量：2
5薛为民,陆玉昌.文本挖掘技术研究[J].北京联合大学学报,2005,19(4):59-63. 被引量：63
6郑冬冬,崔志明.Deep Web爬虫爬行策略研究[J].计算机工程与设计,2006,27(17):3154-3158. 被引量：13
7吕林涛,万经华,周红芳.基于AJAX的Web无刷新页面快速更新数据方法[J].计算机应用研究,2006,23(11):199-200. 被引量：96
8李超锋,杨殿生,许云.Web使用挖掘中数据预处理过程研究[J].电子测量技术,2007,30(3):3-5. 被引量：6
9谷波,李济洪,刘开瑛.基于COSA算法的中文文本聚类[J].中文信息学报,2007,21(6):65-70. 被引量：9
10曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：39

引证文献18

1王璇,霍义霞,慈云飞,史国振,李莉.Larbin体系结构的研究与优化[J].网络与信息安全学报,2016,2(8):74-80.
2史建焘,李秀坤,张宏莉.虚拟仿真云平台下信息内容安全实验课建设[J].实验技术与管理,2017,34(4):9-13. 被引量：9
3刘宇,郑成焕.基于Scrapy的深层网络爬虫研究[J].软件,2017,38(7):111-114. 被引量：29
4黄山,刘学锋,毛建华,李银桥.基于关联规则的大数据领域人才需求分析[J].工业控制计算机,2017,30(8):78-80. 被引量：7
5李乔宇,尚明华,王富军,刘淑云.基于Scrapy的农业网络数据爬取[J].山东农业科学,2018,50(1):142-147. 被引量：12
6张安启,罗批.基于Scrapy的微博爬虫设计[J].电子技术与软件工程,2018(13):187-189.
7余豪士,匡芳君.基于Python的反反爬虫技术分析与应用[J].智能计算机与应用,2018,8(4):112-115. 被引量：14
8华云彬,匡芳君.基于Scrapy框架的分布式网络爬虫的研究与实现[J].智能计算机与应用,2018,8(5):46-50. 被引量：12
9韩贝,马明栋,王得玉.基于Scrapy框架的爬虫和反爬虫研究[J].计算机技术与发展,2019,29(2):139-142. 被引量：26
10党佩,阎光伟.基于WebMagic爬取技术的电力事故信息获取[J].计算机技术与发展,2019,29(6):125-129. 被引量：3

二级引证文献129

1邓子云.基于Scrapy的网站增量式爬取功能的研制与应用[J].湖南工业职业技术学院学报,2022,22(6):25-29.
2饶传平.论数据抓取法律风险的流程化管理[J].东方法学,2023(6):28-42. 被引量：7
3程卫东,范爱军.果肉型胡萝卜汁饮料加工工艺[J].食品工业,2000,21(2):11-12. 被引量：3
4王晴,刘宏伟,张彦航,陈惠鹏,许磊.数字逻辑与数字系统设计实验教学改革及探索[J].计算机教育,2018(3):46-51. 被引量：5
5刘贵平,刘娜,段红义.基于聚焦网络爬虫技术的人才招聘数据采集[J].电脑编程技巧与维护,2018(5):69-70. 被引量：2
6马艳辉,刘进,黄伟恺,吴钧,蔡梅松,李宇平.企业内网内容检索系统的设计与实现[J].电脑编程技巧与维护,2018(7):97-100.
7武振国.小麦品种资源知识库系统构建[J].通讯世界,2018,25(6):237-238.
8云洋.基于Scrapy的网络爬虫设计与实现[J].电脑编程技巧与维护,2018(9):19-21. 被引量：2
9林玉梅,方连花,郭新华.网络安全课程教学云平台的设计与实现[J].长春工程学院学报（自然科学版）,2018,19(4):110-113. 被引量：4
10徐郑琴.基于Scrapy的番茄病虫害数据收集[J].电脑知识与技术,2019,15(1X):24-25.

1韩蕊.代码托管让开源成为一种流行[J].互联网周刊,2013(19):18-18. 被引量：1
2通过Selfstarter建立开源众筹平台[J].程序员,2012(11):12-12.
3文章[J].程序员,2010(12):17-17.
4GitHub与社会化编程[J].硅谷,2012(6):51-51. 被引量：3
5Bootstrap 3．0发布[J].程序员,2013(10):12-12.
6Yang ZHANG,Huaimin WANG,Gang YIN,Tao WANG,Yue YU.Social media in GitHub： the role of @-mention in assisting software development[J].Science China(Information Sciences),2017,60(3):46-63. 被引量：1
72011年最热门的开源PHP项目回顾[J].硅谷,2012(1):46-46.
8刘文,王标,王丁.基于Java线程池技术的数据爬虫设计与实现[J].电脑编程技巧与维护,2016(7):8-9. 被引量：6
9张智,郑卉,蒋依伶,袁欢欢,郑明清.使用Github实现高效的团队协作开发[J].电脑知识与技术,2015(3):206-208. 被引量：6
10类兴明,杨春花.基于GitHub的软件缺陷数据预处理[J].齐鲁工业大学学报,2016,30(3):54-58. 被引量：2

电子技术与软件工程

2016年第6期

浏览历史

内容加载中请稍等...

基于Scrapy的GitHub数据爬虫被引量：18

参考文献6

二级参考文献6

共引文献27

同被引文献129

引证文献18

二级引证文献129

相关作者

相关机构

相关主题

浏览历史

基于Scrapy的GitHub数据爬虫 被引量：18

参考文献6

二级参考文献6

共引文献27

同被引文献129

引证文献18

二级引证文献129

相关作者

相关机构

相关主题

浏览历史

基于Scrapy的GitHub数据爬虫被引量：18