期刊文献+

基于Scrapy的GitHub数据爬虫 被引量:18

在线阅读 下载PDF
导出
摘要 作为最大的社交编程及代码托管网站,GitHub提供了丰富的数据来源。基于Python开源框架Scrapy设计实现了一个Web爬虫,能对GitHub的资源抓取和分析,并进行了结构化处理和存储,可为后续数据分析提供基础。介绍了GitHub爬虫的设计原理、算法的实现方式,对实验结果进行了分析。
出处 《电子技术与软件工程》 2016年第6期199-202,共4页 ELECTRONIC TECHNOLOGY & SOFTWARE ENGINEERING
基金 2015年江苏省大学生实践创新训练计划校企合作基金项目(201510333068H)
  • 相关文献

参考文献6

  • 1邬贺铨.大数据时代的机遇与挑战[J].中国经贸,2013(11):16-19. 被引量:21
  • 2Git Hub中国开发者年度报告{2014}[EB/OL].[2015-02-03]http://githuber.info/Report.
  • 3Manning爬虫技术浅析[EB/OL].http://drops.wooyun.org/tips/3915.
  • 4Scrapy研究探索(七)——如何防止被ban之策略大集合[EB/OL].[2014-06-29]http://blog.csdn.net/u012150179/article/details/35774323.
  • 5黄聪,李格人,罗楚.大数据时代下爬虫技术的兴起[J].计算机光盘软件与应用,2013,16(17):79-80. 被引量:8
  • 6Twisted 15.4.0 documentation[EB/OL].http://twistedmatrix.com/documents/current/core/howto/defer.html.

二级参考文献6

  • 1Times N Y. The age of big data[EB/OL].http://www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-in-the-world.html pagewanted=all&_r=0,2012.
  • 2孙瑞.2012年数据管理优先度调查:数据增长速度加快.
  • 3Manyika J,Chui M,Brown B. Big data:The next frontier for innovation, competition, and productivity[OL].http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation,2012.
  • 4The Economist. Data,data,everywhere-A special report on managing information[EB/OL].http://www.economist.com/node/15557443,2012.
  • 5维克托?迈尔?舍恩伯格;肯尼思?库克耶.大数据时代:生活、工作与思维的大变革[M]杭州:浙江人民出版社,201234-35.
  • 6Scrapy developers. Architecture overview[EB/OL].http://doc.scrapy.org/en/latest/topics/architecture.html,2013.

共引文献27

同被引文献129

引证文献18

二级引证文献129

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部