摘要
作为最大的社交编程及代码托管网站,GitHub提供了丰富的数据来源。基于Python开源框架Scrapy设计实现了一个Web爬虫,能对GitHub的资源抓取和分析,并进行了结构化处理和存储,可为后续数据分析提供基础。介绍了GitHub爬虫的设计原理、算法的实现方式,对实验结果进行了分析。
出处
《电子技术与软件工程》
2016年第6期199-202,共4页
ELECTRONIC TECHNOLOGY & SOFTWARE ENGINEERING
基金
2015年江苏省大学生实践创新训练计划校企合作基金项目(201510333068H)