基于Python的新浪微博数据爬虫被引量：62

Data crawler for Sina Weibo based on Python

在线阅读下载PDF

导出

摘要目前很多的社交网络研究都是采用国外的平台数据,而国内的新浪微博没有很好的接口方便研究人员采集数据进行分析。为了快速地获取到微博中的数据,开发了一款支持并行的微博数据抓取工具。该工具可以实时抓取微博中指定用户的粉丝信息、微博正文等内容;该工具利用关键字匹配技术,匹配符合规定条件的微博,并抓取相关内容;该工具支持并行抓取,可以同时抓取多个用户的信息。最后将串行微博爬虫工具和其并行版本进行对比,并使用该工具对部分微博数据作了一个关于流感问题的分析。实验结果显示:并行爬虫拥有较好的加速比,可以快速地获取数据,并且这些数据具有实时性和准确性。 Nowadays, most of researches about social network use data from foreign social network platforms. However the largest social network platform Sina Weibo in China has no data interfaces for investors. A Sina Weibo data crawler combined with parallelization technology was put forward. It got fans information and Weibo data content of different weibo users in real-time. It also supported key words matching and parallelization. The serial data crawler and its parallel version were compared, and an experiment about flu was conducted on some Weibo data. The results indicate that, with parallelization, this tool has liner speedup and all the fetching data are with timeliness and accuracy.

作者周中华张惠然谢江

机构地区上海大学计算机工程与科学学院

出处《计算机应用》 CSCD 北大核心 2014年第11期3131-3134,共4页 journal of Computer Applications

基金国家自然科学基金资助项目(91330116) 高等学校博士学科点专项科研基金资助项目(20113108120022) 上海市科委重点项目(11510500300)

关键词新浪微博爬虫 PYTHON 并行大数据 Sina Weibo crawler Python parallel big data

分类号 TP391 [自动化与计算机技术—计算机应用技术] TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献13

1TUMASJAN A, SPRENGER T O, SANDNER P G, et al. Predicting elections with Twitter: what 140 characters reveal about political sentiment[C] // Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media. Madison: AAAI Press, 2010, 10: 178-185.
2WELCH M J, SCHONFELD U, HE D, et al. Topical semantics of twitter links[C] // Proceedings of the Fourth ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2011: 327-336.
3CARLISLE J E, PATTON R C. Is social media changing how we understand political engagement? An analysis of Facebook and the 2008 presidential election[J]. Political Research Quarterly, 2013, 66(4): 883-895.
4CUNLIFFE D, MORRIS D, PRYS C. Young bilinguals' language behaviour in social networking sites: the use of welsh on Facebook[J]. Journal of Computer-Mediated Communication, 2013, 18(3): 339-361.
5STRAFLING N, KRAMER N C. Learning together on Facebook et al. The influence of social aspects and personality on the usage of social media for study related exchange [J]. Gruppendynamik und Organisationsberatung, 2013, 44(4): 409-428.
6DUAN J Y, DHOLAKIA N. The reshaping of Chinese consumer values in the social media era: exploring the impact of Weibo [J]. Journal of Macromarketing, 2013, 33(4): 402-403.
7HUANG R, SUN X. Weibo network, information diffusion and implications for collective action in China [J]. Information Communication and Society, 2014, 17(1): 86-104.
8MAZO J. Blocked on Weibo: what gets suppressed on China's version of Twitter (and why) [J]. Survival, 2013, 55(6): 191-192.
9POELL T, de KLOET J, ZENG G, et al. Will the real Weibo please stand up? Chinese online contention and actor-network theory [J]. Chinese Journal of Communication, 2014,7(1): 1-18.
10PINKERTON B. Finding what people want: experiences with the WebCrawler[EB/OL]. [2010-10-10]. http://www.webir.org/resources/phd/pinkerton_2000.pdf.

二级参考文献26

1EHRIG M, MAEDCHE A. Ontology-focused crawling of Web documents[A]. Proceedings of the 2003 ACM symposium on Applied computing[C], March 2003.
2GUO Q, GUO H, ZHANG ZQ, et al. Schema Driven Topic Specific Web Crawling[A]. DASFAA[C], 2005.
3GRAUPMANN J, BIWER M, ZIMMER C, et al. COMPASS: A Concept-based Web Search Engine for HTML, XML, and Deep Web Data[A]. Proceedings of the 30th VLDB Conference[C],2004.
4QIN JL, ZHOU YL, CHAU M. Building domain-specific web collections for scientific digital libraries: a meta-search enhanced focused crawling method[A]. Proceedings of the 4th ACM/IEEE-CS joint conference on Digital libraries[C], June 2004.
5CHO J , GARCIA - MOLINA H , PAGE L . Efficient crawling through URL ordering[A]. Proceedings of the seventh international conference on World Wide Web 7[C], April 1998.
6FLORESCU D, LEVY AY, MENDELZON AO. Database techniques for the world-wide web: A survey[J]. SIGMOD Record, 1998,27(3) :59 -74.
7LAWRENCE S, GILES CL. Searching the World Wide Web[J].Science, 1998,280(5360):98.
8CHAKRABARTI S, VAN DEN BERG M, DOM B. Focused crawling: A new approach to topicspecific web resource discovery[A].Proceedings of the Eighth International World-Wide Web Conference[C], 1999.
9DAVULCU H, KODURI S, NAGARAJAN S. Datarover: a taxonomy based crawler for automated data extraction from data-intensive websites[A]. Proceedings of the 5th ACM international workshop on Web information and data management[C], November 2003.
10AGGARWAL CC. Collaborative Crawling: Aggarwal C. Collaborative crawling: mining user experiences for topical resource discovery [A]. Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining[C], July 2002.

共引文献155

1齐虎春.高职化工院校网络化工数据采集课程实践研究[J].内蒙古石油化工,2020,46(10):88-90. 被引量：1
2杨学明,刘柏嵩.主题爬虫在数字图书馆中的应用[J].图书馆杂志,2007,26(8):47-50. 被引量：3
3张丽莎,张贵,龙朝夕,张盛.林业专题动态信息的搜索与集成[J].中南林业科技大学学报,2013,33(5):47-51. 被引量：3
4胡宏涛,常佳.基于网络的信息获取技术浅析[J].福建电脑,2006,22(4):60-61. 被引量：4
5李刚,周立柱,郭奇,林玲.领域相关的Web网站抓取方法[J].计算机科学,2007,34(2):137-140. 被引量：5
6孙素芬,罗长寿,张峻峰,于峰,张树亮.农业信息资源整合系统研究与应用[J].安徽农业科学,2007,35(22):6993-6994. 被引量：3
7王迁,王丽娜.对收费网站中作品提供链接的法律性质——评“娱乐基地”诉百度案[J].电子知识产权,2007(8):41-43.
8陈军,陈竹敏.基于网页分块的Shark-Search算法[J].山东大学学报（理学版）,2007,42(9):62-66. 被引量：7
9李兆春,谢庆生,徐立章.机械主题爬虫的设计与实现[J].现代机械,2007(6):68-70. 被引量：1
10杜光芹,张化祥,赵瑞东.主题Web挖掘研究[J].计算机技术与发展,2008,18(2):94-97. 被引量：3

同被引文献349

1段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
2郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
3刘林,汪涛,樊孝忠.主题爬虫的解决方案[J].华南理工大学学报（自然科学版）,2004,32(z1):137-141. 被引量：10
4姚秀萍,吕明辉,张晓美,王丽娟,王昕.气象服务效益评估研究和业务进展[J].气象科技进展,2012,2(3):39-44. 被引量：24
5于留宝,胡长军,苏林晗.基于MapReduce的微博文本采集平台[J].计算机科学,2012,39(S3):143-145. 被引量：5
6刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
7罗霄,任勇,山秀明.基于Python的混合语言编程及其实现[J].计算机应用与软件,2004,21(12):17-18. 被引量：63
8徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
9徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
10费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68

引证文献62

1沈承放,莫达隆,黄文韬.网页数据采集算法及在住户调查中的应用[J].统计与决策,2021(7):52-56. 被引量：7
2项博良,唐淳淳,钱前,曹健东.基于网络爬虫的就业数据分析[J].智能计算机与应用,2020,10(1):223-226. 被引量：4
3童丽萍,李明.风荷载作用下玻璃幕墙结构的受力分析与计算[J].工业建筑,2000,30(4):27-30. 被引量：13
4王萍,王贺颖.基于新浪微博的冰雹实况信息挖掘[J].计算机与现代化,2016(3):24-29.
5李志晓.微博搜索技术及隐私安全问题的研究[J].电子世界,2016,0(21):58-59.
6孔雪娜,孙红.中文微博文本采集与预处理综述[J].软件导刊,2017,16(2):186-189. 被引量：7
7杨晓东,郜鲁涛,杨林楠,刘建阳.基于Hadoop平台的农产品价格数据爬取和存储系统的研究[J].计算机应用与软件,2017,34(3):76-80. 被引量：4
8谢克武.大数据环境下基于python的网络爬虫技术[J].电子制作,2017,25(9):44-45. 被引量：51
9王志文,陈珂,陈晓升,郑远飞,陈坚旋.基于MVC设计模式的微博数据采集框架[J].广东石油化工学院学报,2017,27(1):31-36. 被引量：1
10祁步法,夏战国,崔员宁,乐珍.微博大数据可视化[J].电脑知识与技术,2017,13(4):205-207.

二级引证文献351

1张昉.碰瓷营销在社交媒体平台收割“免费流量”的策略运用——以周杰伦打榜事件为例[J].新闻传播,2020(24):28-29.
2吴思捷,黄学彬.新冠肺炎疫情背景下基于PSR模型的H省旅游新闻分析[J].新闻研究导刊,2021,12(4):74-76. 被引量：2
3陈浩哲,郭妍廷.支持与压迫:新冠肺炎疫情期间社交媒体的使用对公众心理影响的一体两面[J].新媒体研究,2023,9(1):27-34. 被引量：1
4邱奕超,邹嘉程.浅析旅游大数据的多数据源采集方式[J].数字技术与应用,2024,42(3):161-164.
5包乾辉,李佳利,石淑珍,戴引,刘雪.基于DSLML的鸡蛋消费在线评论情感分析[J].农业机械学报,2021,52(S01):496-503. 被引量：6
6刘娟娟,杨根福.移动端儿童数字阅读行为采集与可视化研究[J].内江科技,2021,42(5):18-19.
7徐贵阳,邵恒,王楠溢.江苏省新冠肺炎疫情地图移动平台设计与实现[J].现代测绘,2020,43(3):30-33. 被引量：2
8李楚贞,余育文.中文微博数据预处理常用方法研究[J].科技经济导刊,2019,0(33):23-23. 被引量：4
9梁兆东,朱土凤,安旭东,李崇洁,廖冬梅,周琦杰.基于信息化技术实现2次地震事件评论数据的挖掘分析[J].华北地震科学,2020,38(S02):144-151.
10韩帅康,江涛,张顺.大数据评论采集分析系统的设计与实现[J].电脑知识与技术,2020,0(4):35-37. 被引量：1

1陈琳,任芳.基于Python的新浪微博数据爬虫程序设计[J].信息系统工程,2016,29(9):97-99. 被引量：24
2刘文,王标,王丁.基于Java线程池技术的数据爬虫设计与实现[J].电脑编程技巧与维护,2016(7):8-9. 被引量：6
3张航航,李艳平,陈昕,廖子炎,帅恺严.防泄密检索软件[J].计算机光盘软件与应用,2013,16(23):51-52.
4卓林,杨舟,岳亮,赵朋朋,崔志明.Deep Web爬虫的一种增量式更新策略[J].苏州大学学报（工科版）,2011,31(4):6-10. 被引量：1
5赵军.软件测试方法和工具选择[J].安徽科技,2007(5):44-45. 被引量：3
6林奎明.提高系统可靠性的技术方法[J].计测技术,2005,25(4):57-58. 被引量：1
7粗大误差（异常值）的定义，以及产生异常值的原因[J].电子质量,2012(12):48-48.
8孙杰.基于Web的数据挖掘方法研究[J].现代制造技术与装备,2012,48(6):25-27.
9陈启铭.应用于网络社区的数据挖掘流程[J].华东科技（学术版）,2012(8):493-493.
10杨泽,张玲华,王松,聂玉涵.基于WeiPHP的校园微信服务系统的设计与实现[J].计算机技术与发展,2017,27(1):195-199. 被引量：3

计算机应用

2014年第11期

浏览历史

内容加载中请稍等...

基于Python的新浪微博数据爬虫被引量：62

参考文献13

二级参考文献26

共引文献155

同被引文献349

引证文献62

二级引证文献351

相关作者

相关机构

相关主题

浏览历史

基于Python的新浪微博数据爬虫 被引量：62

参考文献13

二级参考文献26

共引文献155

同被引文献349

引证文献62

二级引证文献351

相关作者

相关机构

相关主题

浏览历史

基于Python的新浪微博数据爬虫被引量：62