基于用户关系的维吾尔文微博数据获取方法的研究被引量：4

Research of User-Relationship Based Data Acquisition Method on Uyghur Microblog

在线阅读下载PDF

导出

摘要目前,互联网上的大部分群体性数据资源集中在微博、论坛等社交网络上.跨语言社会舆情分析是我国智能信息处理的一个研究热点.维吾尔语是我国主要少数民族语言之一,为了构建一个好的跨语言舆情分析系统,维吾尔文微博的数据获取显得尤为重要.维吾尔文微博数据获取最大的难点是微博开发商不提供API.本文以技术和经济为基础的"Guduk"微博为研究对象,提出了一种基于用户关系的维吾尔文微博数据获取爬虫系统方案,此方案解决了在不提供API情况下的数据获取难点.本文的研究为跨语言舆情分析系统提供大量的维吾尔文社交网络数据资源、数据获取方法和技术. At present, most of the mass of data on the internet resources are concentrated in Microblogs,forums and other social networks cross-language social public opinion analysis is a hotspot of intelligent information processing in China, and Uyghur is one of the major minority languages in China. In order to build a good cross-language public opinion analysis system, Uyghur microblog＇s data acquisition is particularly important. The biggest difficulty of Uyghur microblog data access is that the microblog developers does not provide API. Research object of this paper is the ＂Guduk＂ Microblog,based on the technology and economy and this paper presents a program that user relationship-based microblog data acquisition crawler system. This program solved the difficulty of data acquisition on the case of not providing API. This study provides a big amount of Uyghur social network data resources,data acquisition method and techniques for cross-language public opinion analysis system.

作者亚森.伊斯马伊力吐尔根.依布拉音卡哈尔江.阿比的热西提

机构地区新疆大学信息科学与工程学院新疆大学新疆多语种信息技术重点实验室

出处《新疆大学学报（自然科学版）》 CAS 北大核心 2015年第1期74-79,共6页 Journal of Xinjiang University(Natural Science Edition)

基金国家重点基础研究发展计划(973)项目(2014cb340506) 国家自然科学基金项目(61331011)

关键词跨语言舆情数据获取用户关系网络爬虫微博API Cross-language Public Opinion Data Extraction User Relationship Web Crawler Micro Blog API

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1HAN Ruixia. The influence of microblogging on personalpublic participation[C]. Proceedings of the 2010 IEEE 2nd Sym- posium on Web Society, SWS 2010. Beijing, China:Association for Computing Machinery, 2010, 615-618.
2黄延炜,刘嘉勇.新浪微博数据获取技术研究[J].信息安全与通信保密,2013,11(6):71-73. 被引量：22
3廉捷,周欣,曹伟,刘云.新浪微博数据挖掘方案[J].清华大学学报（自然科学版）,2011,51(10):1300-1305. 被引量：120
4姚科.开放API:新浪微博必经之路?[J].互联网天地,2010(8):71-72. 被引量：8
5孙青云,王俊峰,赵宗渠,高梦超.一种基于模拟登录的微博数据采集方案[J].计算机技术与发展,2014,24(3):6-10. 被引量：30
6陈雷,刘嘉勇.基于HTTP协议的POST数据分析与还原[J].通信技术,2011,44(4):132-134. 被引量：17

二级参考文献37

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：156
3郭世泽,何韶军,牛伟.基于HASH表和SYN计算的TCP包重组方法[J].信息安全与通信保密,2006(2):18-19. 被引量：5
4林雅榕,侯整风.对哈希算法SHA-1的分析和改进[J].计算机技术与发展,2006,16(3):124-126. 被引量：25
5杜谦,张文霞.多语言可实现的SHA-1散列算法[J].武汉理工大学学报（信息与管理工程版）,2007,29(7):42-44. 被引量：7
6RICHARD STEVENSW.TCP/IP详解(卷1:协议)[M].北京:机械工业出版社,2000.
7RICHTERJeffery.Windows核心编程[M].北京:机械工业出版社,2000.
8Pieter N, Michiel H. Mining Twitter in the cloud: A case study [C]// Proceedings of the 2010 IEEE 3rd International Conference on Cloud Computing, CLOUD 2010. Miami, USA: IEEE Computer Society, 2010: 107 -114.
9Abraham R, Martinez T. Twitter: Network properties analysis [C]// Proceedings of the CONIELECOMP 2010 20th International Conference on Electronics Communications and Computers. Cholula Puebla, Mexico: IEEE Computer Society, 2010: 180 - 184.
10wenE,SunV.新浪微博研究报告[Z/OL].(2011-05-20),http://www.techweb.com.cn/data/2011-02-25/916941.shtml.

共引文献166

1韩妍妍,何彦茹,刘培鹤,任慧,张锦圣.基于爬虫的XSS漏洞检测工具设计与实现[J].北京电子科技学院学报,2019,0(1):7-16. 被引量：1
2于洪,杨显.微博中节点影响力度量与传播路径模式研究[J].通信学报,2012,33(S1):96-102. 被引量：27
3于留宝,胡长军,苏林晗.基于MapReduce的微博文本采集平台[J].计算机科学,2012,39(S3):143-145. 被引量：5
4王晶,朱珂,汪斌强.基于信息数据分析的微博研究综述[J].计算机应用,2012,32(7):2027-2029. 被引量：21
5孙晓莹,李大展,王水.国内微博研究的发展与机遇[J].情报杂志,2012,31(7):25-33. 被引量：12
6吴泽.嵌入式Web Server中HTTP协议的分析[J].许昌学院学报,2012,31(5):66-68. 被引量：2
7赵前东,叶猛.微博热点话题检测系统的设计与实现[J].电视技术,2013,37(3):205-208. 被引量：3
8王静,黄地龙.基于数据挖掘的微博人气用户特征分析与研究[J].数字通信,2013,40(1):17-18. 被引量：5
9戴月卿,钟玲,林柏钢,陈明志.基于微博的人物关系网络挖掘系统[J].信息网络安全,2013(2):83-86. 被引量：4
10陈彦舟,曹金璇.基于Hadoop的微博舆情监控系统[J].计算机系统应用,2013,22(4):18-22. 被引量：27

同被引文献46

1徐杰,施鹏飞.图像检索中基于标记与未标记样本的主动学习算法[J].上海交通大学学报,2004,38(12):2068-2072. 被引量：7
2徐军,丁宇新,王晓龙.使用机器学习方法进行新闻的情感自动分类[J].中文信息学报,2007,21(6):95-100. 被引量：108
3居胜峰,王中卿,李寿山,等. 情感分类中不同主动学习策略比较研究[C] //中国计算语言学研究前沿进展(2009-2011). 2011:506-511.
4Li S,Huang C R,Zhou G,et al.Employing Personal/Impersonal Views in Supervised and Semi-Supervised Sentiment Classification[C].Proceedings of Annual Meeting of the Association for Computational Linguistics,2010:414-423.
5Pang B,Lee L,Vaithyanathan S.Thumbs up?:sentiment classification using machine learning techniques[C].Proceedings of Emnlp,2002:79–86.
6Dasgupta S,Ng V.Mine the Easy,Classify the Hard:A Semi-Supervised Approach to Automatic Sentiment Classification[C].Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP,2009,2.
7龙军,殷建平,祝恩,等.主动学习研究综述[C].2007全国理论计算机科学学术年会,2007:300-304.
8Pang B,Lee L.A Sentimental Education:Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts[C].Proceedings of the Acl,2004:271–278.
9Riloff E,Patwardhan S,Wiebe J.Feature Subsumption for Opinion Analysis[J].In Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing(EMNLP-06,2006:440-448.
10Mcdonald R,Hannan K,Neylon T,et al.Structured Models for Fine-to-Coarse Sentiment Analysis[C].Proceedings of Annual Meeting of the Association of Computational Linguistics,2007.

引证文献4

1李响,吐尔根.依布拉音,卡哈尔江.阿比的热西提,买合木提.买买提.基于主动学习的SVM维吾尔语情感分析研究[J].新疆大学学报（自然科学版）,2015,32(4):447-452. 被引量：6
2伊尔夏提.吐尔贡,吾守尔.斯拉木,热西旦木.吐尔洪太,于清.维吾尔文情感语料库的构建与分析[J].计算机与现代化,2017(4):67-72. 被引量：6
3王树恒,吐尔根.依布拉音,卡哈尔江.阿比的热西提,艾山.吾买尔,古丽尼格尔.阿不都外力.基于BLSTM的维吾尔语文本情感分析[J].计算机工程与设计,2017,38(10):2879-2886. 被引量：16
4赖茹,杨勇,任鸽.基于众包的维吾尔语多源语义知识库构建研究[J].计算机应用与软件,2018,35(8):137-142.

二级引证文献26

1刘刚.WINDOWS下提取汉字字模[J].电脑编程技巧与维护,2000(5):8-10.
2如先姑力.阿布都热西提,亚森.艾则孜,年梅.基于广泛相似度的维吾尔语文档分类方案[J].计算机工程与设计,2017,38(6):1686-1691.
3王树恒,吐尔根.依布拉音,卡哈尔江.阿比的热西提,艾山.吾买尔,古丽尼格尔.阿不都外力.基于BLSTM的维吾尔语文本情感分析[J].计算机工程与设计,2017,38(10):2879-2886. 被引量：16
4热西旦木.吐尔洪太,吾守尔.斯拉木.基于Bi-tagged特征的维吾尔文情感分类方法研究[J].中文信息学报,2018,32(8):80-90. 被引量：1
5余本功,张培行,许庆堂.基于F-BiGRU情感分析的产品选择方法[J].数据分析与知识发现,2018,2(9):22-30. 被引量：4
6李洋,董红斌.基于CNN和BiLSTM网络特征融合的文本情感分析[J].计算机应用,2018,38(11):3075-3080. 被引量：115
7张俊飞,毕志升,吴小玲.基于词向量Doc2vec的双向LSTM情感分析[J].计算机与数字工程,2018,46(12):2385-2389. 被引量：8
8帕丽旦.木合塔尔,买买提阿依甫,杨文忠,吾守尔.斯拉木.基于BiRNN的维吾尔语情感韵律短语注意力模型[J].电子科技大学学报,2019,48(1):88-95. 被引量：7
9谌裕勇.云存储中心多源文本主题融合模型研究[J].智能计算机与应用,2019,9(2):148-151. 被引量：2
10李云飞.多维场景数据的共享存取优化模型[J].山东农业大学学报（自然科学版）,2019,50(3):429-433. 被引量：2

1刘松,张德贤.基于Web挖掘的粮食舆情分析应用研究[J].电脑知识与技术,2013,9(4):2426-2428.
2黄美璇.基于主题发现的舆情分析系统的设计与实现[J].北京联合大学学报,2012,26(1):33-36. 被引量：5
3夏盛.大数据时代下的网络舆情分析系统[J].电子技术与软件工程,2016(17):187-187. 被引量：1
4陈绛平,蔡颖,王丹霞.微博舆情分析系统设计[J].现代城市,2013,8(1):33-36.
5刘鑫,胡云琴.基于J2EE的舆情分析系统的设计与实现[J].信息系统工程,2015,28(4):69-69.
6李勇,刘战东.面向网络舆情分析系统的本体应用[J].西安石油大学学报（自然科学版）,2014,29(1):94-97. 被引量：2
7刘华春,王星捷.网络舆情信息提取技术研究与实现[J].计算机技术与发展,2016,26(9):8-11. 被引量：4
8陈艺卓.基于数据挖掘的高校网络舆情分析系统设计与实现[J].电子技术与软件工程,2016(23):189-189. 被引量：3
9耿晓龙.高校网络舆情分析系统的探究[J].电子测试,2016,27(4):74-75.
10周民,邱雅,王华彬.网络舆情分析中智能爬虫的设计[J].电脑知识与技术,2011,7(11X):8301-8302. 被引量：1

新疆大学学报（自然科学版）

2015年第1期

浏览历史

内容加载中请稍等...

基于用户关系的维吾尔文微博数据获取方法的研究被引量：4

参考文献6

二级参考文献37

共引文献166

同被引文献46

引证文献4

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于用户关系的维吾尔文微博数据获取方法的研究 被引量：4

参考文献6

二级参考文献37

共引文献166

同被引文献46

引证文献4

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于用户关系的维吾尔文微博数据获取方法的研究被引量：4