基于主题模型的微博重要话题发现与排序方法被引量：12

Detection and Ranking of Significant Topics on Sina Weibo Based on Topic Model

在线阅读下载PDF

导出

摘要近年来,以Twitter和新浪微博为代表的微博客正在世界范围内流行起来.根据微博的特点,提出一种与特定主题(比如某种产品)相关的话题发现和排序的新方法.首先,在互联网上收集并格式化出现了感兴趣的词的微博.对于这些微博中的所有词汇,综合考虑影响力、突发性和相关性3个要素对其重要性进行评估.其次,对词的重要性做出估量后,以含有同一关键词的微博的集合为输入文档训练LDA模型.然后通过对主题关键词的概率分布的推导,实现词的聚类和主题的挖掘.这一方法可以克服微博的长度限制所带来的数据稀缺性问题.最后,通过真实数据集上的实验表明了该方法的有效性. Micro-blogging services,like Twitter and Sina Weibo,are getting popular across the world.In this paper a new approach is proposed to get information from micro-blogs about what people are thinking about a product,a company or an organization.First,messages in which people mention the item(e.g.aproduct)of interest are collected and formalized.Then,keywords cooccurring with it are analyzed to estimate their importance.In this procedure,three factors-influence,burstiness and relevance-are considered to balance topicsnovelty and specificity.Influence score of a keyword is based on its probability of being viewed by many people,burstiness score is based on whether it appears more times recently than before,and relevance score is based on its co-occurrence relationship with the product of interest.After keywords ranking process,micro-blogs containing the same keywords are aggregated to a term profile as input to train LDA model,by which the data sparsity caused by the length limit of micro-blog is weaken.The validity of this approach is proved in real case study.

作者姜晓伟王建民丁贵广

机构地区清华大学软件学院信息系统与工程研究所

出处《计算机研究与发展》 EI CSCD 北大核心 2013年第S1期179-185,共7页 Journal of Computer Research and Development

基金国家"八六三"高技术研究发展计划基金项目(2012AA040911)

关键词微博客关键词排序主题发现 LDA 主题模型文本挖掘 micro-blog keyword ranking topic detection latent Dirichlet allocation(LDA) topic model text mining

分类号 TP393.092 [自动化与计算机技术—计算机应用技术] TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1Juha Makkonen,Helena Ahonen-Myka,Marko Salmenkivi.Simple Semantics in Topic Detection and Tracking[J].Information Retrieval (-).2004(3-4)
2洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153
3张晨逸,孙建伶,丁轶群.基于MB-LDA模型的微博主题挖掘[J].计算机研究与发展,2011,48(10):1795-1802. 被引量：167

二级参考文献88

1贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：59
2金珠,林鸿飞,赵晶.基于HowNet的话题跟踪及倾向性分类研究[J].情报学报,2005,24(5):555-561. 被引量：21
3骆卫华,于满泉,许洪波,王斌,程学旗.基于多策略优化的分治多层聚类算法的话题发现研究[J].中文信息学报,2006,20(1):29-36. 被引量：38
4于满泉,骆卫华,许洪波,白硕.话题识别与跟踪中的层次化话题识别技术研究[J].计算机研究与发展,2006,43(3):489-495. 被引量：49
5宋丹,王卫东,陈英.基于改进向量空间模型的话题识别与跟踪[J].计算机技术与发展,2006,16(9):62-64. 被引量：23
6赵华,赵铁军,张姝,王浩畅.基于内容分析的话题检测研究[J].哈尔滨工业大学学报,2006,38(10):1740-1743. 被引量：20
7赵华,赵铁军,于浩,张姝.面向动态演化的话题检测研究[J].高技术通讯,2006,16(12):1230-1235. 被引量：17
8Kang J H, Lerman K, Plangprasopchok A. Analyzing Microblogs with affinity propagation [C] //Proc of the 1st KDD Workshop on Social Media Analytic. New York: ACM, 2010:67-70.
9Ramage D, Dumais S, Liebling D. Characterizing microblogs with topic models [C] //Proc of Int AAAI Conf on Weblogs and Social Media. Menlo Park, CA: AAAI, 2010:130-137.
10Xu R, Wunsch D. Survey of clustering algorithms [J]. IEEE Trans on Neural Networks, 2005, 16(3): 645-678.

共引文献313

1许睿,龙丹,刘佳,刘畅.基于LDA模型的电力投诉文本热点话题识别[J].云南大学学报（自然科学版）,2020,42(S02):26-31. 被引量：4
2骆梅柳.基于大数据的校园舆情热点话题跟踪研究[J].智能计算机与应用,2020(8):287-289. 被引量：1
3刘娜,肖智博,路莹,唐晓君,肖鹏.自适应主题融合的多文档自动摘要算法[J].中南大学学报（自然科学版）,2013,44(S2):205-209.
4刘星星,何婷婷,龚海军,陈龙.网络热点事件发现系统的设计[J].中文信息学报,2008,22(6):80-85. 被引量：30
5鲁明羽,姚晓娜,魏善岭.基于模糊聚类的网络论坛热点话题挖掘[J].大连海事大学学报,2008,34(4):52-54. 被引量：20
6任晓东,张永奎,薛晓飞.基于K-Modes聚类的自适应话题追踪技术[J].计算机工程,2009,35(9):222-224. 被引量：13
7张晓艳,王挺.话题发现与追踪技术研究[J].计算机科学与探索,2009,3(4):347-357. 被引量：21
8饶洋辉,叶良,常红旭,程洁.新话题监测研究进展[J].图书馆杂志,2009,28(7):60-63.
9程葳,龙志祎.面向互联网新闻的在线话题检测算法[J].计算机工程,2009,35(18):28-30. 被引量：8
10焦健,瞿有利.知网的话题更新与跟踪算法研究[J].北京交通大学学报,2009,33(5):132-136. 被引量：10

同被引文献153

1王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
2赵宏伟,陈霄,龙曼丽,袁世培.基于改进PLSA分类器的目标分类算法[J].吉林大学学报（工学版）,2012,42(S1):231-235. 被引量：2
3贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：59
4骆卫华,于满泉,许洪波,王斌,程学旗.基于多策略优化的分治多层聚类算法的话题发现研究[J].中文信息学报,2006,20(1):29-36. 被引量：38
5宋丹,王卫东,陈英.基于改进向量空间模型的话题识别与跟踪[J].计算机技术与发展,2006,16(9):62-64. 被引量：23
6余正涛,樊孝忠,郭剑毅,耿增民.基于潜在语义分析的汉语问答系统答案提取[J].计算机学报,2006,29(10):1889-1893. 被引量：44
7洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153
8Price D D. Networks of science papers [ J]. Science, 1965, (149): 510-515.
9Uphams, Small H. Emerging Research Fronts in Science and Technology: patterns of new knowledge development [J]. Scientometrics, 2010, 83 (1): 15-38.
10Small H, Upham P. Citation structure of an Emerg/ng Re- search Area on the Verge of Application [ J ]. Scientomet- tics, 2009, 79 (2): 365-375.

引证文献12

1许睿,龙丹,刘佳,刘畅.基于LDA模型的电力投诉文本热点话题识别[J].云南大学学报（自然科学版）,2020,42(S02):26-31. 被引量：4
2宫小翠,赵迎光,安新颖.研究前沿识别方法探析[J].医学信息学杂志,2015,36(9):47-51. 被引量：5
3张膂.基于LPAL模型的超文本分析[J].微型电脑应用,2016,32(3):77-80. 被引量：1
4李方馨,李成城.中文微博自动文摘生成方法[J].软件导刊,2016,15(5):160-162.
5杨萌萌,黄浩.基于词嵌入扩充的口语对话文本领域分类[J].新疆大学学报（自然科学版）,2016,33(2):209-214.
6梁晓贺,田儒雅,吴蕾,张学福.微博主题发现研究方法述评[J].图书情报工作,2017,61(14):141-148. 被引量：10
7欧阳龙,卢琪,彭艳兵.基于内容和背景的微博问答问题推荐[J].电子设计工程,2018,26(11):183-188. 被引量：1
8吴财贵,龚文辉,付青.微博话题检测与舆情分析研究[J].软件导刊,2018,17(8):85-89.
9谢凯,梁刚,杨文太,杨进,许春.MPOPTM:一种基于热量模型的微博舆情预测模型[J].现代计算机,2018,24(6):11-16.
10李秀霞,程结晶,韩霞.发文趋势与引文趋势融合的学科研究主题优先级排序——以我国情报学学科主题为例[J].图书情报工作,2019,63(11):88-95. 被引量：14

二级引证文献36

1毛泽强.金融机构海量投诉数据分析与应用——基于LDA-TPA模型文本挖掘[J].金融发展评论,2021(9):81-95. 被引量：1
2张志常,娄岩.衰老性疾病与肿瘤相关的SCI论文主题词聚类分析[J].医学信息学杂志,2016,37(1):55-58.
3张志常,娄岩.无线网络与医疗相关SCI论文主题词聚类分析[J].医学信息学杂志,2016,37(3):62-65.
4张志常,娄岩.医疗云相关SCI论文主题词聚类分析[J].医学信息学杂志,2016,37(6):63-66.
5刘太芳,赵庆庆,张爱华.基于中国知网数据库(1996—2015年)老年护理研究的可视化分析[J].中国医学伦理学,2016,29(6):1048-1052. 被引量：4
6王曰芬,王一山.传播阶段中不同传播者的舆情主题发现与对比分析[J].现代情报,2018,38(9):28-35. 被引量：13
7宫小翠,安新颖,单连慧.基于Labeled LDA主题模型的医学文献自动分类法[J].中华医学图书情报杂志,2018,27(10):53-58. 被引量：3
8陈昱杉,李凤全,王天阳,朱丽东,叶玮.网络舆情信息扩散中距离的影响——以新浪微博“九寨沟地震”事件为例[J].浙江师范大学学报（自然科学版）,2020,43(1):77-84. 被引量：7
9邵作运,李秀霞.引文分析法与内容分析法结合的文献知识发现方法综述[J].情报理论与实践,2020,43(3):153-159. 被引量：30
10梁晓贺,田儒雅,吴蕾,张学福.基于超网络的微博相似度及其在微博舆情主题发现中的应用[J].图书情报工作,2020,64(11):77-86. 被引量：13

1李雨蒙.微星VR One背包主机:让你随时随地爽玩VR[J].中国民商,2016,0(11):80-80.
2简单故障及排除方法—ASE15专题[J].铁路计算机应用,2009,18(7):62-62.
3修改注册表对付病毒、木马、后门及黑客程序[J].计算机与网络,2008,34(23):34-34.
4牧马人.按需管理让PDF文档适合自己[J].个人电脑,2013(2):51-53.
5从注册表下手切断黑客入侵的路径[J].计算机与网络,2009,35(15):33-33.
6于明龙.通过修改注册表保证计算机安全[J].中国教育技术装备,2009(20):48-49.
7萧风.过冬了把散落的资料收起来[J].网友世界,2006(23):32-32.
8管丽娜.修改注册表对付病毒、木马、后门及黑客程序的几个方法[J].河北自学考试,2007(6):30-30. 被引量：1
9王树梅,金澎.词间相关性在Web检索中的新应用[J].计算机工程与应用,2002,38(21):112-113. 被引量：3
10程岩,肖小云,吴洁倩.基于聚类分析的电子商务推荐系统[J].计算机工程与应用,2005,41(24):175-177. 被引量：12

计算机研究与发展

2013年第S1期

浏览历史

内容加载中请稍等...

基于主题模型的微博重要话题发现与排序方法被引量：12

参考文献3

二级参考文献88

共引文献313

同被引文献153

引证文献12

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于主题模型的微博重要话题发现与排序方法 被引量：12

参考文献3

二级参考文献88

共引文献313

同被引文献153

引证文献12

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于主题模型的微博重要话题发现与排序方法被引量：12