基于狄利克雷多项分配模型的多源文本主题挖掘模型被引量：1

Multi-source text topic mining model based on Dirichlet multinomial allocation model

在线阅读下载PDF

导出

摘要随着文本数据来源渠道越来越丰富,面向多源文本数据进行主题挖掘已成为文本挖掘领域的研究重点。由于传统主题模型主要面向单源文本数据建模,直接应用于多源文本数据有较多的限制。针对该问题提出了基于狄利克雷多项分配(DMA)模型的多源文本主题挖掘模型——多源狄利克雷多项分配模型(MSDMA)。通过考虑主题在不同数据源的词分布的差异性,结合DMA模型的非参聚类性质,模型主要解决了如下三个问题:1)能够学习出同一个主题在不同数据源中特有的词分布形式;2)通过数据源之间共享主题空间和词项空间,使得数据源间可进行主题知识互补,提升对高噪声、低信息量的数据源的主题发现效果;3)能自主学习出每个数据源内的主题数量,不需要事先给定主题个数。最后通过在模拟数据集和真实数据集的实验结果表明,所提模型比传统主题模型能更有效地对多源数据进行主题信息挖掘。 With the rapid increase of text data sources,topic mining for multi-source text data becomes the research focus of text mining.Since the traditional topic model is mainly oriented to single-source,there are many limitations to directly apply to multi-source.Therefore,a topic model for multi-source based on Dirichlet Multinomial Allocation model(DMA)was proposed considering the difference between sources of topic word-distribution and the nonparametric clustering quality of DMA,namely MSDMA(Multi-Source Dirichlet Multinomial Allocation).The main contributions of the proposed model are as follows:1)it takes into account the characteristics of each source itself when modeling the topic,and can learn the source-specific word distributions of topic k;2)it can improve the topic discovery performance of high noise and low information through knowledge sharing;3)it can automatically learn the number of topics within each source without the need for human pre-given.The experimental results in the simulated data set and two real datasets indicate that the proposed model can extract topic information more effectively and efficiently than the state-of-the-art topic models.

作者徐立洋黄瑞章陈艳平钱志森黎万英 XU Liyang;HUANG Ruizhang;CHEN Yanping;QIAN Zhisen;LI Wanying(College of Computer Science and Technology,Guizhou University,Guiyang Guizhou 550025,China;Guizhou Provincial Key Laboratory of Public Big Data(Guizhou University),Guiyang Guizhou 550025,China;State Key Laboratory for Novel Software Technology(Nanjing University),Nanjing Jiangsu 210093,China)

机构地区贵州大学计算机科学与技术学院贵州省公共大数据重点实验室(贵州大学) 计算机软件新技术国家重点实验室(南京大学)

出处《计算机应用》 CSCD 北大核心 2018年第11期3094-3099,3104,共7页 journal of Computer Applications

基金国家自然科学基金资助项目(61462011) 国家自然科学基金重大研究计划项目(91746116) 贵州省重大应用基础研究项目(黔科合JZ字[2014]2001) 贵州省科技重大专项计划项目(黔科合重大专项字[2017]3002) 贵州省自然科学基金资助项目(黔科合基础[2018]1035)~~

关键词多源文本数据主题模型吉布斯采样狄利克雷多项分配模型文本挖掘 multi-source text data topic model blocked-Gibbs sampling Dirichlet Multinomial Allocation(DMA) text mining

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献2

1周建英,王飞跃,曾大军.分层Dirichlet过程及其应用综述[J].自动化学报,2011,37(4):389-407. 被引量：40
2高悦,王文贤,杨淑贤.一种基于狄利克雷过程混合模型的文本聚类算法[J].信息网络安全,2015(11):60-65. 被引量：10

二级参考文献119

1Mitchell T M. Machine Learning. New York: McGraw-Hill, 1997.
2Teh Y W. Dirichlet processes. Encyclopedia of Machine Learning, Springer, 2010. Part 5, 280-287.
3Teh Y W, Jordan M I. Hierarchical Bayesian nonparametric models with applications. Bayesian Nonparametrics Princi- ples and Practice. Cambridge University Press, 2009. 1-47.
4Teh Y W, Jordan M I, Beal M J, Blei D M. Sharing clus- ters among related groups: hierarchical Dirichlet processes. In: Proceedings of the Advances in Neural Information Processing Systems. Vancouver, Canada: The MIT Press, 2004. 1385 - 1392.
5Teh Y W, Jordan M I, Beal M J, Blei D M. Hierarchical Dirichlet processes. Journal of the American Statistical As- sociation, 2006, 101(476): 1566-1581.
6Yakhnenko O, Honavar V. Multi-modal hierarchical Dirich- let process model for predicting image annotation and image-object label correspondence. In: Proceedings of the SIAM International Conference on Data Mining. Sparks, USA: SIAM, 2009. 281-294.
7Wang X G, Ma X K, Grimson W E L. Unsupervised activity perception by hierarchical Bayesian models. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis, USA: IEEE, 2007. 1-8.
8Wang X, Tieu K, Gee-Wah N, Grimson W E L. Trajectory analysis and semantic region modeling using a nonpaxamet- ric Bayesian model. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, USA: IEEE, 2008. 1-8.
9Wang X G, Ma X X, Grimson W E L. Unsupervised activity perception in crowded and complicated scenes using hierarchical Bayesian models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(3): 539-555.
10Wang X G, Grimson W E L, Westin C F. Tractography segmentation using a hierarchical Dirichlet processes mixture model. In: Proceedings of the 21st International Conference on Information Processing in Medical Imaging. Williams- burg, USA: Springer, 2009. 101-113.

共引文献48

1冯霞,曾晓维,卢敏.基于层次出行意图的旅客航线偏好预测[J].计算机应用研究,2020,37(S02):126-128.
2罗景文,秦世引.基于Dirichlet过程非参贝叶斯学习的高斯箱粒子滤波快速SLAM算法[J].机器人,2019,41(5):660-675. 被引量：5
3张林,刘辉.DNA甲基化微阵列的非参数贝叶斯聚类算法[J].自动化学报,2012,38(10):1709-1713.
4王行愚,金晶,张宇,王蓓.脑控:基于脑-机接口的人机融合控制[J].自动化学报,2013,39(3):208-221. 被引量：98
5余淼淼,王俊丽,赵晓东,岳晓冬.PAM概率主题模型研究综述[J].计算机科学,2013,40(5):1-7. 被引量：3
6孙建中,熊忠阳,张玉芳.基于时间Dirichlet过程混合模型的在线目标跟踪[J].系统仿真学报,2013,25(6):1155-1160. 被引量：1
7张媛媛.一种基于非参数贝叶斯模型的聚类算法[J].宁波大学学报（理工版）,2013,26(4):24-28. 被引量：2
8孙建中,熊忠阳,张玉芳.采用自适应先验表观模型的目标跟踪方法[J].四川大学学报（工程科学版）,2013,45(5):69-75.
9曹建平,王晖,夏友清,乔凤才,张鑫.基于LDA的双通道在线主题演化模型[J].自动化学报,2014,40(12):2877-2886. 被引量：15
10张学峰,陈渤,王鹏辉,刘宏伟.一种基于Dirichelt过程隐变量支撑向量机模型的目标识别方法[J].电子与信息学报,2015,37(1):29-36. 被引量：4

同被引文献8

1高悦,王文贤,杨淑贤.一种基于狄利克雷过程混合模型的文本聚类算法[J].信息网络安全,2015(11):60-65. 被引量：10
2廖大强.面向多目标的云计算资源调度算法[J].计算机系统应用,2016,25(2):180-189. 被引量：30
3李涛,王次臣,李华康.知识图谱的发展与构建[J].南京理工大学学报,2017,41(1):22-34. 被引量：148
4王树恒,吐尔根.依布拉音,卡哈尔江.阿比的热西提,艾山.吾买尔,古丽尼格尔.阿不都外力.基于BLSTM的维吾尔语文本情感分析[J].计算机工程与设计,2017,38(10):2879-2886. 被引量：16
5王伟,胡长武,郭栋,张静轩,常进达,张礼庆.一种面向云构软件的云操作系统[J].计算机科学,2017,44(11):33-40. 被引量：12
6易利容,王绍宇,殷丽丽,杨青,顾欣.基于多变量LSTM的工业传感器时序数据预测[J].智能计算机与应用,2018,8(5):13-16. 被引量：41
7刘测,韩家新.面向新闻文本的分类方法的比较研究[J].智能计算机与应用,2018,8(5):38-41. 被引量：10
8郑娜,王加阳.不完备序信息系统的证据特征及属性约简[J].计算机工程与应用,2018,54(21):43-47. 被引量：19

引证文献1

1谌裕勇.云存储中心多源文本主题融合模型研究[J].智能计算机与应用,2019,9(2):148-151. 被引量：2

二级引证文献2

1刘洋.基于信息融合技术的大数据云存储技术探究[J].信息技术与信息化,2019,0(9):228-229. 被引量：1
2牟宇超,刘瑞.一种基于本体的数据共享服务模型[J].软件导刊,2019,18(11):36-41. 被引量：1

1蒲姗姗.基于知识互补的科研合作专家推荐模型研究[J].情报理论与实践,2018,41(8):96-101. 被引量：21
2葛玉梅.数学教学中学生思维品质的培养[J].明日,2018(6):292-292.
3史加荣,张安银.概率张量分解综述[J].陕西理工大学学报（自然科学版）,2018,34(4):70-79. 被引量：2
4王凯祥.面向查询的自动文本摘要技术研究综述[J].计算机科学,2018,45(B11):12-16. 被引量：5
5于玲玲.大数据下用电信息智能采集运维挖掘模型仿真[J].计算机仿真,2018,35(10):402-405. 被引量：3
6康俊太.浅析如何利用非智力因素构建高效数学课堂[J].课程教育研究（学法教法研究）,2018,0(32):161-161.
7汤颖,孙康高,秦绪佳,周建美.基于局部模型加权融合的Top-N电影推荐算法[J].计算机科学,2018,45(B11):439-444. 被引量：4
8蒋权,郑山红,刘凯,李万龙.MB-HL模型的微博主题挖掘研究[J].计算机应用研究,2018,35(11):3298-3301. 被引量：1
9许银洁,孙春华,刘业政.考虑用户特征的主题情感联合模型[J].计算机应用,2018,38(5):1261-1266. 被引量：10
10卢敏,王莉.面向班型动态生成的地服人员排班算法[J].交通运输系统工程与信息,2018,18(4):54-60. 被引量：4

计算机应用

2018年第11期

浏览历史

内容加载中请稍等...

基于狄利克雷多项分配模型的多源文本主题挖掘模型被引量：1

参考文献2

二级参考文献119

共引文献48

同被引文献8

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于狄利克雷多项分配模型的多源文本主题挖掘模型 被引量：1

参考文献2

二级参考文献119

共引文献48

同被引文献8

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于狄利克雷多项分配模型的多源文本主题挖掘模型被引量：1