-
题名基于加权隐含狄利克雷分配模型的新闻话题挖掘方法
被引量:14
- 1
-
-
作者
李湘东
巴志超
黄莉
-
机构
武汉大学信息管理学院
武汉大学信息资源研究中心
武汉大学
武汉大学图书馆
-
出处
《计算机应用》
CSCD
北大核心
2014年第5期1354-1359,共6页
-
文摘
针对传统新闻话题挖掘准确率不高、话题可解释性差等问题,结合新闻报道的体例结构特点,提出一种基于加权隐含狄利克雷分配(LDA)模型的新闻话题挖掘方法。首先从不同角度改进词汇权重并构造复合权值,扩展LDA模型生成特征词的过程,以获取表意性较强的词汇;其次,将类别区分词(CDW)方法应用于建模结果的词序优化上,以消除话题歧义和噪声、提高话题的可解释性;最后,依据模型话题概率分布的数学特性,从文档对话题的贡献度以及话题权值概率角度对话题进行量化计算,以获取热门话题。仿真实验表明:与传统LDA模型相比,改进方法的漏报率、误报率分别平均降低1.43%、0.16%,最小标准代价平均降低2.68%,验证了该方法的可行性和有效性。
-
关键词
新闻报道
话题挖掘
加权隐含狄利克雷分配模型
类别区分词
词序优化
-
Keywords
news report
topic mining
weighted Latent Dirichlet Allocation (LDA) model
category distinguish word (cdw)
order optimization
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种改进的类别区分词特征选择算法
被引量:3
- 2
-
-
作者
李富星
蒙祖强
-
机构
广西大学计算机与电子信息学院
-
出处
《计算机与现代化》
2019年第3期73-77,共5页
-
基金
广西自然科学基金资助项目(2015GXNSFAA139292)
-
文摘
传统类别区分词特征选择算法以类间分散度和类内重要度作为度量指标,忽略了2个指标对特征评分函数的贡献权重往往不同这一事实,从而在一定程度上影响了特征选择效果。在类别区分词特征选择算法基础上,引入平衡因子,通过调节平衡因子来调整2个指标对特征评价函数的贡献权重,完成更加高效的特征选择,进而达到更好的文本分类效果。使用朴素贝叶斯算法进行文本分类,相比主流特征选择算法,改进算法在分类准确率、查准率、查全率和F1指标上都取得了可观的性能提升。
-
关键词
文本分类
特征选择
平衡因子
类别区分词
-
Keywords
text categorization
feature selection
balance factor
category distinguished words
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-