基于不平衡数据集的文本分类技术研究被引量：1

Unbalanced Data Sets Based on the Text Classification Technology Research

在线阅读下载PDF

导出

摘要文本自动分类是数据挖掘和信息检索的核心技术,也是研究热点。在实际的应用中,时常会出现文本数据量很大,但是对人们有用的信息仅占一小部分,这种某类样本数量明显少于其他类样本数量的数据就是不平衡数据集。不平衡数据集可以分类为少数类和多数类。传统方法对少数类的识别率比较低,如何有效地提高少数类的分类性能成为了模式识别和机器学习必须解决的问题。就提高不平衡数据集的少数类文本的分类性能问题,从数据层面处理角度对数据进行了重抽样,采用随机抽样的办法来提高分类器在不平衡数据集的泛化性能。 Automatic text classification is a core technology in data mining and information retrieval community,but also research focus.In practical applications,the text will appear from time to time large amounts of data,but useful information on people only a small part of them,such data that certain number of samples was less than the number of other types of samples is called unbalanced data sets.Unbalanced data sets can be classified as a small number of classes and the majority of classes.The recognition rate of traditional method to a small number of classes is relatively low,so how to effectively improve the classification performance of a small number of classes has become a problem must be solved in pattern recognition and machine learning.In order to improve the minority class imbalanced data set classification performance of text,this paper from the data level processing point of view conducted a re-sampling,as well as used random sampling methods to improve the classifier in the generalization performance of unbalanced data sets.

作者白凤凤

机构地区山西省吕梁高等专科学校计算机系

出处《电脑编程技巧与维护》 2010年第6期21-22,29,共3页 Computer Programming Skills & Maintenance

关键词文本自动分类不平衡数据集少数类 Automatic text categorization Unbalanced data set A small number of class

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1陆玉昌,鲁明羽,李凡,周立柱.向量空间法中单词权重函数的分析和构造[J].计算机研究与发展,2002,39(10):1205-1210. 被引量：126
2周茜,赵明生,扈旻.中文文本分类中的特征选择研究[J].中文信息学报,2004,18(3):17-23. 被引量：165
3张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：27
4李正欣,赵林度.基于SMOTEBoost的非均衡数据集SVM分类器[J].系统工程,2008,26(5):116-119. 被引量：14
5徐燕,李锦涛,王斌,孙春明.基于区分类别能力的高性能特征选择方法[J].软件学报,2008(1):82-89. 被引量：83

二级参考文献23

1赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量：21
2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：391
3Yang Yiming,Pederson J O.A Comparative Study on Feature Selection in Text Categorization [A].Proceedings of the 14th International Conference on Machine learning[C].Nashville:Morgan Kaufmann,1997:412-420.
4Y.Yang.Noise reduction in a statistical approach to text categorization[A].Proceedings of the 18th Ann Int ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR95)[C].Seattle:ACM Press,1995:256-263.
5Thorsten Joachims,Text Categorization with Support Vector Machines:Learning with Many Relevant Features[A],In:European Conferrence on Machine Learning (ECML)[C].Berlin:Springer,1998,137-142.
6Mlademnic,D.,Grobelnik,M.Feature Selection for unbalanced class distribution and Nave Bayees[A].Proceedings of the Sixteenth International Conference on Machine Learning[C].Bled:Morgan Kaufmann,1999:258-267.
7梁久祯兰东俊扈旻.基于先验知识的网页特征压缩与线性分类器设计[A]..第十二届全国神经计算学术大会论文集[C].北京:人民邮电出版社,2002.494-501.
8Kubat M, Holte R C, Stan M. Machine learning for the detection o:f oil spills in satellite radar images[J]. Machine Learning, 1998,30 (2) : 195- 215.
9Randall W D, Martinez T R. Reduction techniques for instance-based learning algorithms[J]. Machine Learning, 2000,38 (3) : 257- 286.
10Guo H Y, Viktor H L. Learning from imbalanced data sets with boosting and data generation: the data boost-IM approach[J]. SIGKDD Explorations, 2004, 6(1):30-39.

共引文献389

1陈丹雯,徐建军,谢毓湘,吴玲达.虚拟新闻自动生成系统的设计与实现[J].系统仿真学报,2006,18(z1):157-160.
2赵燕平,李超.网络安全信息挖掘中的特征选择与专利分析研究[J].中国管理科学,2004,12(z1):514-518. 被引量：3
3王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
4蒋宗礼,李宪雷,徐学可.基于主题Hub值的元搜索[J].北京工业大学学报,2009,35(3):397-402. 被引量：1
5黄健刚.基于J2ME的手机垃圾短信过滤器的研究[J].魅力中国,2009(26):169-170.
6徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
7尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.
8赵小明,孙晓璇,李攀,胡绍波.基于决策树分类算法的平行志愿填报及研究[J].思想战线,2010,36(S1):348-351. 被引量：2
9王荣荣.全局和局部特征提取相融合的中文文本特征提取方法研究[J].河北北方学院学报（自然科学版）,2013,29(3):35-38.
10姜澜,李秀坤,单丽莉.一种新的词语权重计算方法[J].哈尔滨工业大学学报,2011,43(S1):315-318. 被引量：1

同被引文献4

1雷剑刚.不平衡网络入侵特征下的博弈检测仿真[J].计算机仿真,2015,32(9):307-310. 被引量：3
2魏勋,蒋凡.基于大规模不平衡数据集的糖尿病诊断研究[J].计算机系统应用,2018,27(1):219-224. 被引量：7
3唐静静,田英杰.多视角学习综述[J].数学建模及其应用,2017,6(3):1-15. 被引量：11
4Bo SUN,Haiyan CHEN,Jiandong WANG,Hua XIE.Evolutionary under-sampling based bagging ensemble method for imbalanced data classification[J].Frontiers of Computer Science,2018,12(2):331-350. 被引量：12

引证文献1

1李艳琼,李冬冬,王喆,张静.万有引力近邻的多视角分类学习[J].计算机工程与应用,2019,55(17):137-142. 被引量：2

二级引证文献2

1冯俊丰,温晴岚,胡丹青,施林丽,金晶亮.基于互联网悬赏制众包模式的定价策略[J].南通大学学报（自然科学版）,2019,18(2):82-86.
2王治和,常筱卿,杜辉.基于万有引力的自适应近邻传播聚类算法[J].计算机应用,2021,41(5):1337-1342. 被引量：5

1王成强.基于不平衡数据集的文本分类技术[J].电脑知识与技术,2009,0(12X):10571-10572.
2王成强.基于数据层面的不平衡数据集的分类方法[J].光盘技术,2009(11):28-29.
3强劲易用的图像处理工具 Photobie[J].电脑知识与技术（经验技巧）,2008(1):15-15.
4叶云龙,杨明.基于随机子空间的多分类器集成[J].南京师范大学学报（工程技术版）,2008,8(4):87-90. 被引量：4
5郑芳泉,陈晓云.基于支持向量聚类和重抽样的入侵检测[J].福州大学学报（自然科学版）,2013,41(2):171-177. 被引量：3
6余祥宣,刘铭.检测、防范DoS攻击的分布式模型及实现[J].华中科技大学学报（自然科学版）,2002,30(3):19-21.
7邓小龙,谢剑英,杨煜普.基于交互式多模型的粒子滤波算法[J].系统仿真学报,2005,17(10):2360-2362. 被引量：19
8肖春宝,冯大政,冯祥卫.重抽样优化的快速随机抽样一致性算法[J].计算机辅助设计与图形学学报,2016,28(4):607-614. 被引量：12
9本刊.Netronome推出可快捷实现SDN和NFV的平台架构方案[J].移动通信,2014,38(7):91-92.
10唐锋,武成岗,张兆庆,杨浩.二进制翻译应用级异常处理[J].计算机研究与发展,2006,43(12):2166-2173. 被引量：5

电脑编程技巧与维护

2010年第6期

浏览历史

内容加载中请稍等...

基于不平衡数据集的文本分类技术研究被引量：1

参考文献5

二级参考文献23

共引文献389

同被引文献4

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于不平衡数据集的文本分类技术研究 被引量：1

参考文献5

二级参考文献23

共引文献389

同被引文献4

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于不平衡数据集的文本分类技术研究被引量：1