基于正例和未标文档的半监督分类研究

Research on Semi-Supervised Classification Based on Positive and Unlabeled Text Document

在线阅读下载PDF

导出

摘要针对负例类别很难获得训练样本的情况,提出了一种基于正例和未标文档的半监督分类方法。已知仅有正例文本的情况下,引入k-means聚类算法对未标样本集进行聚类,从未标样本集中选出最为可靠的负例样本信息,初始化分类器。基于EM的极大似然估计理论,在每步迭代的E-step中,将中间分类器最有把握对其类别进行预测的未标注样本进行分类,并应用到M-step中修正分类器的参数值,迭代选择最优分类器。实验结果表明,该方法取得了较好的分类效果。 Presents a high performance method classifying positive and unlabeled documents. The idea is to first use cluster to extract same reliable negative documents from the unlabeled set and initial a classifier. Then optimize our classifier with the expectation - maximization （EM） algorithm. In each E - step,would like to annotate the most reliable documents, which processed in M - step. After several iteration,ean select a better classifier with EM algorithm. The experiments show that this method achieves a high performance.

作者范新沈闻丁泉勋沈洁

机构地区扬州大学信息工程学院计算机科学系

出处《计算机技术与发展》 2009年第6期58-60,64,共4页 Computer Technology and Development

基金国家自然科学基金资助项目(60673060)

关键词聚类 K-MEANS EM 分类 cluster k - means EM classification

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1许高建.基于Web的文本挖掘技术研究[J].计算机技术与发展,2007,17(6):187-190. 被引量：19
2Rocchio J. ( 1971 ). Relevant feedback in information retrieval [C]//In Salton G. The smart retrieval system- experiments in automatic document processing. Englewood Cliffs, NJ : [s. n. ], 1971.
3McCallum A, Nigam K. A comparison of event models for naive bayes text classification[ C]//In Proc. AAAI - 98 Workshop on Learning for Text Categorization. [ s. l. ]: AAAI Press, 1998: 41 - 48.
4Guyon l,Bcaer B E,Nips V V. Automatic capacity tuning of verylarge Vc - dimension classifiers [ J ]. Advances in Neural Information Processing Systems, 1992 ( 5 ) : 147 - 155.
5马忠宝,刘冠蓉.基于支持向量机的中文文本分类模型研究[J].计算机技术与发展,2006,16(11):70-72. 被引量：5
6Nigam K, McCallum A, Thrun S, et al. Learning to classify text from labeled and unlabeled documents[ C]//AAAI - 98. Madison, US: AAAI Press, 1988: 792 - 799.
7张博锋,白冰,苏金树.基于自训练EM算法的半监督文本分类[J].国防科技大学学报,2007,29(6):65-69. 被引量：17
8赵悦,穆志纯,李霞丽,潘秀琴.一种基于EM和分类损失的半监督主动DBN学习算法[J].小型微型计算机系统,2007,28(4):656-660. 被引量：2
9孙广玲,唐降龙.基于分层高斯混合模型的半监督学习算法[J].计算机研究与发展,2004,41(1):156-161. 被引量：22

二级参考文献58

1王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
2徐杰,施鹏飞.图像检索中基于标记与未标记样本的主动学习算法[J].上海交通大学学报,2004,38(12):2068-2072. 被引量：7
3孙国菊,张杰.中文文本分类的特征选取评价[J].哈尔滨理工大学学报,2005,10(1):76-78. 被引量：14
4易高翔,程耕国.Web文本挖掘研究[J].武汉科技大学学报,2005,28(1):72-74. 被引量：5
5贾泂,梁久祯.基于支持向量机的中文网页自动分类[J].计算机工程,2005,31(10):145-147. 被引量：12
6邱均平,文庭孝,周黎明.汉语自动分词与内容分析法研究[J].情报学报,2005,24(3):309-317. 被引量：11
7薛为民,陆玉昌.文本挖掘技术研究[J].北京联合大学学报,2005,19(4):59-63. 被引量：63
8苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：391
9[1]M Weber, M Welling, P Perona. Towards automatic discovery of object categories. IEEE Conf on Computer Vision and Pattern Recognition, Hilton Head Island, 2000
10[2]K P Bennett, A Demiriz. Semi-supervised support vector machines. In: D C M Kearns, S Solla, eds. Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 1998. 368～374

共引文献58

1尹清波,王慧强,张汝波,申丽然,李雪耀.半监督在线增量自学习异常检测方法研究[J].计算机研究与发展,2006,43(z2):419-424. 被引量：2
2贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
3李庆强,魏振钢,孙笑非,马丽晶.基于半监督分类的BGP异常检测[J].计算机应用,2008,28(S2):83-85.
4周志勇,袁方,刘海博.用聚类-分类模式解决聚类问题[J].广西师范大学学报（自然科学版）,2007,25(2):127-130. 被引量：6
5张博锋,白冰,苏金树.基于自训练EM算法的半监督文本分类[J].国防科技大学学报,2007,29(6):65-69. 被引量：17
6白翎雁,才书训.Web文本挖掘及相关技术研究[J].沈阳工程学院学报（自然科学版）,2008,4(3):258-261. 被引量：4
7陆伟宙,余顺争.基于半监督聚类的Web流量分类[J].计算机科学,2009,36(2):90-94. 被引量：3
8金春霞.Web文本挖掘相关技术研究及应用[J].现代计算机,2009,15(3):109-111. 被引量：1
9潘章明,曲政.基于差分进化算法的高斯混合模型参数估计[J].现代计算机,2009,15(5):29-31. 被引量：2
10陈锦禾,范新,沈闻,沈洁.基于情感词识别的BBS情感分类研究[J].计算机技术与发展,2009,19(7):120-123. 被引量：9

1孙名松,高庆国,王宣丹.基于双隶属度模糊支持向量机的邮件过滤[J].计算机工程与应用,2010,46(2):93-95. 被引量：5
2杨晓元,胡志鹏,魏立线.分级结构Adaboost算法在无线传感器网络入侵检测中的应用研究[J].传感技术学报,2012,25(8):1159-1165. 被引量：2
3高秀梅,陈芳,宋枫溪,金忠.特征权对贝叶斯分类器文本分类性能的影响[J].计算机应用,2008,28(12):3080-3083. 被引量：3
4宋国平.WSN中一种用于频谱检测的节点选择与路由算法[J].计算机应用与软件,2014,31(3):91-95.
5邵珠全,桑琳,王艳丽,刘晓燕,于娟.基于条件信息熵的粗糙集属性动态约简[J].高师理科学刊,2017,37(3):37-41.
6边吉荣.基于CS-SVM与Bagging的垃圾邮件过滤算法研究[J].宁夏工程技术,2008,7(1):66-69.
7师东生.WSN中一种基于单类1／4球体支持向量机的异常检测方案[J].计算机应用研究,2014,31(4):1138-1143. 被引量：1
8裴继红,杨火亘,谢维信.一种用于模式识别的多色Voronoi图[J].系统工程与电子技术,2004,26(7):963-966.
9赵贵.基于主成分分析的模糊支持向量机焊接图像分割[J].矿山机械,2011,39(10):121-126. 被引量：1
10孙廷辉,朱瑞龙.支持向量机在财务管理中的应用[J].电脑知识与技术,2014(2):760-761.

计算机技术与发展

2009年第6期

浏览历史

内容加载中请稍等...

基于正例和未标文档的半监督分类研究

参考文献9

二级参考文献58

共引文献58

相关作者

相关机构

相关主题

浏览历史