一种用于文本分类的语义SVM及其在线学习算法被引量：2

The Semantic SVM Algorithm for Text Categorization and its On-line Learning Algorithm

在线阅读下载PDF

导出

摘要该文利用SVM在小训练样本集条件下仍有高泛化能力的特性,结合文本分类问题中同类别文本的特征在特征空间中具有聚类性分布的特点,提出一种使用语义中心集代替原训练样本集作为训练样本和支持向量的SVM:语义SVM。文中给出语义中心集的生成步骤,进而给出语义SVM的在线学习(在线分类知识积累)算法框架,以及基于SMO算法的在线学习算法的实现。实验结果说明语义SVM及其在线学习算法具有巨大的应用潜力:不仅在线学习速度和分类速度相对于标准SVM及其简单增量算法有数量级提高,而且分类准确率方面具有一定优势。 This paper suggests a very efficient Support Vector Machine algorithm for text categorization,Semantic Support Vector Machines or Semantic SVMs.Semantic SVMs exploit the character of SVMs that they have good generation ability even with small training set.Semantic SVMs are also based on the truth that feature distribution of certain categorization of texts is clustery in feature space.The original training text set is substituted by Semantic center set in Semantic SVMs as training samples and support vectors.This paper gives out the steps to generate a Semantic SVM from training texts and the framework of on-line learning algorithm of Semantic SVMs.The implementaion of on-line learning algorithm based on Sequential Minimal Optimization is also devised in this paper.Experiments on real-life corpus show that Semantic SVMs are promising:tens times faster than standard SVMs while slightly improve the classifying precision.

作者代六玲黄河燕陈肇雄

机构地区南京理工大学计算机科学系中国科学院计算机语言信息工程研究中心

出处《计算机工程与应用》 CSCD 北大核心 2004年第36期11-14,57,共5页 Computer Engineering and Applications

基金国家自然科学基金资助(编号:60272088)

关键词文本分类支持向量机语义SVM 在线学习 text categorization,SVM,Semantic SVM,on-line learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1V N VapniK.The Nature of Statistical Learning Theory[M].New York:Springer, 1998
2V N Vapnik.Statistical Learning Theory[M].New York:John Wiley and Sons Inc,1998
3C Burges. A tutorial on support vector machines for pattern recognition[J].Data Mining and Knowledge Discovery,1998;2(2):955～974
4J Platt.Fast training of support vector machines using sequential minimal optimization[C].In:B ScholKopf,C Burges,A Smola eds. Advances in Kernel methods:support vector learning,MIT Press, 1998
5J Platt.Sequential minimal optimization:a fast algorithm for training support vector machines[R].Technical Report,MSR-TR-98-14,Microsoft Research, 1998
6S S Keerthi.lmprovements to Platt's SMO algorithm for SVM classifier design[J].Neural Computation,2001-03; 13:637～649
7T Joachims.Text Categorization with Support Vector Machines:Learning with Many Relevant Features[C].In:Proceedings of ECML-98,10th European Conference on Machine Learning, 1997
8Ji He,Ah-Hwee Tan,Chew-Lim Tan.A Comparative Study on Chinese Text Categorization Methods[C].In:the PRICAI'2000 International Workshop on Text and Web Mining,Melbourne,Australia,2000-08:24～35
9Cauwenberghs G,Poggio T.Incremental and decremental support vector machine learning. Advances in Neural Information Processing 13(NIPS), Denver, CO, 2000
10L Ralaivola,F d'Alché-Buc. Incremental Support Vector Machine Learning: a Local Approach[C].In :Proceedings of ICANN'01, Vienna,Austria, 2001

二级参考文献1

1Christopher J.C. Burges. A Tutorial on Support Vector Machines for Pattern Recognition[J] 1998,Data Mining and Knowledge Discovery(2):121～167

共引文献84

1吴静,刘衍珩,孟凡雪.入侵检测中的多分类SVM增量学习算法[J].北京工业大学学报,2009,35(12):1697-1702. 被引量：3
2杨迎春.能想多远,就能走多远——上海利策投资管理公司总经理查大兵谈用人标准[J].成才与就业,2005(21):31-32.
3桂卫华,李勇刚,阳春华,陈志盛.基于改进聚类算法的分布式SVM及其应用[J].控制与决策,2004,19(8):852-856. 被引量：13
4孙正兴,彭彬彬,丛兰兰,孙建勇,张斌.在线草图识别中的用户适应性研究[J].计算机辅助设计与图形学学报,2004,16(9):1207-1215. 被引量：10
5张晓辉,李莹,常桂然,赵宏.适于Internet新闻文本实时分类的动态向量空间模型DVSM[J].计算机科学,2004,31(6):64-67. 被引量：1
6张斌,孙正兴,孙建勇,彭彬彬.在线草图识别中用户手绘习惯建模方法[J].计算机科学,2004,31(6):194-198. 被引量：5
7曾嵘,刘建成,蒋新华.一种基于支持向量机的增量学习算法[J].铁道科学与工程学报,2005,2(1):94-96.
8史朝辉,王晓丹,杨建勋.一种SVM增量训练淘汰算法[J].计算机工程与应用,2005,41(23):187-189. 被引量：11
9孔锐,张冰.一种快速支持向量机增量学习算法[J].控制与决策,2005,20(10):1129-1132. 被引量：31
10李忠伟,张健沛,杨静.基于支持向量机的增量学习算法研究[J].哈尔滨工程大学学报,2005,26(5):643-646. 被引量：10

同被引文献22

1胡涛,路红英.基于Nutch的搜索引擎的研究[J].计算机时代,2007(1):57-59. 被引量：16
2刘海峰,姚泽清,汪泽焱,张学仁.基于位置的文本特征加权方法研究[J].微电子学与计算机,2009,26(2):188-192. 被引量：9
3姚天顺,张俐,高竹.WordNet综述[J].语言文字应用,2001(1):27-32. 被引量：33
4葛蓉.利用网络日志分析提高搜索引擎的检准率[J].情报科学,2004,22(10):1250-1253. 被引量：5
5陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
6孟海涛,刘鹏.一种改进的SVM支持向量分类方法[J].现代电子技术,2007,30(1):150-152. 被引量：2
7余慧佳,刘奕群,张敏,茹立云,马少平.基于大规模日志分析的搜索引擎用户行为分析[J].中文信息学报,2007,21(1):109-114. 被引量：118
8王香港.中文文本自动分类算法研究[D].上海:上海交通大学,2007.
9Ari V, Jarmo T, Piia R, et al.Knowledge discovery from text documents based on paragraph maps[C]//Proeeedings of the Hawaii International Conference on System Sciences,Maul,Hawaii, USA, 2000.
10Zelikovitz S, Transductive M F.Learning for short-text classification problem using latent semantic indexing intemational[J].Journal of Pattern Recognition and Artificial Intelligence, 2005, 19 (2) : 143-163.

引证文献2

1杨大全,王斓樾.利用服务器日志优化搜索引擎[J].沈阳工业大学学报,2008,30(1):94-97.
2林伟,孟凡荣,王志晓.基于概念特征的语义文本分类[J].计算机工程与应用,2011,47(28):139-142. 被引量：4

二级引证文献4

1曹逸峰,陈晓伟.基于知识分层提取模型的服务台知识库建设[J].计算机系统应用,2015,24(2):261-265. 被引量：3
2王昊,邓三鸿,苏新宁.中文短文本自动分类中的汉字特征优化研究[J].情报理论与实践,2015,38(6):121-127. 被引量：4
3程玉胜,梁辉,王一宾,黎康.基于风险决策的文本语义分类算法[J].计算机应用,2016,36(11):2963-2968. 被引量：7
4朱晓敏,祁建军.正交对与正交向量的关系[J].数码设计,2016,5(1):21-26.

1代六玲,李雪梅,黄河燕,陈肇雄.基于知识融合的在线文本分类算法——语义SVM[J].华南理工大学学报（自然科学版）,2004,32(z1):67-72. 被引量：2
2卢惠林.基于加权Bayes分类器的流数据在线分类算法研究[J].计算机科学,2014,41(5):227-229. 被引量：3
3杨文柱,卢素魁,王思乐.基于多类支持向量机的棉花异性纤维分类方法[J].计算机应用,2011,31(12):3446-3448. 被引量：5
4杨会元,冯钟葵,李山山.基于Web的遥感影像在线分类实现技术研究[J].遥感信息,2015,30(1):101-106. 被引量：5
5孟然,王永强,于德敏,许增朴.基于机器视觉实现工业产品在线分类的一种有效方法[J].传感器世界,2005,11(5):11-13.
6胡海明,尚晓辉.基于机构零件特征的图形库研究[J].橡塑技术与装备,2003,29(11):1-5.
7汪涛,蔡光兴.Rijndael算法原理研究[J].软件导刊,2007,6(5):116-117.
8孙娜,郭延锋.基于增量式学习的数据流实时分类模型[J].计算机工程与设计,2012,33(11):4225-4229. 被引量：5
9孟然,王永强,于德敏,许增朴.利用模板匹配方法实现工业产品在线分类[J].精密制造与自动化,2005(2):49-51.
10刘胜军,陆勤,蔡庆生.一种基于泛化的在线分类规则挖掘算法[J].计算机应用研究,2000,17(6):8-9. 被引量：2

计算机工程与应用

2004年第36期

浏览历史

内容加载中请稍等...

一种用于文本分类的语义SVM及其在线学习算法被引量：2

参考文献13

二级参考文献1

共引文献84

同被引文献22

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

一种用于文本分类的语义SVM及其在线学习算法 被引量：2

参考文献13

二级参考文献1

共引文献84

同被引文献22

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

一种用于文本分类的语义SVM及其在线学习算法被引量：2