期刊文献+

文本分类中特征选择方法的比较与改进 被引量:25

Comparison and Improvement of feature selection method for text categorization
在线阅读 下载PDF
导出
摘要 为了在面向旅游领域的文本分类系统中选择有效的分类特征,提高分类性能,本文根据系统采用的训练集、训练过程及分类算法等因素重新对各常用的特征选择方法进行了综合实验评测,比较了五种常用的特征选择方法,对于评测结果最好的三种函数:期望交叉熵、信息增益和互信息,通过理论分析和科学实验,分别提出了不同的改进方法.实验结果表明改进的期望交叉熵方法在本应用中能够最有效地提高系统的分类性能. 为了在面向旅游领域的文本分类系统中选择有效的分类特征,提高分类性能,本文根据系统采用的训练集、训练过程及分类算法等因素重新对各常用的特征选择方法进行了综合实验评测,比较了五种常用的特征选择方法,对于评测结果最好的三种函数:期望交叉熵、信息增益和互信息,通过理论分析和科学实验,分别提出了不同的改进方法.实验结果表明改进的期望交叉熵方法在本应用中能够最有效地提高系统的分类性能.
出处 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2011年第S1期319-324,共6页 Journal of Harbin Institute of Technology
基金 国家自然科学基金资助项目(61073127)
关键词 文本分类 特征选择 期望交叉熵 Text categorization Feature selection Expected cross entropy
  • 相关文献

参考文献6

  • 1秦进,陈笑蓉,汪维家,陆汝占.文本分类中的特征抽取[J].计算机应用,2003,23(2):45-46. 被引量:73
  • 2李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的研究[J].清华大学学报(自然科学版),2001,41(7):98-101. 被引量:78
  • 3G.Salton,C.Buckley.Term Weighting Approachesin Automatic Text Retrieval. Information Process-ing and Management . 1989
  • 4zge Uncu,,IBurhan Türksen.A Novel Feature Se-lection Approach:Combining Feature Wrappers andFilters. Journal of Information Science . 2007
  • 5Yiming Yang,Jan O Pedersen.A comparative study on feature selection in text categorization. Proceedings of the Fourteenth International Conference on Machine Learning(ICM’97) . 1997
  • 6Robertson, S. E,Walker, S,Hancock-Beaulieu, M,Gatford, M.Okapi in TREC3. Proceedings of Text REtrieval Conference . 1994

二级参考文献3

共引文献145

同被引文献229

引证文献25

二级引证文献190

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部