基于文本语义联系的特征选取算法研究
摘要
特征选取的好坏在文本聚类算法中起着举足轻重的作用,为了在文本预处理阶段更好地获得文本特征,这篇论文从文本语义关系的角度入手,研究了文本语义关系的数学表达方式,研究设计了更好的特征选择的算法,以此提高文本聚类的质量.
出处
《赤峰学院学报(自然科学版)》
2012年第12期35-37,共3页
Journal of Chifeng University(Natural Science Edition)
参考文献6
-
1白秋产,金春霞,周海岩.概念向量文本聚类算法[J].计算机工程与应用,2011,47(35):155-157. 被引量:11
-
2贾宁.使用概念基元特征进行自动文本分类[J].计算机工程与应用,2007,43(1):24-26. 被引量:6
-
3Junjie Wu, Hui Xiong, Jian Chen, and Wenjun Zhou. A Generalization of Proximity Functions for K-means. in Proceedings of the 2007 IEEE International Conference on Data Mining (ICDM 2007), 361-370, 2007. (EI, AN: 20083511480723).
-
4Baker L.D, McCallum A.K.Distributional clustering of words for text classification[J]. In Proc. ACM SIGIR Intl. Conf. Information Retrieval, 1998.
-
5Beil F, Ester M, Xu X.Frequent term-based text clustering [J]. In Proc. 2002 Int. Conf. Knowledge Discovery and Data Mining (KDD'02). Pages 436-442, New York, 2002.
-
6秦进,陈笑蓉,汪维家,陆汝占.文本分类中的特征抽取[J].计算机应用,2003,23(2):45-46. 被引量:73
二级参考文献16
-
1李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量:96
-
2Martino B D, Cantiello EAutomatic ontology extraction with text clustering[J].Intelligent Distributed Computing 111,2009,237:215-220.
-
3Lang J, Lin F, Wang J.A comparative study on representing units in Chinese text clustering[C]//LNAI 4092: KSEM 2006, 2006: 466-476.
-
4Li X,Zaiane O R,Li Z.A comparative study on text clustering methods[C]//LNAI 4093 :ADMA 2006,2006: 644-651.
-
5Liu Qun,Li Sujian.Word similarity computing based on HowNet[J]. Computational Linguistics and Chinese Language Processing, 2002,7 (2) : 59-76.
-
6Gad W K, Kamel M S.New semantic similarity based model for text clustering using extended gloss overlaps[C]//Pemer P. MLDM 2009, Heidelberg: Springer,2009,5632: 663-677.
-
7Wan Xiaojun.A novel document similarity measure based on earth mover's distance[J].Information Science,2007:3718-3730.
-
8Fan W, Wu Z, Yang J.On the performance of feature weighting K-means for text subspace clustering[C]//LNCS 3739: WAIM 2005,2005: 502-512.
-
9Adwait R.Maximum entropy models for natural language ambiguity resolution[D].University of Pennsylvania, 1998.
-
10Kamal N,John L,Andrew M.Using maximum entropy for text classification[C]//Proceedings of the IJCAI-99 Workshop on Information Filtering, Stockholm, Sweden, 1999.
共引文献87
-
1姚学礼.文本分类中的特征提取方法的研究[J].光盘技术,2009(6):15-16.
-
2单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量:25
-
3侯风巍,郭东军,李世磊,徐钊峰.基于信息反馈的文本主题分类过滤方法[J].通信学报,2009,30(S1):139-144.
-
4陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量:2
-
5贝雨馨,崔荣一.文本分类中特征项权重的计算方法[J].延边大学学报(自然科学版),2004,30(3):202-204. 被引量:9
-
6陈涛,宋妍,谢阳群.改进的信息增益特征选择方法在文本聚类中的应用[J].现代图书情报技术,2004(12):7-9. 被引量:2
-
7陈涛,宋妍,谢阳群.基于IIG和LSI组合特征提取方法的文本聚类研究[J].情报学报,2005,24(2):203-209. 被引量:14
-
8王煜,张明,马力.基于词条聚合和决策树的文本分类方法[J].河北大学学报(自然科学版),2005,25(3):338-342. 被引量:4
-
9丁文斌,李斌,罗浩.基于改进贝叶斯的垃圾邮件过滤系统设计与实现[J].计算机工程与应用,2005,41(18):127-130. 被引量:14
-
10郝占刚,王正欧.基于模式聚类和遗传算法的文本特征提取方法[J].计算机应用,2005,25(7):1632-1633. 被引量:4
-
1郑罡,韩云祥,李印凤,陆志伟,王利,李强,赵晶晶,房岩.Petri网在制造系统和工作流建模中的应用[J].数据采集与处理,2012,27(S1):194-198.
-
2刘建明,张德政,阿孜古丽,刘洁卉.基于中医网络的中心性算法研究[J].计算机仿真,2008,25(5):317-320. 被引量:1
-
3丁德武.基于Gillespie算法的生化随机Petri网演化分析[J].计算机工程与应用,2013,49(20):52-54.