一种基于CHI值特征选取的粗糙集文本分类规则抽取方法被引量：8

Rough set text classification rule extraction based on CHI value

在线阅读下载PDF

导出

摘要结合文本分类规则抽取的特点,给出了近似规则的定义。该方法首先利用CHI值进行特征选取并为下一步特征选取提供特征重要性信息,然后使用粗糙集对离散决策表继续进行特征选取,最后用粗糙集抽取出精确规则或近似规则。该方法将CHI值特征选取和粗糙集理论充分结合,避免了用粗糙集对大规模决策表进行特征约简,同时避免了决策表的离散化。该方法提高了文本规则抽取的效率,并使其更趋实用化。实验结果表明了这种方法的有效性和实用性。 The definition of proximate rule was proposed based on the characteristic of text classification rule extraction. Based on the CHI values, the features of text set were selected firstly and feature significance information was provided to the further feature selection. Then rough set was used to select further the attributes on the discrete decision table. Finally precise rules or proximate rules were extracted using rough set theory. The method combined CHI value feature selection and rough set theory fully so as to avoid both feature reduction on a large scale decision table and the discretization of the decision table. The method improved the effectiveness and the practicability of extracting text rule greatly. Experiment results demonstrate the effectiveness of the method.

作者王明春王正欧张楷郝玺龙

机构地区天津大学系统工程研究所天津工程师范学院数理系天津海量软件公司

出处《计算机应用》 CSCD 北大核心 2005年第5期1026-1028,1033,共4页 journal of Computer Applications

基金国家自然科学基金资助项目(60275020)

关键词 CHI值特征选取粗糙集文本分类规则 CHI value feature selection rough set text classification rule

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1常犁云,263.net,王国胤,263.net,吴渝,263.net.一种基于Rough Set理论的属性约简及规则提取方法[J].软件学报,1999,10(11):1206-1211. 被引量：285
2HAN J, KAMBR M.DATA MINING: Concepts and techniques[M].Beijing: Higher Education Press, 2001.
3SHEN Q. Alexios chouchoulas. A rough-fuzzy approach for generating classification rules[J]. Pattern Recogonition, 2002,(35):2425-2438.
4CHEN YQ.Implementing the k-nearest neighbour rule via a neural network[A]. IEEE International Conference on Neural Networks[C], 1995, vol.1.136-140.
5PAWLAK Z, GRAYMALA-BAUSSE J,Slowinski R. Rough sets[J]. Communications of the ACM, 1995,38(11):89-95.

二级参考文献4

1王珏,苗夺谦,周育健.关于Rough Set理论与应用的综述[J].模式识别与人工智能,1996,9(4):337-344. 被引量：264
2Hu X，Int J Computational Intelligence，1995年，11卷，2期，323页
3苗夺谦,王珏.基于粗糙集的多变量决策树构造方法[J].软件学报,1997,8(6):425-431. 被引量：121
4王珏,王任,苗夺谦,郭萌,阮永韶,袁小红,赵凯.基于Rough Set理论的“数据浓缩”[J].计算机学报,1998,21(5):393-400. 被引量：239

共引文献284

1吕静,陈炼.基于分明矩阵方法的属性约简方法[J].微计算机信息,2008,24(6):236-238. 被引量：14
2王存进,周庆敏,赵苏玮,叶斌.粗糙集在煤层注水难易程度诊断中的应用[J].微计算机信息,2008,24(7):266-268. 被引量：2
3谭春桥,张强.基于粗糙集和神经网络的供应商决策选择研究[J].中国管理科学,2004,12(z1):407-411. 被引量：1
4赵慧娟,骆解民.基于粗糙集的属性值约简算法研究[J].科技资讯,2007,5(34):141-142. 被引量：1
5徐新,鲁汉榕,谢磊.属性约简中论域划分的一种快速算法[J].空军雷达学院学报,2004,18(3):57-60. 被引量：1
6徐丹,于洪.一种改进的基于粗糙集的增量式学习算法[J].计算机应用,2008,28(S2):77-79.
7Dai Jian\|hua 1,2 , Li Yuan\|xiang 1,2 ,Liu Qun 3 1. State Key Laboratory of Software Engineering, Wuhan University, Wuhan 430072, Hubei,China 2. School of Computer, Wuhan University, Wuhan 430072, Hubei, China 3. School of Computer Science,.A Hybrid Genetic Algorithm for Reduct of Attributes in Decision System Based on Rough Set Theory[J].Wuhan University Journal of Natural Sciences,2002,7(3):285-289. 被引量：6
8李龙星,运士伟,杨炳儒.粗糙集理论在磨矿故障诊断中的应用[J].矿山机械,2004,32(7):19-21.
9张曙红,孙建勋,张金隆.基于模糊聚类的粗糙集决策表简化方法研究[J].计算机工程与应用,2004,40(15):175-177. 被引量：7
10叶东毅.信息表属性约简之间的若干关系[J].福州大学学报（自然科学版）,2004,32(4):448-450.

同被引文献86

1安金龙,王正欧.预抽取支持向量机的支持向量[J].计算机工程,2004,30(10):10-11. 被引量：10
2SHIYong-feng ZHAOYan-ping.Comparison of Text Categorization Algorithms[J].Wuhan University Journal of Natural Sciences,2004,9(5):798-804. 被引量：4
3申红,吕宝粮,内山将夫,井佐原均.文本分类的特征提取方法比较与改进[J].计算机仿真,2006,23(3):222-224. 被引量：28
4袁方,苑俊英.基于类别核心词的朴素贝叶斯中文文本分类[J].山东大学学报（理学版）,2006,41(3):111-114. 被引量：12
5赵英刚,陈奇,何钦铭.一种基于支持向量机的直推式学习算法[J].江南大学学报（自然科学版）,2006,5(4):441-444. 被引量：8
6苟博,黄贤武.支持向量机多类分类方法[J].数据采集与处理,2006,21(3):334-339. 被引量：63
7杨彦闯,杨炳儒,张克君.基于联合提取特征的粗糙集文本分类技术研究[J].计算机应用研究,2007,24(7):97-98. 被引量：4
8ZHOU L,TWITCHELL D P,QIN T,Burgoon J. K,NUNAMAKER J F. An Exploratory Study into Deception Detection in Text-Based Computer Mediated Communication[C]//Proceedings of the 36th Annual Hawaii International Conference on System Sciences(HICSS'03),2003.
9ZHOU L,ZHANG D. Can Online Behavior Unveil Deceivers? [C]//Proceedings of the 37th Annual Hawaii International Conference on System Sciences(HICSS'04), 2004.
10CARLSON J R,ZMUD R W. Channel Expansion Theory and the Experiential Nature of Media Richness Persceptions[J]. Academy of Management Journal, 1999,42(2) : 153-170.

引证文献8

1王智勇,王正欧.一种统计降维和Kohonen网络相结合的文本聚类方法[J].计算机应用,2005,25(10):2328-2330. 被引量：3
2应伟,王正欧,安金龙.一种基于改进的支持向量机的两类文本分类方法的研究[J].现代图书情报技术,2005(12):44-47.
3应伟,王正欧,安金龙.一种基于改进的支持向量机的多类文本分类方法[J].计算机工程,2006,32(16):74-76. 被引量：28
4唐华,曾碧卿.基于遗传算法和信息熵的文本分类规则抽取方法研究[J].中山大学学报（自然科学版）,2007,46(5):18-21. 被引量：3
5郑家恒,张虎,魏善德,谭红叶.面向中文文本的欺骗行为检测方法研究[J].山西大学学报（自然科学版）,2009,32(4):541-545. 被引量：2
6樊中华,侯占斌,张晨星,马骁.基于最小二乘支持向量机的网页主题语义分类的研究[J].计算机应用与软件,2009,26(12):53-55. 被引量：2
7李建林.一种基于PCA的组合特征提取文本分类方法[J].计算机应用研究,2013,30(8):2398-2401. 被引量：24
8周云成,许童羽,邓寒冰.基于NB和CHI值的农业文本分类方法[J].江苏农业科学,2018,46(17):219-223. 被引量：4

二级引证文献66

1李文宽,刘培玉,朱振方,刘文锋.基于卷积神经网络和贝叶斯分类器的句子分类模型[J].计算机应用研究,2020,37(2):333-336. 被引量：11
2李生,赵铁军.Chinese Information Processing and Its Prospects[J].Journal of Computer Science & Technology,2006,21(5):838-846. 被引量：1
3王晓锋,秦玉平.基于支持向量机的网页多类分类技术[J].大连轻工业学院学报,2007,26(4):359-362. 被引量：1
4张苗,张德贤.多类支持向量机在文本分类中的应用[J].计算机与现代化,2008(5):104-106. 被引量：2
5张钊,费一楠,宋麟,王锁柱.基于模糊支持向量机的多分类算法研究[J].计算机应用,2008,28(7):1681-1683. 被引量：8
6孙林,杨世元,吴德会.X射线底片焊缝缺陷的支持向量机识别方法[J].应用科学学报,2008,26(4):418-424. 被引量：10
7王晓锋,秦玉平.基于二叉树的SVM多类分类算法研究[J].湖南工程学院学报（自然科学版）,2008,18(3):68-70. 被引量：6
8白鹏,冀捐灶,张发启,李彦,刘君华,朱长纯.基于SVM的混合气体分布模式红外光谱在线识别方法[J].光谱学与光谱分析,2008,28(10):2278-2281. 被引量：3
9孙林,杨世元.基于SVM“一对一”聚类结构的滚动轴承状态诊断[J].合肥工业大学学报（自然科学版）,2009,32(1):4-8. 被引量：3
10王晓锋,秦玉平.一种新型基于二叉树的支持向量机多类分类方法[J].郑州轻工业学院学报（自然科学版）,2008,23(6):29-31. 被引量：1

1李泽峰,王煜.基于RBF神经网络和关联规则的Web文本分类规则获取方法[J].图书情报工作,2006,50(10):90-92. 被引量：1
2孟庆春,王汉萍,魏天滨,葛艳,高云.一种基于粗糙集的文本分类规则抽取方法[J].青岛海洋大学学报（自然科学版）,2003,33(6):943-949. 被引量：3
3王海涌,郑丽英.基于粗糙集理论文本分类规则的优化方法[J].甘肃科学学报,2008,20(2):99-102.
4邹国平,彭梅香,黄国兵.基于GA和信息熵的文本分类规则抽取方法[J].微计算机信息,2008,24(27):268-270. 被引量：1
5康曙光,裴志利,孔英.基于改进遗传算法的WEB文本挖掘系统[J].内蒙古民族大学学报,2009,15(2):13-14.
6唐华,曾碧卿.基于遗传算法和信息熵的文本分类规则抽取方法研究[J].中山大学学报（自然科学版）,2007,46(5):18-21. 被引量：3
7汪闯闯,姬东鸿.基于群集智能的CRF与规则结合的中文地址抽取[J].计算机应用研究,2015,32(3):727-730. 被引量：1
8李艳,孙娜欣,赵津,王华超.基于优势-等价关系的几种约简及规则抽取方法[J].计算机科学,2011,38(11):220-224. 被引量：4
9王煜 ,王正欧 ,王明春 .基于粗集和决策树的Web文本分类规则抽取[J].情报学报,2005,24(6):674-678. 被引量：4
10邱江涛,唐常杰,乔少杰,段磊,刘齐宏.基于加权频繁项集的文本分类规则挖掘[J].四川大学学报（工程科学版）,2008,40(6):110-114. 被引量：3

计算机应用

2005年第5期

浏览历史

内容加载中请稍等...

一种基于CHI值特征选取的粗糙集文本分类规则抽取方法被引量：8

参考文献5

二级参考文献4

共引文献284

同被引文献86

引证文献8

二级引证文献66

相关作者

相关机构

相关主题

浏览历史

一种基于CHI值特征选取的粗糙集文本分类规则抽取方法 被引量：8

参考文献5

二级参考文献4

共引文献284

同被引文献86

引证文献8

二级引证文献66

相关作者

相关机构

相关主题

浏览历史

一种基于CHI值特征选取的粗糙集文本分类规则抽取方法被引量：8