基于分形维的决策树构建及应用研究被引量：2

Research of Decision Tree Design and Application Based on Fractal Dimension

在线阅读下载PDF

导出

摘要针对决策树构建过程中易于出现数据碎片、子树重复等问题,提出了基于分形维构建特征数据集的方法:因为信息增益表示了该属性信息量的多少,因此在确定了数据集的嵌入维数k之后,选择信息增益最大的前k个属性构造原数据集的特征数据集,并分析了依据分形维数和信息增益对冗余属性的删除以及特征集的信息损失对决策树构建的影响。实验过程中,分别采用从原始属性中选择及拟合两种方法构建特征数据集,依据对实验结果的比较分析,进一步证明了该方法的有效。 For the key issuses that how to reduce the data fragmentation and sub- tree repeat in training the decision tree, the concept to construct the charaeteristic data set basing on the fractal dimension are presented： selecting number k of all attributes ordered by information gain according the embeding dimension of the source data set, the method of droping the redundancy attributes and the infection of information Io.xs to decision tree is diseu ＂ssed. In the experiment, the decesion trees are trained on different characteristic data sets that one is by directly selecting some attributes from source data set and another is made up, analysing the results from two decision trees applied to test data set proves the method is effective.

作者李广水郑滔孙梅

机构地区金陵科技学院南京大学软件学院

出处《计算机技术与发展》 2009年第12期5-8,12,共5页 Computer Technology and Development

基金国家高技术研究发展计划项目(863/2007AA01Z448) 江苏省社会科学基金(08TQB007)

关键词决策树分形维数信息增益数据挖掘 decision tree fraetal dimension information gain data mining

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1Ning Pang, Michael T, Kumar S V. 数据挖掘导论[M].范明,范宏建,等译.北京:人民邮电出版社,2006:105-116.
2Traina Jr c, Traina A. Fast fetures selection using fractal dimension[ C]//Proc of XV Brazilian Database Symposium on Database. Berlin:Springer,2000:158- 171.
3鲍玉斌,王琢,孙焕良,于戈.一种基于分形维的快速属性选择算法[J].东北大学学报（自然科学版）,2003,24(6):527-530. 被引量：14
4郭平,陈其鑫,王艳霞.基于分形维数的属性约简[J].计算机科学,2007,34(9):189-190. 被引量：5
5闫光辉,李战怀.两阶段无监督顺序前向分形属性规约算法[J].计算机研究与发展,2008,45(11):1955-1964. 被引量：4
6贾丽会,张修如.分形理论及在信号处理中的应用[J].计算机技术与发展,2007,17(9):203-205. 被引量：12
7Hart Jiawei, Kamber M.数据挖掘概念与技术[M].范明,孟小峰,等译.北京:机械工业出版社,2005:122-136.180-192.

二级参考文献48

1陈亮,张雄伟.基于分形维数实现语音分割和增强[J].北京邮电大学学报,2003,26(z1):112-114. 被引量：8
2杜恩祥,李科杰.基于多重分形和小波变换的声目标信号特征提取[J].自动化学报,2004,30(5):742-746. 被引量：8
3梁仲刚,严洪,吴斌,吴萍.分形维数在头低位期间心率变异分析中的应用[J].航天医学与医学工程,2005,18(1):58-61. 被引量：7
4袁鹏.分形法在机械故障诊断中的应用[J].机械,2005,32(9):16-17. 被引量：3
5宋枫溪,高秀梅,刘树海,杨静宇.统计模式识别中的维数削减与低损降维[J].计算机学报,2005,28(11):1915-1922. 被引量：44
6Yu L, Liu H. Efficient feature selection via analysis of relevance and redundance [J]. The Journal of Machine Learning Research, 2004, 5(10) : 1205-1224
7Narendra P M, Fukunaga K. A branch and bound algorithm for feature subset selection [J]. IEEE Trans on Computer, 1977, 26(9): 917-922
8Cover T M. The best two independent measurements are not the two best [J]. IEEE Trans on Systems, Man, and Cybernetics, 1974, 4(1) : 116-117
9Dumais S, Platt J, Heckerman D, et al. Inductive learning algorithms and representations for text categorization [C] // Proc of the CIKM-98, the 7th ACM Int Conf on Information and Knowledge Management. New York: ACM, 1998: 148- 155
10Lewis D D. An evaluation of phrasal and clustered representations on a text categorization task [C]//Proc of the 15th ACM Int Conf on Research and Development in Information Retrieval. New York: ACM, 1992:246-254

共引文献27

1梁敏君,倪志伟,倪丽萍,杨葛钟啸.基于网格与分形维数的聚类算法[J].计算机应用,2009,29(3):830-832. 被引量：4
2倪丽萍,倪志伟,吴昊,叶红云.基于分形维数的数据挖掘技术研究综述[J].计算机科学,2008,35(1):187-189. 被引量：7
3杨葛钟啸,倪志伟,倪丽萍,梁敏君.基于分形和邻接空间密度变化的属性选择方法[J].计算机工程与应用,2008,44(20):142-144.
4赵宏霞,杨皎平.波动性产品需求预测的神经网络模型[J].价值工程,2008,27(8):97-100.
5欧阳宏志,廖湘柏,刘华.模拟电路故障诊断方法综述[J].电子科技,2008,21(12):75-80. 被引量：11
6邓春燕,吕跃进.基于关系矩阵的信息系统属性约简算法[J].河南科技大学学报（自然科学版）,2009,30(2):50-53. 被引量：3
7李琳,张永祥,明廷涛.EMD降噪的关联维数在齿轮故障诊断中的应用研究[J].振动与冲击,2009,28(4):145-148. 被引量：25
8倪丽萍,倪志伟,吴昊,叶红云.基于分形维数和蚁群算法的属性选择方法[J].模式识别与人工智能,2009,22(2):293-298. 被引量：6
9倪志伟,倪丽萍,杨葛钟啸.分形技术在案例库维护中的应用[J].计算机应用,2009,29(6):1598-1600. 被引量：1
10宋建.交联聚乙烯绝缘电缆局部放电检测研究[J].云南电力技术,2009,37(5):9-11. 被引量：4

同被引文献16

1卢方元.中国股市收益率的多重分形分析[J].系统工程理论与实践,2004,24(6):50-54. 被引量：50
2施锡铨,艾克凤.股票市场风险的多重分形分析[J].统计研究,2004,21(9):33-36. 被引量：30
3梁俊,王琪,刘坤良,卢全慧.基于随机中点位移法的三维地形模拟[J].计算机仿真,2005,22(1):213-215. 被引量：30
4冯莉,王力.基于L-系统的三维分形植物的算法及实现[J].计算机仿真,2005,22(11):205-208. 被引量：11
5Kantelhardt J W, Stephan A Z, Eva K B, et al. Multifractal detrended fluctuation analysis of nonstationary time series[J ]. Physics A,2002,316:87 - 114.
6Peng C K, Buldyrev S V, Havlin S, et al. Mosaic orgarazation of DNA nucleotides[J ]. Physical Review E, 1994,49(2) : 1685 - 1689.
7金以文,鲁世杰.分形几何原理及其应用[M].杭州:浙江大学出版社,1993:40-80.
8苑莹,庄新田.国际汇率的多重分形消除趋势波动分析[J].管理科学,2007,20(4):80-85. 被引量：23
9孙霞吴自勤黄均.分形原理及应用[M].合肥:中国科学技术大学出版社,2003..
10李强,刘全金.分形信号的小波谱相关研究及仿真[J].计算机技术与发展,2008,18(10):40-42. 被引量：1

引证文献2

1万涛,郑婷婷,张琛,章意成.不同股市的多重分形特性分析——基于统计物理和MF-DFA方法[J].计算机技术与发展,2010,20(12):225-227. 被引量：2
2韩向峰,王婷.基于分形理论的不规则物体的造型方法研究[J].山东师范大学学报（自然科学版）,2011,26(3):32-35. 被引量：1

二级引证文献3

1许林,宋光辉,郭文伟.基于滑动窗口MF-DFA的股票风格资产收益多重分形分析[J].系统工程理论与实践,2012,32(9):1891-1899. 被引量：15
2袁杰,薛永坚,肖宏旺.基于MF-DFA的股票时间序列聚类分析及其应用[J].价值工程,2013,32(26):137-140. 被引量：1
3李凯旋,李新强,荆慧萍,沈陆明.梨果实与叶片特征关联的分形研究[J].湖南农业大学学报（自然科学版）,2014,40(5):561-564. 被引量：1

1朱琦.浅谈数据备份系统中的数据去重技术[J].消费电子,2012(11X):43-43.
2孙博文,邱子鉴,沈斌,张艳鹏.基于方向信息的随机蕨特征匹配算法[J].计算机工程,2014,40(5):192-195. 被引量：2
3孙虹,方敏.基于Rough集和RBF网络的车牌字符识别方法[J].安徽建筑工业学院学报（自然科学版）,2006,14(4):87-90. 被引量：1
4曹治国,邹飞勇,吴一飞,张天序.Rough集-神经网络系统在信息融合目标识别中的应用[J].华中科技大学学报（自然科学版）,2004,32(S1):114-116.
5孙虹,龚雪.一种基于Rough集和RBF网络的模拟电路故障诊断方法[J].安徽建筑工业学院学报（自然科学版）,2012,20(3):93-96.
6张维维,王唯玮.基于决策树的入侵数据特征检测模型[J].信息技术,2009(10):107-109.
7邱立达,刘天键,林南,黄章超.基于深度学习模型的无线传感器网络数据融合算法[J].传感技术学报,2014,27(12):1704-1709. 被引量：21
8电脑系统维护经验与技巧[J].电脑编程技巧与维护,2013(23):90-91.
9郝梅.基于CART二叉决策树的电信业客户流失的模型构建与控制[J].科技通报,2012,28(6):103-105. 被引量：3
10徐凤生.一种属性与值约简及规则提取算法[J].计算机工程与科学,2008,30(2):61-63. 被引量：7

计算机技术与发展

2009年第12期

浏览历史

内容加载中请稍等...

基于分形维的决策树构建及应用研究被引量：2

参考文献7

二级参考文献48

共引文献27

同被引文献16

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于分形维的决策树构建及应用研究 被引量：2

参考文献7

二级参考文献48

共引文献27

同被引文献16

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于分形维的决策树构建及应用研究被引量：2