数据挖掘中特征选择算法研究被引量：14

Research On Feature Selection Algorithm In Data Mining

在线阅读下载PDF

导出

摘要针对在数据挖掘过程中存在的数据冗余特征和维灾难问题,依据Relief F算法和主成分分析算法的理论基础方法,建立了基于Relief F优化的核主成成分析的二次特征选择法,并给出了该方法的实验结果 .该方法能够有效处理维度过高、具有冗余和无关特征的数据,结合机器学习算法,使数据挖掘系统得到准确高效的执行结果,为决策人员提供有力的决策依据。通过实验得出该算法具有更高的分类准确度的结论 . Aiming at data redundancy and curse of dimensionality in data mining process, in accordance with the theoretical bases and methods of ReliefF algorithm and principal component analysis algorithm, this paper establishes the quadratic feature selection method on the basis of ReliefF optimization and principal component analysis, and gives out the experimental results of this method. This method can effectively process the data with high dimension, redundant and irrelevant features. Combined with machine learning algorithm, it makes the data mining system get an accurate and efficient implementation result, thus providing a solid decision-making foundation for decision makers. The conclusion is that this algorithm has a higher classification accuracy obtained through experiment.

作者荣盘祥曾凡永黄金杰

机构地区哈尔滨理工大学自动化学院

出处《哈尔滨理工大学学报》 CAS 北大核心 2016年第1期106-109,共4页 Journal of Harbin University of Science and Technology

基金黑龙江省博士后资助项目(LBH-Q11081) 黑龙江省教育厅科学技术研究项目(11551093)

关键词数据挖掘特征选择主成分分析 data mining feature selection principal component analysis

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献10

1CAO Longbing, ZHANG Huaifeng, ZHAO Yanchang, et al. Combined Mining: Discovering Informative Knowledge in Com- plex Data[J]. IEEE ,2011,3 (41 ) :699 -712.
2廉捷.基于用户特征的社交网络数据挖掘研究[D].北京:北京交通大学,2014:14-19.
3刘伟,张凤荔,程红蓉,万明成.改进ReliefF算法在图像型垃圾邮件检测中的应用研究[J].计算机应用研究,2009,26(9):3256-3258. 被引量：4
4李玉珍,王宜怀.主成分分析及算法[J].苏州大学学报（自然科学版）,2005,21(1):32-36. 被引量：44
5朱述龙.快速近似主成分分析算法[J].遥感学报,1999,3(1):43-47. 被引量：3
6毛勇,周晓波,夏铮,尹征,孙优贤.特征选择算法研究综述[J].模式识别与人工智能,2007,20(2):211-218. 被引量：95
7何清,李宁,罗文娟,史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(4):327-336. 被引量：338
8王继魁,吕凯,李虹.基于决策树分类的Weka平台上数据挖掘应用[J].白城师范学院学报,2013,27(5):37-40. 被引量：4
9廖强.基于关联规则挖掘的weka数据挖掘应用[J].计算机光盘软件与应用,2012,15(19):52-53. 被引量：12
10张庆国,张宏伟,张君玉.一种基于k最近邻的快速文本分类方法[J].中国科学院研究生院学报,2005,22(5):554-559. 被引量：15

二级参考文献193

1赛门铁克2008年9月垃圾邮件报告[R/OL].http://article.pchome.net/content-719881-1.html.
2FURMERA G, PILLAI I, ROLI F. Spam filtering based on the analysis of text information embedded into images [ M ]. Berlin:Springer, 2006 : 2699 - 2720.
3KIM J S,KIM S H,YANG H J, et al. Text extraction for spam-mail image filtering using a text color estimation technique [ J ]. New Trends in Applied Artificial Intelligence, 2007: 105-114.
4BYUN B, LEE C H, WEBB S, et al. A discriminative classieer learning approach to image modeling and spam image identification [ C]//Proc of the 4th Conference on E-mail and Anti-Spam. 2007.
5KRASSER S, YUCHUN T, GOULD J, et al. Identifying image spam based on header and file properties using CA. 5 decision trees and sup- port vector machine learning[ C ]//Proc of IEEE Conference on Information Assurance and Security Workshop. 2007.
6NHUNG N P, PHUONG T M. An efficient method for filtering imagebased spam [ C ]//Proc of IEEE International Conference on Research, Innovation and Vision for the Future. 2007 : 96-102.
7WANG Zhe, JOSEPHSON W, LV Qin, et al. Filtering image spam with near-duplicate detection[ C ]//Proc of the 4th Conference on Email and Anti-Spam. 2007.
8ARADHYE H B, MYERS G K, HERSON J A. Image analysis for efficient categorization of image-based spam e-mail [ C ]//Proc of the 8th International Conference on Document Analysis and Recognition. 2005 : 914-918.
9CHENG L H, CHIEH J W, A GA-based feature selection and parameters optimization for support vector machines[ J]. Expert Systems with Applications, 2006,3:231-240.
10ROBNIK-SIKONJA M, KONONENKO I. Theoretical and empirical analysis of ReliefF and R-ReliefF[ J]. Machine Learning, 2003,53 (1-2) :23-69.

共引文献510

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：17
2陈欣宇.基于大数据背景的机器学习算法研究[J].计算机产品与流通,2020,0(3):85-85. 被引量：1
3张毅,田浩.XGBoost在量化选股中的应用研究[J].金融管理研究,2020(2):122-132.
4吴迪,郭嗣琮.改进的Fisher Score特征选择方法及其应用[J].辽宁工程技术大学学报（自然科学版）,2019,38(5):472-479. 被引量：10
5朱赫夫.论证型式:司法人工智能的希冀[J].法大研究生,2021(1):83-101.
6李玥.机器学习的分类、聚类研究[J].电脑知识与技术,2020,0(4):161-162. 被引量：5
7薛亚楠.基于数据挖掘的聚类算法的应用[J].产业科技创新,2020(10):71-72.
8宋东翔,马伽洛伦,王怡然,袁铭举.基于云原生和区块链的高校智能人事系统的研究[J].新一代信息技术,2022,5(6):67-70.
9高影繁,马润波,刘玉树.一种结合参数优化的贝叶斯文本分类算法[J].计算机研究与发展,2007,44(z2):1-5.
10赵丹丹,岳丽莹,许靖,王亚丽,冯利华.基于主成分分析的义乌水资源承载力[J].水资源与水工程学报,2012,23(1):51-54. 被引量：7

同被引文献141

1唐亮,段建国,许洪波,梁玲.基于互信息最大化的特征选择算法及应用[J].计算机工程与应用,2008,44(13):130-133. 被引量：35
2温玄,王培东,张海英.中储式球磨机制粉系统控制器设计[J].哈尔滨理工大学学报,2010,15(2):47-50. 被引量：9
3冯国平.MPLS VPN在高校网络中的应用研究[J].山西广播电视大学学报,2010,15(5):12-14. 被引量：1
4董元和.基于MPLS VPN的安全一卡通网络的研究与设计[J].湖北师范学院学报（自然科学版）,2011,31(1):36-39. 被引量：5
5罗智勇,多智华,乔佩利.VPN网络中IPSec安全策略的形式化描述[J].华中科技大学学报（自然科学版）,2011,39(4):65-68. 被引量：6
6方钦.MPLS VPN技术在高校图书馆馆际互联中的研究和应用[J].新世纪图书馆,2011(9):76-79. 被引量：2
7陈家益.MPLS VPN端到端QoS解决方案的应用研究[J].计算机科学,2011,38(B10):389-391. 被引量：10
8徐聚星.MPLS VPN技术在高校数字图书馆中的运用[J].实验室研究与探索,2012,31(4):72-75. 被引量：8
9孙文胜,赵问吉.基于MPLS VPN的IP承载网保障措施的研究[J].杭州电子科技大学学报（自然科学版）,2012,32(5):120-123. 被引量：2
10罗智勇,尤波,苏洁.基于VPN网络的高校数字化图书馆组建模型研究[J].图书馆学研究,2013(1):52-59. 被引量：13

引证文献14

1闵芳.云计算环境下商业信息特征数据检测仿真研究[J].计算机仿真,2016,33(12):424-427.
2周阳,周炎,周桃,任卉,石玲玲.基于标准序列浮动前向特征选择的改进算法研究[J].计算机测量与控制,2017,25(7):294-297. 被引量：6
3王广泽,汪鹏,罗智勇,刘嘉辉.一种MPLS VPN的分散校区图书馆教育网组建模型[J].哈尔滨理工大学学报,2017,22(3):31-35. 被引量：5
4刘凯,郑山红,蒋权,赵天傲.基于随机森林的自适应特征选择算法[J].计算机技术与发展,2018,28(9):101-104. 被引量：9
5盛昀瑶,沈阳.弱关联冗余环境下的挖掘算法研究（英文）[J].机床与液压,2018,46(18):186-192. 被引量：1
6彭秦晋.应急决策支持系统需求数据自助挖掘仿真[J].计算机仿真,2019,36(8):329-332. 被引量：1
7朱朋成,钱虹,江诚.基于热力学机理与数据挖掘的磨煤机预警系统[J].哈尔滨理工大学学报,2020,25(1):43-50. 被引量：7
8刘锐,梁奎宁,黄骏.海量非结构化物联网数据深度挖掘算法研究[J].电子设计工程,2020,28(16):26-29. 被引量：3
9熊学锋,周苏,宋凯.泛在电力物联网的用户侧电力大数据关键技术[J].信息技术,2020,44(10):149-154. 被引量：9
10唐振浩,李艳艳,曹生现.一种非线性烟气含氧量深度学习模型[J].哈尔滨理工大学学报,2020,25(5):127-135. 被引量：1

二级引证文献67

1闫伟.水上通信网络海量多维数据弱关联识别方法[J].舰船科学技术,2019,0(20):124-126.
2李甲林.甘肃利用经济杠杆积极推进水价改革[J].中国水利,2000(6):22-23. 被引量：1
3董昊,胡曦明,马苗.BGP/MPLS VPN安全性分析与仿真实验[J].计算机与网络,2018,44(12):58-61. 被引量：4
4王立平,姚程宽,卢灿举,伍光辉,程跃.智能广域网在大型企业网络建设中的应用[J].成都工业学院学报,2018,21(2):43-45. 被引量：3
5熊建辉.BGP/MPLS VPN技术研究及在Dynamips中的仿真实现[J].内蒙古民族大学学报（自然科学版）,2018,33(1):29-34. 被引量：6
6蔡俊鹏,吴炳福,陈德旺.基于机器学习的高速列车转向架振动信号监测[J].计算机技术与发展,2019,29(8):130-135. 被引量：3
7于澍,曹琦,刘涛.基于随机森林的微博互动特征分析[J].计算机技术与发展,2019,29(10):51-54. 被引量：2
8王诚,高蕊.基于特征约简的随机森林改进算法研究[J].计算机技术与发展,2020,30(3):40-45. 被引量：4
9吴浩,王泉,王睿轶.基于IGBT特征分析的地铁车辆逆变器故障研究[J].城市轨道交通研究,2020,23(9):51-55. 被引量：5
10王奔,涂珂,李庭瑞.电力大数据面临的机遇与挑战探索[J].中国宽带,2020(10):107-108.

1李跃新,邓芳,秦莉.PVM并行计算(处理)的基础方法[J].湖北大学成人教育学院学报,2003,21(1):71-74.
2张建伟,方欣欣,闫俊红.数字图像水印LSB的实现[J].微计算机信息,2006,22(04S):228-229. 被引量：16
3杨易.用Visual FoxPro3.0进行面向对象程序设计[J].新浪潮,1997(8):14-16.
4Bertrand Leigh.用低成本FPGA轻松实现DDR内存接口设计[J].电子与电脑,2005(3):124-124.
5王文成,魏峰,吴恩华.绘制大规模场景的可见性计算技术[J].计算机辅助设计与图形学学报,2006,18(2):161-169. 被引量：10
6王雅思,姚鸿勋,孙晓帅,许鹏飞,赵思成.深度学习中的自编码器的表达能力研究[J].计算机科学,2015,42(9):56-60. 被引量：36
7刘静.浅析背诵在英语教学中的重要作用[J].内江科技,2011,32(12):87-87.
8王饰欣.基于AML语言二次开发实现——EDITtools编辑软件[J].测绘与空间地理信息,2010,33(3):161-163. 被引量：1
9吴进军,刘长风,王西峰.基于PROFIBUS-DP总线的变频器远程控制及故障诊断[J].制造业自动化,2002,24(10):35-38.
10姚正元.计算机控制医疗设备若干维修问题的探讨[J].电子技术与软件工程,2015(24):167-167. 被引量：1

哈尔滨理工大学学报

2016年第1期

浏览历史

内容加载中请稍等...

数据挖掘中特征选择算法研究被引量：14

参考文献10

二级参考文献193

共引文献510

同被引文献141

引证文献14

二级引证文献67

相关作者

相关机构

相关主题

浏览历史

数据挖掘中特征选择算法研究 被引量：14

参考文献10

二级参考文献193

共引文献510

同被引文献141

引证文献14

二级引证文献67

相关作者

相关机构

相关主题

浏览历史

数据挖掘中特征选择算法研究被引量：14