一种适用于混合属性数据的K近邻方法被引量：2

A Novel K-Nearest Neighbor Method with an Application to Mixed-Attribute Data

导出

摘要对于传统K近邻算法只适用于数值属性数据类型的问题,提出了一种基于对混合属性数据中的不同属性列赋予不同权值的K近邻算法(K Nearest Neighbor for Mixed-attribute Data,KNNM),使新的K近邻算法能够适用于混合属性数据.由于混合数据间数值属性部分与分类属性部分对整体相似性度量的贡献率不同,又各分量对其所属的属性部分的相似性度量的贡献率不同的特点.提出了考虑数值属性部分与分类属性部分作为整体对混合属性数据间的相似性度量的贡献率,并考虑不同属性数据的各分量对其所属的数据间的相似性度量的贡献率的向量参数计算方法,以此提出了一种适用于混合属性数据的K近邻方法.在5个UCI数据集上的实验结果表明KNNM算法在准确率,宏平均召回率,宏平均精度、宏平均值和ROC均优于传统K近邻算法,以此说明KNNM方法在混合属性数据上的适用性与有效性. According to the problem of traditional k-Nearest Neighbor(KNN) algorithm that it’s only applicable to numerical data,this paper proposes a novel KNN algorithm based on assign different weights to different attribute columns between mixed attribute data(K Nearest Neighbor for Mixed-attribute Data,KNNM),which is suitable for mixed attribute data.As part of numerical data and part of category data in mixed attribute data make different contributions to the whole similarity measure,and the contribution of each component to the similarity measure of the attribute part to which it belongs is different.This paper proposes a computing vectors-based parameters method,which considers two contributions of part of numerical data and part of category data in mixed attribute data as a whole respectively to the whole similarity measure,and consider the contribution of each component to the data to which it belongs.Based this view,this paper presents the vector-based KNNM,which is suitable for mixed attribute data.The experimental results on five UCI datasets show that KNNM is superior to KNN in views of accuracy,macro average recall,macro average precision,macro average F1 measure and ROC,that is,KNNM algorithm is suitable and effective for mixed attribute data.

作者刘佳宇周凌云吴秋峰孟翔燕邓华玲 LIU Jia-yu;ZHOU Ling-yun;WU Qiu-feng;MENG Xiang-yan;DENG Hua-ling(College of Economics and Management,Northeast Agricultural University,Harbin 150030,China;College of Economics,Heilongjiang University of Finance and Economic,Harbin 150030,China;College of Engineering,Northeast Agricultural University,Harbin 150030,China;College of Science,Northeast Agricultural University,Harbin 150030,China)

机构地区东北农业大学经济管理学院黑龙江财经学院经济系东北农业大学工程学院东北农业大学理学院

出处《数学的实践与认识》北大核心 2020年第16期132-143,共12页 Mathematics in Practice and Theory

基金公益性行业(农业)科研专项项目二级任务(201503116-04-06) 黑龙江省博士后基金(LBHZ15020) 国家科技支撑计划专题任务(2014BAD12B01-1-3) 哈尔滨市科技创新人才研究专项资金(青年后备人才)(2017RAQXJ096) 半湿润区粳稻水分高效利用技术集成与示范(2018YFD0300105-2)。

关键词混合属性数据相似性度量 K近邻参数计算方法主成分分析法 mixed-attribute data similarity measure K nearest neighbor Computing parame ters method principal component analysis

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献10

1Sein Minn,傅顺开,吕天依,蔡奕侨.一般贝叶斯网络分类器及其学习算法[J].计算机应用研究,2016,33(5):1327-1334. 被引量：9
2刘松华,张军英,许进,贾宏恩.Kernel-kNN:基于信息能度量的核k-最近邻算法[J].自动化学报,2010,36(12):1681-1688. 被引量：15
3赵兴旺,梁吉业.一种基于信息熵的混合数据属性加权聚类算法[J].计算机研究与发展,2016,53(5):1018-1028. 被引量：44
4陈明,何书萍,李凡长.Finsler度量在KNN算法中的应用研究[J].计算机科学与探索,2011,5(11):1021-1026. 被引量：3
5谢红,赵洪野.基于卡方距离度量的改进KNN算法[J].应用科技,2015,42(1):10-14. 被引量：17
6陈韡,王雷,蒋子云.基于K-prototypes的混合属性数据聚类算法[J].计算机应用,2010,30(8):2003-2005. 被引量：16
7李可,王全鑫,宋世民,孙毅,王浚.基于改进人工神经网络的航天器电信号分类方法[J].北京航空航天大学学报,2016,42(3):596-601. 被引量：6
8郑帅,赵晓东.基于距离函数的改进k-means算法[J].电脑知识与技术,2015,0(12):167-169. 被引量：3
9李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：115
10王明涛.多指标综合评价中权数确定的离差、均方差决策方法[J].中国软科学,1999(8):100-101. 被引量：264

二级参考文献101

1朱颢东,钟勇,赵向辉.一种优化初始中心点的K-Means文本聚类算法[J].郑州大学学报（理学版）,2009,41(2):29-32. 被引量：13
2王宇,杨莉.基于凝聚函数的混合属性数据聚类算法[J].大连理工大学学报,2006,46(3):446-448. 被引量：2
3苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：392
4周晓飞,杨静宇,姜文瀚.核最近邻凸包分类算法[J].中国图象图形学报,2007,12(7):1209-1213. 被引量：6
5GAN G,YANG Z,WU J.A genetic fuzzy K-modes algorithm for clustering categorical data[J].Expert Systems with Applications:An International Journal,2009,32(2):1615-1620.
6HUANG Z.Extensions to the K-means algorithm for clustering large data sets with categorical values[J].Data Mining and Knowledge Discovery II,1998(2):283-304.
7HUANG Z,MA N G.Fuzzy K-modes algorithm for clustering categorical data[J].IEEE Transacitons on Fuzzy Systems,1999,7(4):446 -452.
8韩立群.人工神经网络[M].北京:北京邮电出版社,2006.
9Yu K, Ji L, Zhang X G. Kernel nearest-neighbor algorithm. Neural Processing Letters, 2002, 15(2): 147-156.
10Amari Shun-ichi, Nagaoka H. Methods of Information Geometry (Translations of Mathematical Monographs). New Orleans: American Mathematical Society, 2000.

共引文献480

1骆公志,陈圣瑜.混合信息系统的邻域多粒度决策粗糙集及应用[J].模糊系统与数学,2023,37(2):144-153. 被引量：1
2胡续楠,王伟明.主客观赋权法比较研究[J].内蒙古统计,2023(1):28-31. 被引量：2
3余昭胜,廖艳芬,夏雨晴,顾文露,卢晓鸾,马晓茜.基于层次和多指标综合评价分析法的能源与动力工程专业校外教学实习基地评价指标体系的研究[J].高等工程教育研究,2019,67(S01):292-296. 被引量：12
4张勇.基于ReliefF算法的模糊聚类新算法[J].华南金融电脑,2009(1):43-46. 被引量：3
5云健,刘勇奎,何丽君,陈华,王双成.蚁群聚类在民族突发事件应急决策中的应用[J].计算机应用研究,2009,26(2):509-512. 被引量：1
6刘云吉,施晓秋.基于lucene的搜索引擎在Ajax中的应用[J].硅谷,2009,2(19).
7刘海蓉,王琴梅.确立主导产业,带动城乡一体化发展——以天水市城乡统筹发展为例[J].天水师范学院学报,2010,30(1):46-49.
8钟霞,钟怀军.多指标综合评价方法及应用[J].内蒙古大学学报（哲学社会科学版）,2004,36(4):107-111. 被引量：63
9张云峰,陈洪全.江苏沿海城镇化与生态环境协调发展量化分析[J].中国人口·资源与环境,2011,21(S1):113-116. 被引量：30
10薛萐,李占斌,李鹏,刘国彬,戴全厚.不同植被恢复模式对黄土丘陵区土壤抗蚀性的影响[J].农业工程学报,2009,25(S1):69-72. 被引量：39

同被引文献28

1刘胜昔,程春玲.改进的Gabor小波变换特征提取算法[J].计算机应用研究,2020,37(2):606-610. 被引量：25
2程险峰,李军,李雄飞.一种基于欠采样的不平衡数据分类算法[J].计算机工程,2011,37(13):147-149. 被引量：21
3郭丽娟,倪子伟,江弋,邹权.集成降采样不平衡数据分类方法研究[J].计算机科学与探索,2013,7(7):630-638. 被引量：3
4楼晓俊,孙雨轩,刘海涛.聚类边界过采样不平衡数据分类方法[J].浙江大学学报（工学版）,2013,47(6):944-950. 被引量：31
5毛远宏,贺占庄,马钟,毕瑞星,王竹平.采用类内迁移学习的红外/可见光异源图像匹配[J].西安交通大学学报,2020,54(1):49-55. 被引量：10
6许纪亚,孙佳宁,乔双.基于多尺度二维直方图均衡化的医学图像增强方法[J].东北师大学报（自然科学版）,2020,52(1):88-91. 被引量：9
7平瑞,周水生,李冬.高度不平衡数据的代价敏感随机森林分类算法[J].模式识别与人工智能,2020,33(3):249-257. 被引量：24
8吴昊,胡敏,高永,王晓华,黄忠.融合DCLBP和HOAG特征的人脸表情识别方法[J].电子测量与仪器学报,2020,32(2):73-79. 被引量：13
9方秀秀,黄旻,王德志,张桂峰,赵宝玮.基于高程和地物光谱约束的多光谱图像预处理算法[J].半导体光电,2020,41(2):264-267. 被引量：9
10杨晓玲,冯山,袁钟.基于相对距离的反k近邻树离群点检测[J].电子学报,2020,48(5):937-945. 被引量：13

引证文献2

1魏亚明,孟媛.基于随机森林模型的不平衡大数据分类算法[J].吉林大学学报（信息科学版）,2023,41(6):1079-1085. 被引量：2
2王康毅,邵苏杰.基于Gabor变换的多角度人脸表情识别方法[J].计算机仿真,2024,41(4):233-236.

二级引证文献2

1李帅彪.基于TPOC识别与检测人工智能生成内容的研究与探讨[J].科技传播,2024,16(12):18-22. 被引量：1
2钱亮宏,王福德,宋海龙.金融交易反欺诈人工智能建模方法研究[J].吉林大学学报（信息科学版）,2024,42(5):930-936.

1吴佳,苏丹,袁卫国,杨延.云计算智能电网大数据驱动的方法研究[J].计算技术与自动化,2020,39(2):184-188. 被引量：5
2曹素娥,杨泽民.基于聚类分析算法和优化支持向量机的无线网络流量预测[J].计算机科学,2020,47(8):319-322. 被引量：14
3任文军.鞅变换估计函数的复合[J].电子工程学院学报,2020,9(1):127-127.

数学的实践与认识

2020年第16期

浏览历史

内容加载中请稍等...

一种适用于混合属性数据的K近邻方法被引量：2

参考文献10

二级参考文献101

共引文献480

同被引文献28

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

一种适用于混合属性数据的K近邻方法 被引量：2

参考文献10

二级参考文献101

共引文献480

同被引文献28

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

一种适用于混合属性数据的K近邻方法被引量：2