一种提高K-近邻算法效率的新算法被引量：22

New algorithm to scale up efficiency of K-Nearest-Neighbor

在线阅读下载PDF

导出

摘要 K-近邻(K-Nearest-Neighbor,KNN)算法是一种最基本的基于实例的学习方法,被广泛应用于机器学习与数据挖掘。其学习过程只是简单地存储已知的训练数据。当遇到新的查询实例时,一系列相似的实例被从存储器中取出,并用来分类新的查询实例。KNN的一个不足是分类新实例的开销可能很大。这是因为几乎所有的计算都发生在分类时,而不是在第一次遇到训练实例时。所以,如何有效地索引训练实例,以减少查询时所需计算是一个重要的实践问题。为解决这个问题,提出了一种新的算法。该算法把部分原本发生在分类阶段的计算移到训练阶段来完成。实验表明,算法能够提高KNN效率80%以上。此外,算法的思想还可以应用于KNN的所有变体中。 The k-Nearest-Neighbor （KNN） algorithm is the most basic instance-based learning method,and is widely used in machine learning and data mining.Learning in KNN consists of simply storing the presented training data.When a new query instance is encountered,a set of similar related instances is retrieved from memory and used to classify the new query instance. One disadvantage of KNN is that the cost of classifying new instances can be high.This is due to the fact that nearly all computation takes place at classification time rather than when the training instances are first encountered.So,how to efficiently index training instances are a significant practical issue in reducing the computation required at query time.In order to set down this issue,this paper presents a new algorithm.It moves some computations taken place at classification time to the training time. The simulation experiments show that it can scale up the efficiency of KNN beyond 80%.Besides,its idea can be applied to all variants of KNN.

作者陆微微刘晶

机构地区中国地质大学计算机科学系

出处《计算机工程与应用》 CSCD 北大核心 2008年第4期163-165,178,共4页 Computer Engineering and Applications

关键词 K-近邻算法器于买例的字习效率分类 K-Nearest-Neighbor instance-based learning efficiency classification

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献12

1Aha D W,Kibler D,Albert M K.lnstanee-based learning algorithms[J].Maehine Learning, 1991,6 : 37-66.
2Aha D W.Lazy learning[M].Dordrecht:Kluwer Academic, 1997.
3Kumar Han K.Text categorization using weight adjusted k-nearest neighbour classification[R].Dept of CS,University of Minnesota, 1999.
4Wilson D R, Martinez T R.lmproved heterogeneous distance functions[J].Artificial Intelligence Research, 1997,6: 1-34.
5Xie Z, Hsu W,Liu Z,et al.SNNB:a selective neighborhood based naive bayes for lazy learning[C].Proceedings of the Sixth Pacific-Asia Conference on KDD, 2002 : 104-114.
6Jiang L,Zhang H,Cai Z.Dynamie K-Nearest-Neighbor naive bayes with attribute weighted[C].LNAI 4223:Proceedings of the 3rd In-ternational Conference on Fuzzy Systems and Knowledge Discovery,FSKD 2006.[S.l.]:Springer Press,2006:365-368.
7Mitchell T M.Instance-based learning:chapter 8 in machine learning [M].[S.l.] : McGraw-Hill, 1997.
8Frank E,Hall M,Pfahringer B.Locally weighted naive bayes[C]. Proceedings of the Conference on Uncertainty in Artificial Intelligence.[S,l.] : Morgan Kaufmann, 2003 : 249-256.
9Jiang L,Zhang H,Su J.Instance cloning local naive bayes[C].PLNAI 3501:Proceedings of the 18th Canadian Conference on Artificial Intelligence, CAI 2005.[S.l.] : Springer Press, 2005 : 280-291.
10Bentley J L.Muhidimensional binary search trees used for associative searching[J].Communications of the ACM,1975,15(9):509- 517.

同被引文献137

1吴晓,种玉珍,倪红波,王海鹏.一种CBR与RBR相结合的智能家庭推理系统[J].计算机应用研究,2009,26(3):977-979. 被引量：3
2黄晓斌,万建伟,张燕.一种改进的自适应K近邻聚类算法[J].计算机工程与应用,2004,40(15):76-78. 被引量：2
3郑伯川,彭维,张引,叶修梓,张三元.3D模型检索技术综述[J].计算机辅助设计与图形学学报,2004,16(7):873-881. 被引量：66
4杨育彬,林珲,朱庆.基于内容的三维模型检索综述[J].计算机学报,2004,27(10):1297-1310. 被引量：95
5徐萍,康锐.预测与状态管理系统(PHM)技术研究[J].测控技术,2004,23(12):58-60. 被引量：32
6董旭,魏振军.一种加权欧氏距离聚类方法[J].信息工程大学学报,2005,6(1):23-25. 被引量：32
7John Durkin,蔡竞峰,蔡自兴.决策树技术及其当前研究方向[J].控制工程,2005,12(1):15-18. 被引量：63
8赖邦传,陈晓红.一种基于决策树的多属性分类方法[J].计算机工程,2005,31(5):88-89. 被引量：5
9王晓晔,王正欧.K-最近邻分类技术的改进算法[J].电子与信息学报,2005,27(3):487-491. 被引量：25
10乔玉龙,潘正祥,孙圣和.一种改进的快速k-近邻分类算法[J].电子学报,2005,33(6):1146-1149. 被引量：25

引证文献22

1童先群,周忠眉.基于属性值信息熵的KNN改进算法[J].计算机工程与应用,2010,46(3):115-117. 被引量：32
2邓斌,邵培基,刘名武,夏国恩.基于模糊测度KNN的多维度数据分类算法[J].系统工程,2010,28(3):103-107. 被引量：1
3张玲珠,周忠眉.结合属性值贡献度与平均相似度的KNN改进算法[J].计算机工程与应用,2010,46(18):130-131. 被引量：1
4冯克鹏.KNN价格预测模型的研究与改进[J].软件导刊,2010,9(10):84-86. 被引量：3
5唐燕雯.一种基于K-means的自适应聚类算法的研究[J].科技致富向导,2012(2):143-143. 被引量：1
6徐彩虹,刘志,潘翔,冯毅攀.一种基于实例学习的三维模型检索匹配方法[J].浙江工业大学学报,2012,40(3):326-330. 被引量：9
7张亮亮,杨威.基于改进实例推理的话务故障诊断专家系统[J].山西师范大学学报（自然科学版）,2013,27(3):44-47.
8肖辉辉,段艳明.基于属性值相关距离的KNN算法的改进研究[J].计算机科学,2013,40(11A):157-159. 被引量：28
9张炯辉,许尧舜.基于多属性分类的KNN改进算法[J].鞍山师范学院学报,2013,15(6):38-41.
10朱俚治.基于k-近邻算法与决策树的数据流分类算法[J].电脑编程技巧与维护,2015(10):58-58.

二级引证文献106

1王蕙心.被“主宰”的网络言论市场——以对自动化“水军”的多元规制视角切入[J].现代法治研究,2020(1):70-82. 被引量：1
2周靖,刘晋胜.一种采用类相关度优化距离的KNN算法[J].微计算机应用,2010,31(11):7-12. 被引量：15
3许燕青.基于平均距离的K-近邻分类改进算法[J].电脑编程技巧与维护,2010(24):41-42.
4周靖,刘晋胜.采用特征相关性差异优化距离的改进k近邻算法[J].计算机工程与设计,2011,32(9):3178-3181.
5童先群,周忠眉.基于层次聚类法的Entropy-KNN算法[J].漳州师范学院学报（自然科学版）,2012,25(1):43-47. 被引量：2
6徐永华,李广水.基于距离加权模板约简和属性信息熵的增量SVM入侵检测算法[J].计算机科学,2012,39(12):76-78. 被引量：10
7李娟,王宇平.基于维样本近邻区间的分类算法研究[J].华中科技大学学报（自然科学版）,2012,40(12):39-43. 被引量：1
8郑洁,秦永彬,许道云.基于Relief的特征加权壳近邻分类算法[J].计算机工程与设计,2013,34(3):951-954. 被引量：2
9缪永伟,王洪军,寿华好.一种环形特征线的快速提取方法[J].浙江工业大学学报,2013,41(5):529-533. 被引量：4
10潘翔,章国栋,周春燕,陈启华.三维可变形物体的三点匹配策略[J].浙江工业大学学报,2013,41(5):539-544. 被引量：2

1王建伟,张璞.K-近邻分类算法的研究及实现[J].黑龙江科技信息,2009(17):45-45. 被引量：1
2蒋勇铭.正则表达式在Oracle中的应用与实现[J].信息技术,2012,36(1):130-132. 被引量：1
3王正山.在ASP中利用SQL语句实现动态网页与WEB数据库的连接[J].安庆师范学院学报（自然科学版）,2001,7(3):53-55. 被引量：1
4于凤霞.MPLS VPN的技术原理及应用[J].微型电脑应用,2005,21(12):61-62.
5聂铁铮,于戈,申德荣,寇月.基于实例的Deep Web数据源结果模式匹配技术[J].计算机科学与探索,2008,2(6):601-613. 被引量：1
6杨元法,庄明.ASP对Access,Excel,Text数据库文件的访问[J].微机发展,2002,12(4):57-58. 被引量：3
7庞晓红.世界上最大的信息搜索引擎——Google[J].漳州职业技术学院学报,2005,7(4):81-82.
8罗汉洋.基于ASP的多条件查询的设计与实现[J].微型电脑应用,2004,20(11):60-62. 被引量：4
9陈微微.基于ASP.NET的多条件查询的设计与实现[J].中国管理信息化,2012,15(3):60-60.
10张国辉.基于实例的学习矢量量化神经网络诊断方法及其应用[J].制造业自动化,2006,28(6):11-14. 被引量：3

计算机工程与应用

2008年第4期

浏览历史

内容加载中请稍等...

一种提高K-近邻算法效率的新算法被引量：22

参考文献12

同被引文献137

引证文献22

二级引证文献106

相关作者

相关机构

相关主题

浏览历史

一种提高K-近邻算法效率的新算法 被引量：22

参考文献12

同被引文献137

引证文献22

二级引证文献106

相关作者

相关机构

相关主题

浏览历史

一种提高K-近邻算法效率的新算法被引量：22