一种有效的K-means聚类中心初始化方法被引量：87

Effective method for cluster centers' initialization in K-means clustering

在线阅读下载PDF

导出

摘要传统K-means算法由于随机选取初始聚类中心,使得聚类结果波动性大;已有的最大最小距离法选取初始聚类中心过于稠密,容易造成聚类冲突现象。针对以上问题,对最大最小距离法进行了改进,提出了最大距离积法。该方法在基于密度概念的基础上,选取到所有已初始化聚类中心距离乘积最大的高密度点作为当前聚类中心。理论分析与对比实验结果表明,此方法相对于传统K-means算法和最大最小距离法有更快的收敛速度、更高的准确率和更强的稳定性。 Initializing cluster centers randomly,traditional K-means algorithm leads to great fluctuations in the clustering results.The existing max-min distance algorithm,indeed,has rather dense cluster centers,which may easily bring about clustering conflicts.To solve these problems,this paper regarded the existing max-min distance algorithm as the thinking foundation and proposed the maximum distances product algorithm.Based on the theory of density-based clustering,the maximum distances product algorithm selected each point which had maximum product of distances between itself and all other initialized clustering centers.Theory analysis and experimental results show that compared with traditional K-means algorithm and max-min distance algorithm,the maximum distances product algorithm can result in faster convergence speed,higher accuracy,greater stability.

作者熊忠阳陈若田张玉芳

机构地区重庆大学计算机学院

出处《计算机应用研究》 CSCD 北大核心 2011年第11期4188-4190,共3页 Application Research of Computers

基金重庆市科委基金资助项目(2008BB2191)

关键词 K-均值算法基于密度初始聚类中心最大最小距离最大距离积 K-means algorithm density-based clustering initial clustering centers max-min distance maximum distances product

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1HAN Jia-wei, MICHELINE K. Data mining concepts and techniques [ M]. 2nd ed. Singapore:Elsevier, 2006 : 383-419.
2张文明,吴江,袁小蛟.基于密度和最近邻的K-means文本聚类算法[J].计算机应用,2010,30(7):1933-1935. 被引量：29
3淦文燕,李德毅.基于核密度估计的层次聚类算法[J].系统仿真学报,2004,16(2):302-305. 被引量：31
4赖玉霞,刘建平.K-means算法的初始聚类中心的优化[J].计算机工程与应用,2008,44(10):147-149. 被引量：75
5于剑,程乾生.模糊聚类方法中的最佳聚类数的搜索范围[J].中国科学（E辑）,2002,32(2):274-280. 被引量：130
6周涓熊忠阳张玉芳.初始中心优化的K-means聚类算法.计算机科学,2006,26(6):1425-1426.
7ESTER M, KRIEGEL H P, SANDER J . A density-based algorithm for discovering clusters in large spatial database with noise[ C ]//Proc of the 2nd International Conference on Knowledge Discovery and Data Mining(KDD) . 1996:4-10.
8SALTON G, WONG A, YAN C S . A vector space model for automatic indexing [ J ]. Communication of the ACM, 1975,18 ( 5 ) : 613-620.
9张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：61

二级参考文献31

1荆丰伟,刘冀伟,王淑盛.改进的K-均值算法在岩相识别中的应用[J].微计算机信息,2004,20(7):41-42. 被引量：5
2袁方,孟增辉,于戈.对k-means聚类算法的改进[J].计算机工程与应用,2004,40(36):177-178. 被引量：48
3Guha S,Rastogi R,Shim K.Cure:an efficient clustering algorithm for large database[C]//Proc of ACM-SIGMOND lnt Conf Managemerit on Data, Seattle, Washington, 1998 . 73-84.
4Ester M,Kriegel H P,Sander J.A density-based algorithm tier discovering chlsters in large spatial databases with noise[C]//Proc 2nd Int Conf on Knowledge Discovery and Data Mining.Portland, 1999.20:226-231.
5范明,孟小峰.数据挖掘:概念与应用[M].北京:机械工业出版社,2004.
6DUDA R O,HART P E.Pattern classification and scene analysis[M].New York:John Wiley and Sons,1973.
7FABER V.Clustering and the continuous K-means algorithm[EB/OL].[2009-10-03].http://library.lanl.gov/cgi-bin/ getfilefi00412967.pdf.
8STEINBACH M,KARYPIS G,KUMAR V.A comparison of document clustering techniques[EB/OL].[2009-10-03].http://cs.fit.edu/～pkc/classes/ml-internet/papers/steinbach00tr.pdf.
9SALTON G,WONG A,YANG C S.A vector space model for automatic indexing[J].Communications of the ACM,1975,18(5):613-620.
10YU C,OOI B C,TAN K L,et al.Indexing the distance:An efficient method to KNN[C] // Proceedings of the 27th International Conference on Very Large Data Bases.Roma:Morgan Kauimann Publishers,2001:421-430.

共引文献305

1徐艺萍,邓辉文,李阳旭.一种新的最近邻聚类算法[J].西南师范大学学报（自然科学版）,2006,31(6):114-116. 被引量：8
2徐艺萍,邓辉文,徐永刚.一种改进的模糊C—均值聚类算法[J].徐州工程学院学报,2008(4):34-36. 被引量：2
3楼佳,王小华.一种分裂式的k-means聚类算法[J].杭州电子科技大学学报（自然科学版）,2009,29(4):54-57. 被引量：1
4毛尚勤,黄心汉,王敏.基于密度聚类的彩色图像分割方法[J].华中科技大学学报（自然科学版）,2011,39(S2):116-119. 被引量：2
5陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
6张莉,孙钢,郭军.基于K-均值聚类的无监督的特征选择方法[J].计算机应用研究,2005,22(3):23-24. 被引量：29
7王海军,魏小鹏.面向规模化产品族的数值规划方法[J].计算机辅助设计与图形学学报,2005,17(3):473-478. 被引量：15
8张倩生.基于粗-模糊神经网络的决策控制[J].控制理论与应用,2005,22(2):330-334. 被引量：6
9张晓杰,王巍巍.基于C—均值模糊聚类的工程结构构件自动归并方法研究[J].四川建筑科学研究,2005,31(4):14-18. 被引量：2
10杨国权,蔡玉俊,庞俊忠.一种基于P-中位的产品单元化形成方法[J].华北工学院学报,2005,26(4):251-254.

同被引文献695

1王丙参,刘鹤飞,魏艳华.改进的传统距离聚类方法及应用[J].统计与决策,2021,37(4):64-68. 被引量：11
2崔庆华.基于局部特征分析的人脸识别方法[J].计算机产品与流通,2020,0(4):140-140. 被引量：2
3杜佳颖,段隆振,段文影,卜秋瑾.基于Spark的改进K-means算法的并行实现[J].计算机应用研究,2020,37(2):434-436. 被引量：13
4彭显刚,潘可达,张丹,刘艺,林志坚.基于季节性负荷自适应划分及重要点分割的多分段短期负荷预测[J].电网技术,2020,44(2):603-613. 被引量：31
5李滨,陆明珍.考虑实时气象耦合作用的地区电网短期负荷预测建模[J].电力系统自动化,2020(17):60-75. 被引量：52
6陈群伟,潘理黎.企业污染治理设施运行存在的问题和政府管理对策[J].环境科学与管理,2006,31(8):21-23. 被引量：6
7马亚杰,武强,章之燕,洪益清,郭立稳,田洪胜,张丽阁.煤层开采顶板导水裂隙带高度预测研究[J].煤炭科学技术,2008,36(5):59-62. 被引量：95
8于虹,温晶,杨裔,俞建萍,佟双,郭彦,赵光宇,寇志华,周育森.甲型流感病毒H1N1 HA蛋白在果蝇S2细胞中的表达及免疫原性研究[J].中国人兽共患病学报,2012,28(9):875-879. 被引量：3
9李立新.论对外汉语词汇教学对语境理论的应用[J].陕西师范大学学报（哲学社会科学版）,2006,35(S2):286-288. 被引量：21
10杨惠元.辨音辨调跟理解词义句义的关系——一次听力理解的实验[J].世界汉语教学,2000,14(1):82-88. 被引量：13

引证文献87

1高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
2胡光中,欧阳鸿志.基于PIL的验证码快速识别框架的研究[J].计算机与现代化,2012(5):64-66. 被引量：2
3郑丹,王潜平.K-means初始聚类中心的选择算法[J].计算机应用,2012,32(8):2186-2188. 被引量：35
4董陶,杨慧中.基于特征加权K-means聚类的多模型软测量建模[J].计算机与应用化学,2013,30(4):361-364. 被引量：3
5张凯,谢庆华.K均值算法影响因素的可视化分析[J].山西电子技术,2013(3):8-10.
6樊晓光,路钊,王久崇,李国栋,谢朝政.基于密度和距离积的聚类中心选取方法[J].测控技术,2013,32(10):152-154. 被引量：5
7何云斌,肖宇鹏,万静,李松.基于密度期望和有效性指标的K-均值算法[J].计算机工程与应用,2013,49(24):105-111. 被引量：10
8翟东海,鱼江,高飞,于磊,丁锋.最大距离法选取初始簇中心的K-means文本聚类算法的研究[J].计算机应用研究,2014,31(3):713-715. 被引量：109
9喻金平,郑杰,梅宏标.基于改进人工蜂群算法的K均值聚类算法[J].计算机应用,2014,34(4):1065-1069. 被引量：50
10杨坤,曹益平.基于视场边界最大最小聚类分析的快速扫描方法[J].光电子．激光,2014,25(4):823-828.

二级引证文献676

1周斌,苏鹏,高鹏.基于改进YOLOv3算法的挖掘机检测方法[J].数字制造科学,2022(2):141-145. 被引量：2
2杨捷,李沛霖,罗成臣,洪锋.基于数据挖掘的电网用户行为分析[J].云南大学学报（自然科学版）,2020,42(S02):38-43. 被引量：24
3侯恩科,闫鑫,郑永飞,杨帆.Bayes判别模型在风化基岩富水性预测中的应用[J].西安科技大学学报,2019,0(6):942-949. 被引量：15
4何立蜓.基于K-means聚类算法的防汛物资调配改进模型[J].人民黄河,2021,43(S02):272-275. 被引量：2
5段桂芹,邹臣嵩.基于K-medoids算法的学生成绩聚类研究[J].微型电脑应用,2020,0(2):64-66. 被引量：1
6黄鹤,李潇磊,王珺,王会峰,茹锋.基于随机跳跃蝠鲼算法优化的电影信息数据聚类[J].南京大学学报（自然科学版）,2022,58(5):856-867.
7王永国,王明,刘增平,徐新启,李建阳.巴彦高勒煤矿多相变沉积条件下煤层顶板含水层富水性特征[J].煤田地质与勘探,2019,47(S01):56-61. 被引量：8
8薛潇.船舶水下通信系统中海声信道文本数据聚类方法研究[J].舰船科学技术,2019,0(20):115-117.
9段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
10张荣梅,陈彬,张琦.基于K-means的矩阵分解推荐算法[J].智能计算机与应用,2020,0(1):56-60. 被引量：5

1韩岩,李晓.加速大数据聚类K-means算法的改进[J].计算机工程与设计,2015,36(5):1317-1320. 被引量：14
2陈敏,余晓平,左文英.K-means算法的分析及改进[J].佳木斯大学学报（自然科学版）,2015,33(6):872-876.
3石颖莹,葛万成,汪亮友,林佳燕.K-means聚类个性化推荐算法改进研究[J].信息通信,2016,29(1):19-21. 被引量：4
4沙秋夫,刘海宾,何希勤,刘向东.基于邻域的模糊C-均值图像分割算法[J].计算机应用研究,2007,24(12):379-380. 被引量：7
5刘金岭,王朝,谢少峰.基于聚类中心初始化的文本分类高效算法[J].软件导刊,2010,9(4):47-49. 被引量：1
6顾洪博,赵万平.基于MMD聚类算法及在高校成绩分析中的应用[J].河北工程大学学报（自然科学版）,2010,27(1):96-98. 被引量：7
7庞天杰,赵兴旺.一种基于先验信息的混合数据聚类个数确定算法[J].计算机科学,2016,43(2):101-104. 被引量：3
8郭荣传.基于密度函数的FCM聚类中心初始化研究综述[J].科技广场,2016(6):10-14. 被引量：2
9杜强,孙敏.基于改进聚类分析算法的入侵检测系统研究[J].计算机工程与应用,2011,47(11):106-108. 被引量：27
10欧慧,夏卓群,武志伟.基于改进流形距离的粗糙集k-means聚类算法[J].计算机工程与应用,2016,52(14):84-89. 被引量：4

计算机应用研究

2011年第11期

浏览历史

内容加载中请稍等...

一种有效的K-means聚类中心初始化方法被引量：87

参考文献9

二级参考文献31

共引文献305

同被引文献695

引证文献87

二级引证文献676

相关作者

相关机构

相关主题

浏览历史

一种有效的K-means聚类中心初始化方法 被引量：87

参考文献9

二级参考文献31

共引文献305

同被引文献695

引证文献87

二级引证文献676

相关作者

相关机构

相关主题

浏览历史

一种有效的K-means聚类中心初始化方法被引量：87