加权K近邻和多簇合并的密度峰值聚类算法被引量：12

Weighted K-nearest Neighbors and Multi-cluster Merge Density Peaks Clustering Algorithm

在线阅读下载PDF

导出

摘要密度峰值聚类(DPC)算法是一种基于密度的聚类算法。该算法原理简单、运行高效,可以找到任意非球形类簇。但是该算法存在一些缺陷:首先,该算法局部密度定义的度量准则不统一且两者的聚类结果存在较大差异;其次,该算法的分配策略易产生分配连带错误,即一旦某一个样本分配错误,会导致后续一连串的样本分配错误。为解决这些问题,提出了一种加权K近邻和多簇合并的密度峰值聚类算法(WKMM-DPC)。该算法结合加权K近邻的思想,引入样本的权重系数,重新定义样本的局部密度,使局部密度更加依赖于K近邻内样本的位置,且统一了密度定义的度量准则;定义了类簇间的相似度,并据此度量准则进行多簇合并,以避免分配剩余样本时的分配连带错误。在人工和UCI数据集上的实验表明,该算法的聚类效果优于FKNNDPC、DPCSA、FNDPC、DPC和DBSCAN算法。 Density peaks clustering(DPC) algorithm is a clustering algorithm based on density. The algorithm is simple in principle and efficient in operation, and can find any non-spherical class clusters. However, there are some defects in the algorithm. Firstly, the measurement criteria defined by the local density are not uniform and there are great differences in the clustering results. Secondly, the allocation strategy is prone to allocation errors, that is once a sample is incorrectly allocated, a series of subsequent samples will be incorrectly allocated too. In order to solve these problems, this paper proposes a weighted K-nearest neighbors and multi-cluster merge density peaks clustering(WKMM-DPC) algorithm. Combined with the idea of weighted K-nearest neighbors, the local density of the sample is redefined by introducing the weight coefficient of the sample, which makes the local density more dependent on the position of the sample in the K-nearest neighbors, and unifies the measurement criteria of density definition. The similarity between clusters is defined, and the clusters are merged according to the metric to avoid the joint error in the allocation of remaining samples. Experiments on artificial and UCI datasets show that the clustering performance of the proposed algorithm is better than that of FKNN-DPC, DPCSA, FNDPC, DPC and DBSCAN algorithms.

作者陈磊吴润秀李沛武赵嘉 CHEN Lei;WU Runxiu;LI Peiwu;ZHAO Jia(School of Information Engineering,Nanchang Institute of Technology,Nanchang 330099,China)

机构地区南昌工程学院信息工程学院

出处《计算机科学与探索》 CSCD 北大核心 2022年第9期2163-2176,共14页 Journal of Frontiers of Computer Science and Technology

基金江西省教育厅科技项目(GJJ180940) 国家自然科学基金(52069014,51669014) 江西省杰出青年基金(2018ACB21029)。

关键词聚类局部密度密度峰值 K近邻(KNN) 多簇合并 clustering local density density peaks K-nearest neighbors(KNN) multi-cluster merge

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献6

1高诗莹,周晓锋,李帅.基于密度比例的密度峰值聚类算法[J].计算机工程与应用,2017,53(16):10-17. 被引量：22
2纪霞,姚晟,赵鹏.相对邻域与剪枝策略优化的密度峰值聚类算法[J].自动化学报,2020,46(3):562-575. 被引量：15
3薛小娜,高淑萍,彭弘铭,吴会会.结合K近邻的改进密度峰值聚类算法[J].计算机工程与应用,2018,54(7):36-43. 被引量：22
4贾露,张德生,吕端端.物理学优化的密度峰值聚类算法[J].计算机工程与应用,2020,56(13):47-53. 被引量：14
5王芙银,张德生,张晓.结合鲸鱼优化算法的自适应密度峰值聚类算法[J].计算机工程与应用,2021,57(3):94-102. 被引量：22
6赵嘉,姚占峰,吕莉,樊棠怀.基于相互邻近度的密度峰值聚类算法[J].控制与决策,2021,36(3):543-552. 被引量：29

二级参考文献22

1杨燕,靳蕃,KAMEL Mohamed.聚类有效性评价综述[J].计算机应用研究,2008,25(6):1630-1632. 被引量：117
2周涛,陆惠玲.数据挖掘中聚类算法研究进展[J].计算机工程与应用,2012,48(12):100-111. 被引量：145
3王健峰,张磊,陈国兴,何学文.基于改进的网格搜索法的SVM参数优化[J].应用科技,2012,39(3):28-31. 被引量：125
4蒋亦樟,邓赵红,王骏,葛洪伟,王士同.基于知识利用的迁移学习一般化增强模糊划分聚类算法[J].模式识别与人工智能,2013,26(10):975-984. 被引量：16
5谢娟英,高红超,谢维信.K近邻优化的密度峰值快速搜索聚类算法[J].中国科学：信息科学,2016,46(2):258-280. 被引量：106
6WANG Shuliang,WANG Dakui,LI Caoyuan,LI Yan,DING Gangyi.Clustering by Fast Search and Find of Density Peaks with Data Field[J].Chinese Journal of Electronics,2016,25(3):397-402. 被引量：63
7巩树凤,张岩峰.EDDPC:一种高效的分布式密度中心聚类算法[J].计算机研究与发展,2016,53(6):1400-1409. 被引量：17
8蒋礼青,张明新,郑金龙,戴娇,尚赵伟.快速搜索与发现密度峰值聚类算法的优化研究[J].计算机应用研究,2016,33(11):3251-3254. 被引量：34
9王印松,商丹丹,宋凯兵,李士哲.基于改进模糊聚类的控制系统故障检测[J].信息与控制,2017,46(1):41-45. 被引量：14
10乔少杰,韩楠,张凯峰,邹磊,王宏志,Louis Alberto GUTIERREZ.复杂网络大数据中重叠社区检测算法[J].软件学报,2017,28(3):631-647. 被引量：50

共引文献100

1李智冈,吕莉,谭德坤,康平,樊棠怀.基于加权核密度估计与微簇合并的密度峰值聚类算法[J].信息与控制,2024,53(3):302-314. 被引量：1
2滑江,孙钰,周彦斌,蔡曙日,龚尚文.基于K-means方法的气象数据分区在公路养护的应用[J].公路交通科技,2022,39(S01):19-23. 被引量：1
3许朝阳,林耀海,张萍.基于密度二分法的密度峰值聚类方法[J].计算机工程与应用,2018,54(12):138-145. 被引量：4
4薛小娜,高淑萍,彭弘铭,吴会会.基于K近邻和多类合并的密度峰值聚类算法[J].吉林大学学报（理学版）,2019,57(1):111-120. 被引量：10
5干佳俪,谭励,宁晓辉,王蓓,孙践知.基于密度最大值聚类的奶酪风味鉴别模型[J].中国乳品工业,2019,47(2):10-14. 被引量：2
6杜沛,程晓荣.一种基于K近邻的比较密度峰值聚类算法[J].计算机工程与应用,2019,55(10):161-168. 被引量：13
7吴辰文,刘晓光,魏立鑫.结合蝙蝠算法改进的密度峰值聚类算法[J].西北大学学报（自然科学版）,2019,49(4):597-604. 被引量：2
8孙绵,侯再恩,韩肖赟.基于多密度峰值的CFSFDP算法改进[J].计算机应用与软件,2019,36(8):235-240.
9康旭超,何广军,陈峰,何其芳.密集杂波下的模糊数据关联多目标跟踪算法[J].探测与控制学报,2019,41(4):56-61. 被引量：8
10牛少章,欧毓毅,凌捷,顾国生.利用区域划分的多密度快速聚类算法[J].计算机工程与应用,2019,55(18):61-66. 被引量：2

同被引文献59

1李智冈,吕莉,谭德坤,康平,樊棠怀.基于加权核密度估计与微簇合并的密度峰值聚类算法[J].信息与控制,2024,53(3):302-314. 被引量：1
2冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：15
3公茂果,焦李成,马文萍,张向荣.基于流形距离的人工免疫无监督分类与识别算法[J].自动化学报,2008,34(3):367-375. 被引量：31
4杨光,曾宪阳,叶圣权,穆小茜,于兰.乳腺浸润性导管癌组织中Sox2的表达与临床病理因素及预后的相关性研究[J].武警医学,2012,23(6):502-504. 被引量：4
5吕赤,张忻平,李瑾,张成,蒋会勇,张雪峰.乳腺导管/小叶混合型癌的临床病理分析[J].中华乳腺病杂志（电子版）,2013,7(5):32-35. 被引量：3
6申辉,罗赤苗.CD44与乳腺癌的相关研究进展[J].内江科技,2015,36(12):115-117. 被引量：3
7谢娟英,高红超,谢维信.K近邻优化的密度峰值快速搜索聚类算法[J].中国科学：信息科学,2016,46(2):258-280. 被引量：106
8彭长根,丁红发,朱义杰,田有亮,符祖峰.隐私保护的信息熵模型及其度量方法[J].软件学报,2016,27(8):1891-1903. 被引量：59
9余思琴,闫秋艳,闫欣鸣.基于最佳u-shapelets的时间序列聚类算法[J].计算机应用,2017,37(8):2349-2356. 被引量：6
10王在乾,向敏,高盼.基于时间序列分析的电力负荷数据预处理方法[J].科技创新与应用,2018,8(7):94-95. 被引量：2

引证文献12

1路太宇,李晓会,张馨予,吕维新,邓倩.社交网络中一种基于偏好的隐私度量方法研究[J].辽宁工业大学学报（自然科学版）,2022,42(6):393-398.
2杨鸿潭.基于伪标签增强的多视角模糊聚类[J].信息与电脑,2023,35(8):120-123.
3盛锦超,杜明晶,孙嘉睿,李宇蕊.面向Shapelet空间的多变量时间序列密度聚类算法[J].计算机科学与探索,2024,18(2):387-402. 被引量：3
4史曼曼,宋朝炀,张景祥.融合优化可调Q因子小波变换的改进密度峰值聚类算法[J].计算机应用研究,2024,41(2):466-472. 被引量：1
5吕莉,陈威,肖人彬,韩龙哲,谭德坤.面向密度分布不均数据的加权逆近邻密度峰值聚类算法[J].智能系统学报,2024,19(1):165-175.
6王旭,陈东升.基于多维时间序列的预处理方法[J].科技与创新,2024(8):121-123.
7朱鸿祥,吴根秀,王兆辉.基于共享邻近度和概率分配的密度峰值聚类算法[J].计算机工程与应用,2024,60(12):74-90. 被引量：1
8赵雅楠,尹娜,司志好,尚文婧,冯振兴.乳腺癌空间转录组数据集上基于深度学习的EnST算法研究[J].内蒙古工业大学学报（自然科学版）,2024,43(3):200-205.
9赵志忠,陈素根.基于相互K近邻的密度峰值聚类算法[J].安庆师范大学学报（自然科学版）,2024,30(2):41-46. 被引量：1
10赵嘉,马清,陈蔚昌,肖人彬,崔志华,潘正祥.面向流形数据的加权自然近邻密度峰值聚类算法[J].兰州大学学报（自然科学版）,2024,60(5):652-660.

二级引证文献6

1邵兴华.数据挖掘技术在医院图书馆服务优化中的应用[J].无线互联科技,2024,21(8):46-49.
2王帅,尹川,孙昱,王坚.融合GNSS和加速度计的超高层建筑动态形变分析[J].测绘通报,2024(8):66-72.
3刘华琳,许童童,李泽琦,陈浩,王潇.基于时间序列优化估计算法的散货码头船舶停留轨迹规划方法[J].中国港湾建设,2024,44(11):25-30.
4胡文琪,李永博,王晓彤,孟路稳.面向簇间密度不均匀数据的密度峰值聚类优化算法[J].统计与决策,2025,41(4):51-56.
5陈金鹏.混合式教学下学生成绩的改进密度峰值聚类分析研究[J].计算机应用文摘,2025,41(5):19-21.
6陈亚颐,尹权,再开日亚·安尼娃尔,张乐.跨系统的流动性多源异构数据整合算法仿真[J].计算机仿真,2025,42(1):410-414.

1李沛武,张永芳,黄逸翠,刘紫亮,居翔.基于双重密度和簇间近邻度的密度峰值聚类算法[J].南昌工程学院学报,2022,41(4):29-36. 被引量：3
2李帅军,吕佳.结合合成实例与adaboostENN密度峰值自训练算法[J].重庆师范大学学报（自然科学版）,2022,39(4):105-113. 被引量：1
3刘涛,宋涛,欧迎春,施富强.基于DBSCAN算法的目标聚类分选技术研究[J].科技风,2022(22):65-67. 被引量：3
4吕奕,刘漫丹.基于改进密度峰值聚类算法的轨迹行为分析[J].计算机工程与应用,2022,58(17):314-324. 被引量：3
5杨爽爽,石鸿雁.基于改进果蝇优化的密度峰值聚类算法[J].微电子学与计算机,2022,39(9):26-34. 被引量：2
6任艳,徐春,张蕾,汪晓洁.基于改进密度峰值聚类的异常流量检测[J].济南大学学报（自然科学版）,2022,36(5):597-602. 被引量：2
7孙叶芳,张月义,茅婷,周慧.一种基于改进NISD的偏二叉树马田系统的数据多分类算法[J].统计与决策,2022(16):22-26. 被引量：3
8徐善亮,吕佳.基尼指数结合K均值聚类的协同训练算法[J].重庆师范大学学报（自然科学版）,2022,39(4):134-140. 被引量：1
9杨姗,江慎铭.离散小波系统的加权密度[J].理论数学,2022,12(8):1296-1304.
10龚荣,谢宁新,李德伦,何雪东.基于邻域粗糙集和海洋捕食者算法的特征选择方法[J].微电子学与计算机,2022,39(9):35-45. 被引量：1

计算机科学与探索

2022年第9期

浏览历史

内容加载中请稍等...

加权K近邻和多簇合并的密度峰值聚类算法被引量：12

参考文献6

二级参考文献22

共引文献100

同被引文献59

引证文献12

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

加权K近邻和多簇合并的密度峰值聚类算法 被引量：12

参考文献6

二级参考文献22

共引文献100

同被引文献59

引证文献12

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

加权K近邻和多簇合并的密度峰值聚类算法被引量：12