密度峰值聚类算法综述被引量：53

Survey on Density Peak Clustering Algorithm

在线阅读下载PDF

导出

摘要密度峰值聚类(density peak,DPeak)算法是一种简单有效的聚类算法,它可将任意维度数据映射成2维,在降维后的空间中建构出数据之间的层次关系,可以非常容易地从中挑选出密度高、且与其他密度更高区域相隔较远的数据点.这些点被称为密度峰值点,可以用来作为聚类中心.根据建构好的层次关系,该算法提供了2种不同的方式完成最后聚类:一种是与用户交互的决策图,另一种是自动化方式.跟踪了DPeak近年来的发展与应用动态,对该算法的各种改进或变种从以下3方面进行了总结和梳理:首先,介绍了DPeak算法原理,对其在聚类算法分类体系中的位置进行了讨论.将其与5个主要的聚类算法做了比较之后,发现DPeak与均值漂移聚类算法(mean shift)有诸多相似之处,因而认为其可能为mean shift的一个特殊变种.其次,讨论了DPeak的几个不足之处,如复杂度较高、自适应性不足、精度低和高维数据适用性差等,将针对这些缺点进行改进的相关算法做了分类讨论.此外,梳理了DPeak算法在不同领域中的应用,如自然语言处理、生物医学应用、光学应用等.最后,探讨了密度峰值聚类算法所存在的问题及挑战,同时对进一步的工作进行展望. DPeak(density peak)is a simple but effective clustering method.It is able to map data with arbitrary dimension onto a2-dimensional space,and construct hierarchical relationship for all data points on the new reduction space.This makes it is easy to pick up some distinguished points(density peaks),each of which has high density and large distance from other regions of higher density.In addition,based on regarding theses density peaks as cluster centers and the hierarchical relationship,the algorithm provides two different ways to perform the final task of clustering,i.e.,one is decision diagram that can interact with users,and the other is an automatic method.In this paper,we trace the development and application trends of DPeak in recent years,summarize and comb various improvements or variations of DPeak algorithm from the following aspects.Firstly,the principle of DPeak algorithm is introduced,and its position in the classification system of clustering algorithm is discussed as well.After comparing DPeak with several other main clustering algorithms,it is found that DPeak is highly similar to mean shift,and hence,we think that DPeak may be a special variant of mean shift.Secondly,some shortcomings of DPeak are discussed,such as high time complexity,lack of adaptability,low precision and inefficiency in high dimensional space etc.,and then various improved algorithms are demonstrated in different categories.In addition,some applications of DPeak in different fields,such as natural language processing,biomedical analysis and optical applications etc.,are presented and combed.Last but not least,we look forward to its future work based on the problems and challenges of the DPeak.

作者陈叶旺申莲莲钟才明王田陈谊杜吉祥 Chen Yewang;Shen Lianlian;Zhong Caiming;Wang Tian;Chen Yi;Du Jixiang(College of Computer Science and Technology,Huaqiao University,Xiamen,Fujian 361021;Beijing Key Laboratory of Big Data Technology for Food Safety(Beijing Technology and Business University),Beijing 100048;Provincial Key Laboratory for Computer Information Processing Technology(Soochow University),Suzhou,Jiangsu 215006;Fujian Key Laboratory of Big Data Intelligence and Security(Huaqiao University),Xiamen,Fujian 361021;College of Information,Ningbo University,Ningbo,Zhejiang 315211)

机构地区华侨大学计算机科学与技术学院食品安全大数据技术北京市重点实验室(北京工商大学) 江苏省计算机信息处理技术重点实验室(苏州大学) 福建省大数据智能与安全重点实验室(华侨大学) 宁波大学信息学院

出处《计算机研究与发展》 EI CSCD 北大核心 2020年第2期378-394,共17页 Journal of Computer Research and Development

基金国家自然科学基金项目(61673186,71771094,61876068,61972010) 泉州市高层次人才创新创业项目(2018C114R,2018C110R) 福建省科技计划项目(2017H01010065,2019H01010129)~~

关键词聚类算法密度峰值大数据数据挖掘密度聚类 clustering algorithm density peak big data data mining density clustering

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1张远鹏,邓赵红,钟富礼,杭文龙,王士同.基于代表点评分策略的快速自适应聚类算法[J].计算机研究与发展,2018,55(1):163-178. 被引量：5
2巩树凤,张岩峰.EDDPC:一种高效的分布式密度中心聚类算法[J].计算机研究与发展,2016,53(6):1400-1409. 被引量：17
3Ziling Pang,Guoyin Wang,Jie Yang.A Multi-granularity Decomposition Mechanism of Complex Tasks Based on Density Peaks[J].Big Data Mining and Analytics,2018,1(3):245-256. 被引量：3

二级参考文献20

1Xu Rui, Wunsch D II. Survey of clustering algorithms [J]. IEEE Trans on Neural Networks, 2005, 16(3): 645-678.
2Kaufman L, Peter R. Clustering by Means of Medoids [G] // Statistical Data Analysis Based on the IA Norm and Related Methods. North-Holland: North-Holland Press, 1987: 405- 416.
3MacQueen J. Some methods for classification and analysis of multivariate observations[C] //Proc of the 5th Berkeley Symp on Mathematical Statistics and Probability. Berkeley, CA: University of California Press, 1967 281-297.
4Zhang W, Wang X, Zhao D, et al. Graph Degree Linkage: Agglomerative Clustering on a Directed Graph [M] . Berlin: Springer, 2012:428-441.
5Ester M, Kriegel H P, Sander J, et al. A density based algorithm for discovering clusters in large spatial databases with noise [C] //Proc of ACM KDD'96. New York: ACM, 1996:226-231.
6Wang W, Jiong Y, Muntz R. STING: A statistical information grid approach to spatial data mining [C]//Proc of VLDB'97. San Francisco, CA: Morgan Kau{mann, 1997: 186-195.
7Alex R, Alessandro L. Clustering by fast search and find of density peaks [J]. Science, 2014, 344(1492) :1492-1496.
8Jeffrey D, Sanay G. MapReduce.. Simplified data processing on large clusters [J]. Communications of the ACM, 2004, 51(1) : 107-113.
9Akdogan A, Demiryurek U, Banael Kashani F, et al. Voronoi-based geospatial query processing with MapReduee [C]//Proc of CloudCom '10. Piscataway, NJ: IEEE, 2010: 9-16.
10Lu Wei, Shen Yanyan, Chen Su, etc. Efficient processing of k nearest neighbor joins using MapReduce [J]. VLDB Endowment, 2012, 5(10)= 1016-1027.

共引文献22

1何云斌,王霄,万静,李松.障碍空间中基于密度的不确定数据聚类算法[J].小型微型计算机系统,2017,38(12):2772-2776. 被引量：3
2杨媛,马旭,陈琛.一种多层次分布式网络数据挖掘方法的改进[J].科学技术与工程,2018,18(1):298-303. 被引量：4
3侯莉莎.大数据集合中冗余特征排除的聚类算法设计[J].现代电子技术,2018,41(14):48-50. 被引量：9
4卢晶,段勇,刘海波.基于z值的分布式密度峰值聚类算法[J].电子学报,2018,46(3):730-738. 被引量：6
5徐晓,丁世飞,孙统风,廖红梅.基于网格筛选的大规模密度峰值聚类算法[J].计算机研究与发展,2018,55(11):2419-2429. 被引量：25
6纪霞,张涛,朱建磊,刘诗诚,李学俊.近邻密度分布优化样本分配的改进DPC聚类算法[J].华南理工大学学报（自然科学版）,2019,47(2):98-105. 被引量：3
7秦军,张远鹏,蒋亦樟,杭文龙.多代表点自约束的模糊迁移聚类[J].山东大学学报（工学版）,2019,49(2):107-115. 被引量：1
8彭密,赵恒.一种领域自适应的Web服务分类方法[J].计算机与数字工程,2019,47(5):1189-1193.
9何仝,徐蔚鸿,马红华,曾水玲.一种基于密度峰值的高效分布式聚类算法[J].计算技术与自动化,2019,38(2):64-71. 被引量：4
10张雄涛,胡文军,王士同.一种基于模糊划分和模糊加权的集成深度信念网络[J].智能系统学报,2019,14(5):905-914. 被引量：1

同被引文献430

1林燕霞,谢湘生,张德鹏.复杂交互行为影响下的网络舆情演化分析[J].中国管理科学,2020,0(1):212-221. 被引量：31
2冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：15
3张霖宙,赵锁奇,史权,徐春明.石油分子表征与分子层次模型构建:前沿及挑战[J].中国科学：化学,2020,50(2):192-203. 被引量：16
4宋军英,崔益伟,李欣然,钟伟,邹鑫,李培强.基于欧氏动态时间弯曲距离与熵权法的负荷曲线聚类方法[J].电力系统自动化,2020(15):87-98. 被引量：36
5蒲天骄,乔骥,韩笑,张国宾,王新迎.人工智能技术在电力设备运维检修中的研究及应用[J].高电压技术,2020,46(2):369-383. 被引量：237
6单梁,强浩,李军,王执铨.基于Tent映射的混沌优化算法[J].控制与决策,2005,20(2):179-182. 被引量：210
7杨力俊,郭联哲,谭忠富.几种发电商市场力评估指标的对比分析[J].电网技术,2005,29(2):28-33. 被引量：29
8张喜铭,姚建刚,李立颖,余虎,谷林峰.基于效用分析方法的发电企业最优报价策略[J].电力系统自动化,2005,29(7):12-16. 被引量：19
9任常兴,吴宗之,刘茂.城市公共场所人群拥挤踩踏事故分析[J].中国安全科学学报,2005,15(12):102-106. 被引量：86
10曹可劲,赵宗贵,江汉.不确定性证据聚类问题讨论[J].信息与控制,2006,35(1):55-58. 被引量：3

引证文献53

1王舰.基于高斯核优化的密度峰值聚类算法[J].电脑知识与技术,2020,16(28):192-194. 被引量：1
2吕佳,鲜焱.结合改进密度峰值聚类和共享子空间的协同训练算法[J].计算机应用,2021,41(3):686-693. 被引量：1
3李慧芳,钟新成,付晓丽.基于密度峰值聚类的大学生异常行为检测研究[J].电脑与电信,2021(3):26-29. 被引量：1
4李潇岩,卢宝松.聚类算法下的饲料粉碎机性能优化研究[J].农机化研究,2021,43(12):42-45.
5张亦弛,吕明明,关涛,王佳俊,余佳,任炳昱.基于改进自回归流模型的坝基三维裂隙网络多参数模拟[J].水利学报,2021,52(5):565-577. 被引量：3
6吴辰文,马宁,蒋雨璠.基于Jeffrey散度相似性度量的加权FCM聚类算法[J].激光与光电子学进展,2021,58(8):96-105. 被引量：4
7王大刚,丁世飞,钟锦.基于二阶k近邻的密度峰值聚类算法研究[J].计算机科学与探索,2021,15(8):1490-1500. 被引量：7
8龚旭,吕佳.基于加权主成分分析和改进密度峰值聚类的协同训练算法[J].重庆师范大学学报（自然科学版）,2021,38(4):87-96. 被引量：4
9徐华杰.K-means聚类在A保险公司客户细分模型中的研究[J].网络安全技术与应用,2021(9):39-41. 被引量：2
10刘娟,万静.自然反向最近邻优化的密度峰值聚类算法[J].计算机科学与探索,2021,15(10):1888-1899. 被引量：11

二级引证文献212

1李智冈,吕莉,谭德坤,康平,樊棠怀.基于加权核密度估计与微簇合并的密度峰值聚类算法[J].信息与控制,2024,53(3):302-314. 被引量：1
2陈金山.基于密度峰值的电子商务用户行为数据聚类方法[J].哈尔滨师范大学自然科学学报,2023,39(4):65-69.
3师伟展,覃剑,李芳.中心护栏对弯道行人流的影响研究[J].科学技术创新,2021(34):151-153.
4吕佳,傅屈寒.基于改进主动学习和自训练的联合算法[J].北京师范大学学报（自然科学版）,2022,58(1):25-32. 被引量：1
5苑明海,周凯文,张晨希,裴凤雀.基于改进Kalman滤波的智慧社区居民定位[J].计算机系统应用,2022,31(6):265-270.
6季伟东,倪婉璐.一种基于欧氏距离的种群规模动态控制方法[J].电子与信息学报,2022,44(6):2195-2206. 被引量：11
7张凌浩,潘文分,庞博,吴凯军,张颉.适用于电力场景的人工智能中台技术研究与探索[J].四川电力技术,2022,45(3):16-22. 被引量：4
8Meiying You,Tianqi Wang,Miaomiao Wang,Wei Jiang,Jing Jiang,Xudong Li,Yuehua Hu,Dapeng Yin.Identifying the Optimal Age for Herpes Zoster Vaccination—Yichang City,Hubei Province,China,2017–2019[J].China CDC weekly,2022,4(29):631-634. 被引量：4
9赵力衡,王建,陈虹君.去中心化加权簇归并的密度峰值聚类算法[J].计算机科学与探索,2022,16(8):1910-1922. 被引量：4
10李沛武,张永芳,黄逸翠,刘紫亮,居翔.基于双重密度和簇间近邻度的密度峰值聚类算法[J].南昌工程学院学报,2022,41(4):29-36. 被引量：3

1孙明喆,毕瑶家,孙驰.改进随机森林算法综述[J].现代信息科技,2019,3(20):28-30. 被引量：10
2傅杰,徐常胜.关于单目标跟踪方法的研究综述[J].南京信息工程大学学报（自然科学版）,2019,11(6):638-650. 被引量：5
3高冬梅.基于VO图像分解模型的多聚焦图像融合[J].现代计算机,2019,0(31):33-37.
4邢孟道,林浩,陈溅来,孙光才,严棒棒.多平台合成孔径雷达成像算法综述[J].雷达学报（中英文）,2019,8(6):732-757. 被引量：30
5李玺,查宇飞,张天柱,崔振,左旺孟,侯志强,卢湖川,王菡子.深度学习的目标跟踪算法综述[J].中国图象图形学报,2019,24(12):2057-2080. 被引量：118
6毛义坪,余磊,官泽瑾.基于分数阶微分的多聚焦图像融合[J].计算机科学,2019,46(S11):315-319.
7耿建平,雷梦英.Mean Shift和粒子滤波实现红外人体跟踪算法综述[J].计算机工程与应用,2019,55(24):29-36. 被引量：4
8但鸿键,汪伟.基于高效视频编码的运动估计算法综述[J].计算机时代,2020,0(1):1-4. 被引量：1
9张丛丛,吴小娟,潘洪湘,刁东宇.基于SCD文件的智能变电站监控系统数据库自动生成方法设计与实现[J].电力设备管理,2020,0(2):135-137. 被引量：11
10邹建成,邓豪.一种基于卷积神经网络的人脸表情自动识别方法[J].北方工业大学学报,2019,31(5):51-56. 被引量：3

计算机研究与发展

2020年第2期

浏览历史

内容加载中请稍等...

密度峰值聚类算法综述被引量：53

参考文献3

二级参考文献20

共引文献22

同被引文献430

引证文献53

二级引证文献212

相关作者

相关机构

相关主题

浏览历史

密度峰值聚类算法综述 被引量：53

参考文献3

二级参考文献20

共引文献22

同被引文献430

引证文献53

二级引证文献212

相关作者

相关机构

相关主题

浏览历史

密度峰值聚类算法综述被引量：53