基于轮廓系数的聚类有效性分析被引量：123

Clustering validity analysis based on silhouette coefficient

在线阅读下载PDF

导出

摘要针对聚类结果进行有效性研究的方法有多种。通过对多种不同聚类有效性分析方法的比较,提出了一种新的基于轮廓系数的聚类有效性分析方法,并将其应用于K-m eans算法的评测中。与其他有效性分析方法相比,该方法可以更好实现对于聚类效果的判断,在标准数据集上的实验结果有效地验证了这点。并进一步将此有效性分析方法应用于文本聚类。 Several methods were used to study the validity of clustering result.According to the comparison of many different methods,a novel method called silhouette coefficient was proposed in this paper and was applied to evaluate the K-means algorithm.This method could achieve the better judgement for the clustering effect than the others.Finally,the extensive experiments performed on standard dataset verify the effectiveness of the proposed method.

作者朱连江马炳先赵学泉

机构地区济南大学信息科学与工程学院联通系统集成有限公司山东省分公司

出处《计算机应用》 CSCD 北大核心 2010年第12期139-141,198,共4页 journal of Computer Applications

基金国家自然科学基金资助项目(60903099)

关键词聚类 K均值算法轮廓系数有效性分析无监督 clustering K-means algorithm silhouette coefficient validity analysis unsupervised

分类号 TP391.72 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1BEZDEK J C. Pattern recognition with fuzzy objective function algorithms [ M]. New York: Plenum Press, 1981.
2HAND D, MANNILA H, SMYTH P. Principles of data mining [ M]. Cambridge: MIT Press, 2001.
3TAN PANG-NING, STEINBACH M, KUMAR V. Introduction to data mining [M]. Boston, MA: Addison-Wesley, 2006.
4CHEN DUO, LI XUE. An adaptive cluster validity index for the fuzzy C-means [ J]. International Journal of Computer Science and Network Security, 2007, 7(2) : 146 - 156.
5KAUFMAN L, ROUSSEEUW P J. Finding groups in data: an introduction to cluster analysis [ M]. New York: John Wiley & Sons, 1990.
6UCI Machine Leaming Repository [ EB/OL]. [ 2010 -02 -25]. http://www, isc. uci. edu/- mlearrc/MLRepository, html.
7姚清耘,刘功申,李翔.基于向量空间模型的文本聚类算法[J].计算机工程,2008,34(18):39-41. 被引量：50
8彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：45
9刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37

二级参考文献28

1赵军,金千里,徐波.面向文本检索的语义计算[J].计算机学报,2005,28(12):2068-2078. 被引量：28
2董振东董强.[EB/OL].知网.http://www.keenage.com,.
3C. C. Aggrawal, P. S. Yu. Finding generalized projected clustersin high dimensional spaces. The SIGMOD'00, Dallas, 2000.
4M. Dash, H. Liu. Feature selection for clustering. The PAKDD-00, Kyoto, 2000.
5F. Sebastiani. Machine learning in automated text categorization.ACM Computin Surveys, 2002, 34(1): 1--47.
6Y. Yang, J. O. Pedersen. A comparative study on featureselection in text categorization. The ICML97, Nashville, 1997.
7M. Rogati, Y. Yang. High performance feature selection for text categorization. The CIKM-02, Mclean, 2002.
8L. Tao, L. Shengping, C. Zheng, et al.An evaluation on feature selection for text clustering. The ICML03, Washington,2003.
9王永成.中文信息处理技术及其基础[M].上海:上海交通大学出版社,1990..
10Pelleg D,Moore A.X-means:Extending K-means with efficient estimation of the number of clusters//Proceedings of the 17th International Conference on Machine Learning (ICML).Palo Alto,2000:727-734

共引文献124

1况夯,罗军.基于遗传FCM算法的文本聚类[J].计算机应用,2009,29(2):558-560. 被引量：5
2李霞,蒋盛益,郭艾侠.基于聚类和信息熵的特征选择算法[J].郑州大学学报（理学版）,2009,41(1):77-80. 被引量：4
3高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
4陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
5严莉莉,张燕平.基于类信息的文本聚类中特征选择算法[J].计算机工程与应用,2007,43(12):144-146. 被引量：7
6赵鹏,耿焕同,蔡庆生.一种基于语义和统计特征的中文文本特征表示方法[J].小型微型计算机系统,2007,28(7):1311-1313. 被引量：8
7何中市,徐浙君.一种新型的文本无监督特征选择方法[J].重庆大学学报（自然科学版）,2007,30(6):77-79. 被引量：2
8胡金柱,俞小娟,李琼,周毕吉.基于规则库和聚类分析的复句短语字段的自动识别研究[J].华中师范大学学报（自然科学版）,2008,42(2):190-194. 被引量：9
9康健辉,吴渝,郑继明.基于向量空间模型的改进音频分类算法[J].河南师范大学学报（自然科学版）,2008,36(6):30-33.
10王伟.文本自动聚类技术研究[J].情报杂志,2009,28(2):94-97. 被引量：6

同被引文献1261

1张智韬,陈钦达,黄小鱼,宋志双,张珺锐,台翔.基于加权算法的空-天遥感升尺度土壤含盐量监测模型[J].农业机械学报,2022,53(9):226-238. 被引量：9
2张庸,张艳莹.精细化运营分析系统构建IPTV精细化运营体系[J].数字传媒研究,2022,39(2):76-80. 被引量：1
3陈剑,程明.基于tSNE-ASC特征选择和DSmT融合决策的滚动轴承声振信号故障诊断[J].电子测量与仪器学报,2022,36(4):195-204. 被引量：9
4陈振宇,刘金波,李晨,季晓慧,李大鹏,黄运豪,狄方春,高兴宇,徐立中.基于LSTM与XGBoost组合模型的超短期电力负荷预测[J].电网技术,2020,44(2):614-620. 被引量：238
5汪鸿,朱正甲,陈建华,赵冬雪,黄天啸.基于人工智能技术与物理方法结合的新能源功率预测研究[J].高电压技术,2023,49(S01):111-117. 被引量：16
6马新.原始聚落与公共权力的生成[J].山东大学学报（哲学社会科学版）,2008(3):91-99. 被引量：5
7翟盘茂,潘晓华.中国北方近50年温度和降水极端事件变化[J].地理学报,2003,58(z1):1-10. 被引量：884
8邓依萍,刘涛.新疆节水农业区划及分区对策研究[J].节水灌溉,2008(10):8-11. 被引量：18
9郭景峰,赵玉艳,边伟峰,李晶.基于改进的凝聚性和分离性的层次聚类算法[J].计算机研究与发展,2008,45(z1):202-206. 被引量：15
10施雅风,赵井东.40～30kaBP中国特殊暖湿气候与环境的发现与研究过程的回顾[J].冰川冻土,2009,31(1):1-10. 被引量：28

引证文献123

1陈剑,程明.基于tSNE-ASC特征选择和DSmT融合决策的滚动轴承声振信号故障诊断[J].电子测量与仪器学报,2022,36(4):195-204. 被引量：9
2吴勇,李仁发,刘钰峰.基于Ant-Tree算法的短文本聚类研究[J].软件,2011,32(4):84-86.
3吴勇,徐峰.一种适用于短消息文本的聚类算法[J].计算机与现代化,2012(2):31-34.
4曹永春,邵亚斌,田双亮,蔡正琦.一种基于分组遗传算法的聚类新方法[J].西华大学学报（自然科学版）,2013,32(1):39-43. 被引量：7
5张靖,段富.优化初始聚类中心的改进k-means算法[J].计算机工程与设计,2013,34(5):1691-1694. 被引量：56
6曹永春,邵亚斌,田双亮,蔡正琦.一种基于免疫遗传算法的聚类方法[J].广西师范大学学报（自然科学版）,2013,31(3):59-64. 被引量：3
7曹永春,蔡正琦,邵亚斌.基于K-means的改进人工蜂群聚类算法[J].计算机应用,2014,34(1):204-207. 被引量：41
8文炯.应用多层次聚类方法挖掘图书馆微博数据[J].中华医学图书情报杂志,2014,23(4):46-49. 被引量：3
9叶玲,彭皓月,高怡,吴咏梅,蒙明波,肖洋洋.基于客户能量使用大数据的能效评价体系构建[J].电力大数据,2019,22(1):41-47. 被引量：5
10许裕栗,张静,李柠,甘中学.基于数据挖掘的锅炉在线运行状态监测[J].热能动力工程,2019,34(2):82-87. 被引量：18

二级引证文献819

1周胜,龚鸣敏,田福庆.基于传播行为的微博用户联合谱聚类方法研究[J].中国网络传播研究,2018(2).
2程宇.基于数据挖掘的通信业务使用行为分析方法研究与设计[J].中国水运（下半月）,2021,21(7):39-41. 被引量：1
3杨敬岩.基于“互联网+”的交通运输经济发展[J].运输经理世界,2022(35):59-61. 被引量：1
4马海燕,冯娉婷.精准施策是初中提质强校的关键——基于大数据的初中学校聚类分析及改进建议[J].上海教育科研,2021(5):11-17. 被引量：3
5姜婷婷,权明喆,黄杰.国内用户体验设计人才需求研究——基于招聘信息的分析[J].工业设计研究,2019(1):55-64. 被引量：1
6吴运明,王令村,魏子栋,郭顺利.基于Canopy-Kmeans的移动商务用户需求聚合挖掘及分析研究[J].情报科学,2022,40(10):97-106. 被引量：4
7冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：15
8唐燕雯.基于聚类算法的农用无人机远程监控系统研究[J].农机化研究,2020,42(9):222-227. 被引量：1
9李东宾,翟登辉,张彦龙,张旭,刘睿丹.基于YOLOv4和聚类分析的变电站压板识别方法[J].河南电力,2022(S01):30-33. 被引量：2
10董锐辉,任向红.基于可拓学的军事训练质量评估研究[J].军事交通学报,2022(9):48-51.

1何莹,秦亮曦.基于PCA的H-K聚类算法研究[J].微计算机信息,2012,28(6):163-165. 被引量：3
2葛亮,郎江涛,唐黄,唐允恒.面向高维数据的PCA-Hubness聚类方法[J].现代计算机（中旬刊）,2017(4):52-55. 被引量：1
3安计勇,闫子骥,翟靖轩.基于距离阈值及样本加权的K-means聚类算法[J].微电子学与计算机,2015,32(8):135-138. 被引量：8
4李双虎,张风海.一个新的聚类有效性分析指标[J].计算机工程与设计,2007,28(8):1772-1774. 被引量：14
5章国宝,宋清华,费树岷,赵艳.语音情感识别研究[J].计算机技术与发展,2009,19(1):92-96. 被引量：7
6夏士雄,李文超,周勇,张磊,牛强.Improved k-means clustering algorithm[J].Journal of Southeast University(English Edition),2007,23(3):435-438. 被引量：16
7张旭,郭晨.基于克隆选择的快速动态聚类算法[J].计算机工程,2007,33(23):16-18. 被引量：2
8安计勇,韩海英,侯效礼.一种改进的DBscan聚类算法[J].微电子学与计算机,2015,32(7):68-71. 被引量：13
9张靖,段富.优化初始聚类中心的改进k-means算法[J].计算机工程与设计,2013,34(5):1691-1694. 被引量：56
10张士豪,顾益军,张俊豪.微博自动分类系统设计[J].信息网络安全,2016(1):81-87. 被引量：5

计算机应用

2010年第12期

浏览历史

内容加载中请稍等...

基于轮廓系数的聚类有效性分析被引量：123

参考文献9

二级参考文献28

共引文献124

同被引文献1261

引证文献123

二级引证文献819

相关作者

相关机构

相关主题

浏览历史

基于轮廓系数的聚类有效性分析 被引量：123

参考文献9

二级参考文献28

共引文献124

同被引文献1261

引证文献123

二级引证文献819

相关作者

相关机构

相关主题

浏览历史

基于轮廓系数的聚类有效性分析被引量：123