摘要
聚类是数据挖掘领域中的一个重要研究课题 .聚类技术在许多领域有着广泛的应用 .基于密度的聚类算法DBSCAN是一种有效的空间聚类算法 ,它能够发现任意形状的类并且有效地处理噪声 ,用户只需输入一个参数就可以进行聚类分析 .但是 ,DBSCAN算法在对大规模空间数据库进行聚类分析时需要较大的内存支持和 I/ O消耗 .本文在分析 DBSCAN算法不足的基础上 ,提出一种基于数据取样的 DBSCAN算法 ,使之能够有效地处理大规模空间数据库 .二维空间数据测试结果表明本文算法是可行、有效的 .
Clustering, a useful technique for data mining, has promising applicati on perspective in many fields, such as pattern recognition, image processing and data compression etc. DBSCAN is a density-based clustering algorithm that can d iscover clusters of arbitrary shape and effectively handle noise, and requires o nly one input parameter. However, while dealing with large-scale databases, DBS C AN requires a lot of memory and can incur high I/O overhead. In this paper, we p resent a sampling-based DBSCAN algorithm(SDBSCAN)for clustering large-scale da tabases. Experimental results demonstrate that our algorithm is feasible and eff ective.
出处
《小型微型计算机系统》
EI
CSCD
北大核心
2000年第12期1270-1274,共5页
Journal of Chinese Computer Systems
基金
国家自然科学基金!(项目编号 6 97430 0 1)
国家教委博士点基金的资助