-
题名改进的k最邻近算法在海量数据挖掘中的应用
被引量:13
- 1
-
-
作者
黄文秀
唐超尘
神显豪
周术诚
-
机构
福州工商学院工学院
西安电子科技大学通信工程学院
桂林理工大学广西嵌入式技术与智能系统重点实验室
福建农林大学计算机与信息学院
-
出处
《济南大学学报(自然科学版)》
CAS
北大核心
2021年第1期24-28,共5页
-
基金
国家自然科学基金项目(61741303)
广西重点研发计划项目(2017AC05027)
+3 种基金
广西自然科学基金项目(2018GXNSFAA294061)
广西嵌入式技术与智能系统重点实验室项目(2017-2-5)
福建省中青年教师教育科研项目(JT180867)
福建省本科高校教育教学改革研究项目(FBJG20190171)。
-
文摘
为了提高数据挖掘的效率与准确性,将k最邻近算法与样本均衡策略相结合,在海量数据挖掘中进行应用;首先对样本集文本进行分析,找出样本领域的密集分布区域,对样本密集区域进行有效裁剪优化,实现样本分布均衡,然后对经过样本均衡处理的数据样本执行传统k最邻近算法,根据权重获得分类结果,最后对不同k值的k最邻近算法进行实例仿真。结果表明,在相同的数据样本环境中,相比于其他分类算法,采用改进的k最邻近算法的分类准确度和分类效率更高。
-
关键词
数据挖掘
样本优化
k最邻近算法
样本均衡
邻域密集区域
-
Keywords
data mining
sample optimization
k-nearest neighbor algorithm
sample balance
neighborhood dense area
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-