期刊文献+
共找到121篇文章
< 1 2 7 >
每页显示 20 50 100
Scaling up Kernel Grower Clustering Method for Large Data Sets via Core-sets 被引量:2
1
作者 CHANG Liang DENG Xiao-Ming +1 位作者 ZHENG Sui-Wu WANG Yong-Qing 《自动化学报》 EI CSCD 北大核心 2008年第3期376-382,共7页
核栽培者是聚类最近 Camastra 和 Verri 建议的方法的一个新奇的核。它证明为各种各样的数据的好性能关于流行聚类的算法有利地设定并且比较。然而,方法的主要缺点是在处理大数据集合的弱可伸缩能力,它极大地限制它的应用程序。在这... 核栽培者是聚类最近 Camastra 和 Verri 建议的方法的一个新奇的核。它证明为各种各样的数据的好性能关于流行聚类的算法有利地设定并且比较。然而,方法的主要缺点是在处理大数据集合的弱可伸缩能力,它极大地限制它的应用程序。在这份报纸,我们用核心集合建议一个可伸缩起来的核栽培者方法,它是比为聚类的大数据的原来的方法显著地快的。同时,它能处理很大的数据集合。象合成数据集合一样的基准数据集合的数字实验显示出建议方法的效率。方法也被用于真实图象分割说明它的性能。 展开更多
关键词 大型数据集 图象分割 模式识别 磁心配置 核聚类
在线阅读 下载PDF
Clustering method based on data division and partition 被引量:1
2
作者 卢志茂 刘晨 +2 位作者 S.Massinanke 张春祥 王蕾 《Journal of Central South University》 SCIE EI CAS 2014年第1期213-222,共10页
Many classical clustering algorithms do good jobs on their prerequisite but do not scale well when being applied to deal with very large data sets(VLDS).In this work,a novel division and partition clustering method(DP... Many classical clustering algorithms do good jobs on their prerequisite but do not scale well when being applied to deal with very large data sets(VLDS).In this work,a novel division and partition clustering method(DP) was proposed to solve the problem.DP cut the source data set into data blocks,and extracted the eigenvector for each data block to form the local feature set.The local feature set was used in the second round of the characteristics polymerization process for the source data to find the global eigenvector.Ultimately according to the global eigenvector,the data set was assigned by criterion of minimum distance.The experimental results show that it is more robust than the conventional clusterings.Characteristics of not sensitive to data dimensions,distribution and number of nature clustering make it have a wide range of applications in clustering VLDS. 展开更多
关键词 clusterING DIVISION PARTITION very large data sets (VLDS)
在线阅读 下载PDF
MSHC:一种多阶段超图聚类算法
3
作者 张春英 王静 +2 位作者 刘璐 兰思武 张庆达 《深圳大学学报(理工版)》 北大核心 2025年第1期68-76,共9页
超图作为普通图的高维推广,能够更加灵活地反映节点间的高阶复杂关系.超图聚类旨在发现超图结构中复杂的高阶关联关系.针对目前超图聚类结果不稳定、容易陷入局部最优等问题,结合超图划分思想,提出一种多阶段超图聚类(multi-stage hyper... 超图作为普通图的高维推广,能够更加灵活地反映节点间的高阶复杂关系.超图聚类旨在发现超图结构中复杂的高阶关联关系.针对目前超图聚类结果不稳定、容易陷入局部最优等问题,结合超图划分思想,提出一种多阶段超图聚类(multi-stage hypergraph clustering,MSHC)算法,该算法将超图聚类过程分为超图约简、超图初始聚类以及优化迁移3个阶段.在超图约简阶段,提出一种不改变超图结构的快速约简方法,降低了后续算法的复杂度;提出基于集对分析理论的超图节点间相似性度量方法,并采用层次聚类方法对超图进行初始聚类,采用4种不同的类簇合并计算方法,增加聚类方案的多样性;将遗传算法应用于优化超图聚类方案的研究中,以此获得最优超图聚类方案.在3个不同规模的数据集上与4个经典的超图聚类方法进行对比实验,结果表明,MSHC算法在Songs_genres数据集和Papers_keywords数据集上超图模块度指数分别提高了0.0797和0.0777,在Movies_genres数据集上仅降低0.0060. 展开更多
关键词 数据处理 超图聚类 遗传算法 集对分析理论 超图约简 多阶段聚类 超图模块度
在线阅读 下载PDF
基于改进PSO-Means算法的大数据聚类处理方法 被引量:2
4
作者 蒋大锐 徐胜超 《吉林大学学报(信息科学版)》 CAS 2024年第3期430-437,共8页
针对大数据聚类处理存在不同类型数据聚类效果差、聚类耗时长的问题,提出了基于改进PSO-Means(Particle Swarm Optimization Means)算法的大数据聚类处理方法。该方法采用粒子群算法确定一次聚类过程中单位粒子的飞行时间和飞行方向,预... 针对大数据聚类处理存在不同类型数据聚类效果差、聚类耗时长的问题,提出了基于改进PSO-Means(Particle Swarm Optimization Means)算法的大数据聚类处理方法。该方法采用粒子群算法确定一次聚类过程中单位粒子的飞行时间和飞行方向,预先设定初始聚类中心的选择范围,并适当调整单位粒子的惯性权重,以消除粒子振荡造成的聚类缺陷,成功获取基于大规模数据的聚类中心。结合生成树算法,通过从样本偏差和质心偏度两个方面对PSO算法进行优化,并将优化后的聚类中心输入到k-means聚类算法中,实现大数据聚类处理。实验结果表明,改进的PSO-Means方法可以有效地聚类不同类型的数据,并且聚类耗时仅为0.3 s,验证了该方法具备较好的聚类性能和聚类效率。 展开更多
关键词 大规模数据 粒子群算法 寻优 K-MEANS聚类算法 数据聚类
在线阅读 下载PDF
基于数据驱动期望场景集序列的微电网鲁棒经济调度算法 被引量:1
5
作者 秦海杰 郑鹏远 +2 位作者 王雅琳 徐晓旭 支运婷 《现代电力》 北大核心 2024年第5期886-895,共10页
针对新能源和负荷功率的不确定性,提出基于数据驱动期望场景集序列的微电网鲁棒经济调度算法。通过聚类方法将大量历史场景数据进行聚类处理,形成聚类场景集序列,基于概率缩减为期望场景集序列。日前计划阶段,以任意场景可行作为约束条... 针对新能源和负荷功率的不确定性,提出基于数据驱动期望场景集序列的微电网鲁棒经济调度算法。通过聚类方法将大量历史场景数据进行聚类处理,形成聚类场景集序列,基于概率缩减为期望场景集序列。日前计划阶段,以任意场景可行作为约束条件,以期望场景所对应的微电网运行成本的概率加权指标作为目标函数,通过列约束生成算法对微电网经济调度问题进行求解。日内调度阶段,利用新能源和负荷的测量数据,基于日前计划调度结果对微电网进行再调度,通过对传统能源发电功率和电网交互功率调整进行惩罚,来追踪日前计划调度结果,优选出微电网设备最优出力,提高微电网经济性。仿真案例验证了该方法的有效性。 展开更多
关键词 微电网 数据驱动 聚类 期望场景 期望场景集 列约束生成算法 鲁棒经济调度
在线阅读 下载PDF
基于ICA改进ICEEMD的UDS重采样数学模型
6
作者 徐莎莎 胡靖 吕牡丹 《计算机仿真》 2024年第7期535-539,共5页
为了增强不平衡数据集处理效果,提出一种基于ICA改进ICEEMD的不平衡数据集重采样数学模型研究方法。分析不平衡数据集的分布特征,通过改进完备集成经验模态分解(ICEEMD)方法和独立分量分析(ICA)分解不平衡数据集,去除不平衡数据集中的... 为了增强不平衡数据集处理效果,提出一种基于ICA改进ICEEMD的不平衡数据集重采样数学模型研究方法。分析不平衡数据集的分布特征,通过改进完备集成经验模态分解(ICEEMD)方法和独立分量分析(ICA)分解不平衡数据集,去除不平衡数据集中的噪声。通过DP聚类算法和σ准则构建重采样数学模型,利用该模型自动判别不平衡数据集的聚类中心和离群点,同时对多数和少数类样本分析处理,确保样本相对均衡,最终完成不平衡数据集的重采样处理。经实验测试结果表明,所提模型的整体性能明显优于其它重采样模型,验证了其应用价值。 展开更多
关键词 不平衡数据集 重采样 数学模型构建 聚类算法
在线阅读 下载PDF
DATA PREORDERING IN GENERALIZED PAV ALGORITHM FOR MONOTONIC REGRESSION
7
作者 Oleg Burdakov Anders Grimvall Oleg Sysoev 《Journal of Computational Mathematics》 SCIE CSCD 2006年第6期771-790,共20页
Monotonic regression (MR) is a least distance problem with monotonicity constraints induced by a partiaily ordered data set of observations. In our recent publication [In Ser. Nonconvex Optimization and Its Applicat... Monotonic regression (MR) is a least distance problem with monotonicity constraints induced by a partiaily ordered data set of observations. In our recent publication [In Ser. Nonconvex Optimization and Its Applications, Springer-Verlag, (2006) 83, pp. 25-33], the Pool-Adjazent-Violators algorithm (PAV) was generalized from completely to partially ordered data sets (posets). The new algorithm, called CPAV, is characterized by the very low computational complexity, which is of second order in the number of observations. It treats the observations in a consecutive order, and it can follow any arbitrarily chosen topological order of the poset of observations. The CPAV algorithm produces a sufficiently accurate solution to the MR problem, but the accuracy depends on the chosen topological order. Here we prove that there exists a topological order for which the resulted CPAV solution is optimal. Furthermore, we present results of extensive numerical experiments, from which we draw conclusions about the most and the least preferable topological orders. 展开更多
关键词 Quadratic programming large scale optimization Least distance problem Monotonic regression Partially ordered data set Pool-adjacent-violators algorithm.
原文传递
半监督的仿射传播聚类 被引量:29
8
作者 王开军 李健 +1 位作者 张军英 涂重阳 《计算机工程》 CAS CSCD 北大核心 2007年第23期197-198,201,共3页
仿射传播聚类算法快速、有效,可以解决大数据集的聚类问题,但当数据的聚类结构比较松散时,聚类准确性不高。该文提出了半监督的仿射传播聚类算法,在迭代过程中嵌入了有效性指标以监督和引导算法向最优聚类结果的方向运行。实验结果表明... 仿射传播聚类算法快速、有效,可以解决大数据集的聚类问题,但当数据的聚类结构比较松散时,聚类准确性不高。该文提出了半监督的仿射传播聚类算法,在迭代过程中嵌入了有效性指标以监督和引导算法向最优聚类结果的方向运行。实验结果表明,该方法对于聚类结构比较紧密和松散的数据集,均可以给出较为准确的聚类结果。 展开更多
关键词 仿射传播聚类 半监督聚类 大数据集的聚类算法
在线阅读 下载PDF
FDBSCAN:一种快速 DBSCAN算法(英文) 被引量:42
9
作者 周水庚 周傲英 +2 位作者 金文 范晔 钱卫宁 《软件学报》 EI CSCD 北大核心 2000年第6期735-744,共10页
聚类分析是一门重要的技术 ,在数据挖掘、统计数据分析、模式匹配和图象处理等领域具有广泛的应用前景 .目前 ,人们已经提出了许多聚类算法 .其中 ,DBSCAN是一种性能优越的基于密度的空间聚类算法 .利用基于密度的聚类概念 ,用户只需输... 聚类分析是一门重要的技术 ,在数据挖掘、统计数据分析、模式匹配和图象处理等领域具有广泛的应用前景 .目前 ,人们已经提出了许多聚类算法 .其中 ,DBSCAN是一种性能优越的基于密度的空间聚类算法 .利用基于密度的聚类概念 ,用户只需输入一个参数 ,DBSCAN算法就能够发现任意形状的类 ,并可以有效地处理噪声 .文章提出了一种加快 DBSCAN算法的方法 .新算法以核心对象邻域中所有对象的代表对象为种子对象来扩展类 ,从而减少区域查询次数 ,降低 I/ O开销 .实验结果表明 ,FDBSCAN能够有效地对大规模数据库进行聚类 ,速度上数倍于 DBSCAN. 展开更多
关键词 大规模数据库 数据挖掘 聚类 快速DBSCAN算法 代表点
在线阅读 下载PDF
WEKA环境下基于模糊理论的聚类算法 被引量:15
10
作者 郑世明 苗壮 +1 位作者 宋自林 高志年 《解放军理工大学学报(自然科学版)》 EI 北大核心 2012年第1期22-26,共5页
因特网上的数据规模大、动态性强,通常发现的知识或规则很可能是不精确和不完备的。为了克服以上不足,引入模糊理论,通过寻找模糊相似上近似集进行合理聚类,在确定聚类数目的过程中,利用平均信息熵进行最佳聚类。同时将模糊聚类算法嵌入... 因特网上的数据规模大、动态性强,通常发现的知识或规则很可能是不精确和不完备的。为了克服以上不足,引入模糊理论,通过寻找模糊相似上近似集进行合理聚类,在确定聚类数目的过程中,利用平均信息熵进行最佳聚类。同时将模糊聚类算法嵌入WEKA平台,利用WEKA中的类和可视化功能,扩充了WEKA中的聚类算法。实验表明,算法对含有噪声的、分布不规则的大数据集具有很高的精度和收敛速度。 展开更多
关键词 模糊集 数据挖掘 模糊聚类 相似上近似 WEKA 聚类算法
在线阅读 下载PDF
基于改进的K-means算法的关联规则数据挖掘研究 被引量:37
11
作者 李珺 刘鹤 朱良宽 《小型微型计算机系统》 CSCD 北大核心 2021年第1期15-19,共5页
关联规则是数据挖掘中的概念,通过分析数据找到数据之间的关联.海量数据会产生大量冗余和相似的关联规则,影响用户对规则的理解和判断.本文采用鸢尾花数据集进行实验.建立三个检验指标,删除冗余关联规则;在进行K-means分析时利用规则产... 关联规则是数据挖掘中的概念,通过分析数据找到数据之间的关联.海量数据会产生大量冗余和相似的关联规则,影响用户对规则的理解和判断.本文采用鸢尾花数据集进行实验.建立三个检验指标,删除冗余关联规则;在进行K-means分析时利用规则产生的三角形迭代选择初始点,再将删除冗余后的规则进行聚类.实验证实本文方法将相似的关联规则归为一簇,能有效的帮助用户迅速找到有用的关联规则,有助于用户更好的对规则进行理解和分析,提高了聚类的效率. 展开更多
关键词 K-MEANS算法 关联规则 聚类算法 鸢尾花数据集
在线阅读 下载PDF
基于新的距离度量的K-Modes聚类算法 被引量:46
12
作者 梁吉业 白亮 曹付元 《计算机研究与发展》 EI CSCD 北大核心 2010年第10期1749-1755,共7页
传统的K-Modes聚类算法采用简单的0-1匹配差异方法来计算同一分类属性下两个属性值之间的距离,没有充分考虑其相似性.对此,基于粗糙集理论,提出了一种新的距离度量.该距离度量在度量同一分类属性下两个属性值之间的差异时,克服了简单0-... 传统的K-Modes聚类算法采用简单的0-1匹配差异方法来计算同一分类属性下两个属性值之间的距离,没有充分考虑其相似性.对此,基于粗糙集理论,提出了一种新的距离度量.该距离度量在度量同一分类属性下两个属性值之间的差异时,克服了简单0-1匹配差异法的不足,既考虑了它们本身的异同,又考虑了其他相关分类属性对它们的区分性.并将提出的距离度量应用于传统K-Modes聚类算法中.通过与基于其他距离度量的K-Modes聚类算法进行实验比较,结果表明新的距离度量是更加有效的. 展开更多
关键词 聚类算法 分类属性数据 粗糙集 粗糙隶属度 距离度量
在线阅读 下载PDF
基于最小包含球的大数据集快速谱聚类算法 被引量:16
13
作者 钱鹏江 王士同 +1 位作者 邓赵红 徐华 《电子学报》 EI CAS CSCD 北大核心 2010年第9期2035-2041,共7页
GRC(Graph-based Relaxed Clustering)是一种具有便捷性和自适应性的谱聚类算法,但对于大数据集,繁重的时间开销限制了其实用性.针对此不足,该文通过对GRC聚类指示向量进行约束并融合中心约束型最小包含球(Center-Constrained Minimal E... GRC(Graph-based Relaxed Clustering)是一种具有便捷性和自适应性的谱聚类算法,但对于大数据集,繁重的时间开销限制了其实用性.针对此不足,该文通过对GRC聚类指示向量进行约束并融合中心约束型最小包含球(Center-Constrained Minimal Enclosing Ball,CCMEB)理论提出了大数据集快速谱聚类算法CCMEB-CGRC.该算法继承GRC的便捷性和自适应性的同时又具有渐近线性时间复杂度的优点,从而较好地解决了大数据集快速有效谱聚类的问题.仿真实验的结果验证了该算法的有效性和快速性. 展开更多
关键词 谱聚类 大数据集 最小包含球 线性时间复杂度
在线阅读 下载PDF
基于数据取样的DBSCAN算法 被引量:27
14
作者 周水庚 范晔 周傲英 《小型微型计算机系统》 EI CSCD 北大核心 2000年第12期1270-1274,共5页
聚类是数据挖掘领域中的一个重要研究课题 .聚类技术在许多领域有着广泛的应用 .基于密度的聚类算法DBSCAN是一种有效的空间聚类算法 ,它能够发现任意形状的类并且有效地处理噪声 ,用户只需输入一个参数就可以进行聚类分析 .但是 ,DBSCA... 聚类是数据挖掘领域中的一个重要研究课题 .聚类技术在许多领域有着广泛的应用 .基于密度的聚类算法DBSCAN是一种有效的空间聚类算法 ,它能够发现任意形状的类并且有效地处理噪声 ,用户只需输入一个参数就可以进行聚类分析 .但是 ,DBSCAN算法在对大规模空间数据库进行聚类分析时需要较大的内存支持和 I/ O消耗 .本文在分析 DBSCAN算法不足的基础上 ,提出一种基于数据取样的 DBSCAN算法 ,使之能够有效地处理大规模空间数据库 .二维空间数据测试结果表明本文算法是可行、有效的 . 展开更多
关键词 空间数据库 数据挖掘 DBSCAN算法 数据取样
在线阅读 下载PDF
基于分治法的高维大数据集模糊聚类算法 被引量:5
15
作者 王宝文 阎俊梅 +1 位作者 刘文远 石岩 《计算机工程》 CAS CSCD 北大核心 2007年第24期60-62,共3页
将高维的大数据集随机分成若干个子集,对每个子集聚类采用一种基于遗传算法的高维数据模糊聚类方法。该方法引入了一个模糊非相似矩阵来表示高维样本之间的非相似程度,并将高维样本随机初始化到二维平面,利用遗传算法迭代优化二维样本... 将高维的大数据集随机分成若干个子集,对每个子集聚类采用一种基于遗传算法的高维数据模糊聚类方法。该方法引入了一个模糊非相似矩阵来表示高维样本之间的非相似程度,并将高维样本随机初始化到二维平面,利用遗传算法迭代优化二维样本的坐标值,实现二维样本之间的欧氏距离向样本间的模糊非相似度的趋近。将得到的最优的二维样本用模糊C-均值聚类(FCM)算法聚类,克服了聚类有效性对高维样本空间分布的依赖。实验仿真表明,该算法有较好的聚类效果,且极大地提高了聚类的速度。 展开更多
关键词 模糊聚类 分治法 遗传算法 模糊非相似矩阵 大数据集 高维
在线阅读 下载PDF
一种聚簇消减大规模数据的支持向量分类算法 被引量:10
16
作者 陈光喜 徐健 成彦 《计算机科学》 CSCD 北大核心 2009年第3期184-188,共5页
针对支持向量分类机对大规模数据集训练速度慢的瓶颈,提出一种聚簇消减数据集方法。首先建立样本中心距离函数,计算聚簇集的比例半径,然后利用聚簇集镜像扫描样本点确定簇集类,同一类样本特性的聚簇集中只保留代表样本点,建立异类点删... 针对支持向量分类机对大规模数据集训练速度慢的瓶颈,提出一种聚簇消减数据集方法。首先建立样本中心距离函数,计算聚簇集的比例半径,然后利用聚簇集镜像扫描样本点确定簇集类,同一类样本特性的聚簇集中只保留代表样本点,建立异类点删除矩阵,通过上述方法消减样本集。证明了这种簇消减算法有较低的时间复杂度,并利用实验说明了保留代表点的有效意义。最后通过随机数据和UCI标准数据库验证了算法在保证分类精度的同时提高了分类速度。 展开更多
关键词 支持向量机 聚簇集 大规模数据集 训练速度
在线阅读 下载PDF
基于扩展和网格的多密度聚类算法 被引量:25
17
作者 邱保志 沈钧毅 《控制与决策》 EI CSCD 北大核心 2006年第9期1011-1014,1019,共5页
提出了网格密度可达的聚类概念和边界处理技术,并在此基础上提出一种基于扩展的多密度网格聚类算法.该算法使用网格技术提高聚类的速度,使用边界处理技术提高聚类的精度,每次聚类均从最高的密度单元开始逐步向周围扩展形成聚类.实验结... 提出了网格密度可达的聚类概念和边界处理技术,并在此基础上提出一种基于扩展的多密度网格聚类算法.该算法使用网格技术提高聚类的速度,使用边界处理技术提高聚类的精度,每次聚类均从最高的密度单元开始逐步向周围扩展形成聚类.实验结果表明,该算法能有效地对多密度数据集和均匀密度数据集进行聚类,具有聚类精度高等优点. 展开更多
关键词 聚类算法 多密度数据集 边界处理 扩展聚类 网格聚类
在线阅读 下载PDF
一种基于加速迭代的大数据集谱聚类方法 被引量:7
18
作者 陈丽敏 杨静 张健沛 《计算机科学》 CSCD 北大核心 2012年第5期172-176,共5页
传统谱聚类算法的诸多优点只适合小数据集。根据Laplacian矩阵的特点重新构造新的Gram矩阵,输入新构造矩阵的若干列,然后利用加速迭代法解决大数据集的谱聚类特征提取问题,使得在大数据集条件下,谱聚类算法只需要很小的空间复杂度就可... 传统谱聚类算法的诸多优点只适合小数据集。根据Laplacian矩阵的特点重新构造新的Gram矩阵,输入新构造矩阵的若干列,然后利用加速迭代法解决大数据集的谱聚类特征提取问题,使得在大数据集条件下,谱聚类算法只需要很小的空间复杂度就可达到非常快的计算速度。 展开更多
关键词 聚类 谱聚类 大规模数据集 加速迭代法 LAPLACIAN矩阵
在线阅读 下载PDF
一种建立粗糙数据模型的监督模糊聚类方法 被引量:12
19
作者 黄金杰 李士勇 蔡云泽 《软件学报》 EI CSCD 北大核心 2005年第5期744-753,共10页
提出了在输入-输出积空间中利用监督模糊聚类技术快速建立粗糙数据模型(rough data model,简称RDM)的一种方法.该方法将RDM模型的分类质量性能指标与具有良好特性的Gustafson-Kessel(G-K)聚类算法结合在一起,并通过引入数据对模糊类的... 提出了在输入-输出积空间中利用监督模糊聚类技术快速建立粗糙数据模型(rough data model,简称RDM)的一种方法.该方法将RDM模型的分类质量性能指标与具有良好特性的Gustafson-Kessel(G-K)聚类算法结合在一起,并通过引入数据对模糊类的推定隶属度的概念,给出了将模糊聚类模型转化为粗糙数据模型的方法,从而设计出一种通过迭代计算使目标函数最小的两个必要条件方程来获取RDM模型的有效算法,将Kowalczyk方法的多维搜索过程变为以聚类数目为参数的一维搜索,极大地减少了寻优时间.与传统的粗糙集理论和Kowalczyk方法相比,提出的方法具有更好的数据概括能力和噪声数据处理能力.最后,通过不同的数据集实验测试,结果表明了该方法的有效性. 展开更多
关键词 粗糙数据模型 粗糙集 监督模糊聚类 GK算法 推定隶属度
在线阅读 下载PDF
不均衡数据集文本分类中少数类样本生成方法研究 被引量:5
20
作者 杜娟 姜丽丽 陈红丽 《计算机应用研究》 CSCD 北大核心 2009年第10期3731-3734,共4页
针对传统的分类算法在处理不均衡样本数据时,其分类器预测倾向于多数类,少数类分类误差大,提出了一种基于聚类和遗传算法的样本生成方法。先通过K-means算法将少数类样本聚类分组;再在每个聚类的内部使用遗传交叉和变异操作获取新样本,... 针对传统的分类算法在处理不均衡样本数据时,其分类器预测倾向于多数类,少数类分类误差大,提出了一种基于聚类和遗传算法的样本生成方法。先通过K-means算法将少数类样本聚类分组;再在每个聚类的内部使用遗传交叉和变异操作获取新样本,并进行有效性验证;最后使用原始数据集和新数据集分别训练K最近邻(Knearestneighbor,KNN)及支持向量机(supportvector machine,SVM)分类器。实验结果表明此方法有效改善了少数类分类效果。 展开更多
关键词 不均衡数据集 分类 聚类 遗传算法 样本生成
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部