期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
基于KPCA的不平衡数据欠抽样算法
1
作者 王晓玲 金永超 +1 位作者 刘威伟 王希胤 《应用数学进展》 2024年第9期4108-4118,共11页
在现实世界的分类任务中,不平衡数据通常呈现非线性分布的特点,而传统的抽样方法难以有效处理这些非线性,导致分类效果不佳。为了解决这个问题,本文提出了一种基于核主成分分析(KPCA)的欠抽样方法。该方法通过使用非线性核函数将原始数... 在现实世界的分类任务中,不平衡数据通常呈现非线性分布的特点,而传统的抽样方法难以有效处理这些非线性,导致分类效果不佳。为了解决这个问题,本文提出了一种基于核主成分分析(KPCA)的欠抽样方法。该方法通过使用非线性核函数将原始数据映射到适当的高维空间使其线性化,然后根据每个样本在核主成分上的得分来选择性地删除多数类样本,从而实现欠抽样。在9组具有不同平衡率的数据集上,采用本文提出的方法进行了欠抽样预处理,并使用逻辑回归(Logistic Regression)分类器进行分类。实验结果表明,在Accuracy、F1-measure和AUC值三个指标中,本文方法分别在7组、8组和9组数据集上取得了最高评分。这表明该方法在不平衡数据集上具有良好的分类性能。The unbalanced data in the real classification task are mostly characterized by nonlinear distribution, and the traditional sampling method is not good at dealing with this kind of nonlinearity resulting in unsatisfactory sample classification effect. Aiming at this problem, an under-sampling method based on KPCA is proposed. The method maps the original data to a suitable high-dimensional space to make it linearly divisible by nonlinearly transforming the kernel function, and de-redundantly removes the majority class by calculating the scores of individual samples on the kernel principal components in order to achieve the purpose of under-sampling. After the under-sampling preprocessing of nine datasets with different balance rates, the classification is performed using Logistic Regression classifier model. The experimental results show that the algorithm of this paper obtains the highest evaluation metrics under Accuracy, F1-measure and AUC value scores under 7, 8 and 9 groups of datasets, respectively, which shows that the method has a good classification performance on unbalanced datasets. 展开更多
关键词 不平衡数据 欠抽样 核主成分分析 分类
在线阅读 下载PDF
基于样本权重的不平衡数据欠抽样方法 被引量:43
2
作者 熊冰妍 王国胤 邓维斌 《计算机研究与发展》 EI CSCD 北大核心 2016年第11期2613-2622,共10页
现实世界中广泛存在不平衡数据,其分类问题是数据挖掘和机器学习的一个研究热点.欠抽样是处理不平衡数据集的一种常用方法,其主要思想是选取多数类样本中的一个子集,使数据集的样本分布达到平衡,但其容易忽略多数类中部分有用信息.为此... 现实世界中广泛存在不平衡数据,其分类问题是数据挖掘和机器学习的一个研究热点.欠抽样是处理不平衡数据集的一种常用方法,其主要思想是选取多数类样本中的一个子集,使数据集的样本分布达到平衡,但其容易忽略多数类中部分有用信息.为此提出了一种基于样本权重的欠抽样方法KAcBag(K-means AdaCost bagging),该方法引入了样本权重来反映样本所处的区域,首先根据各类样本的数量初始化各样本权重,并通过多次聚类对各个样本的权重进行修改,权重小的多数类样本即处于多数类的中心区域;然后按权重大小对多数类样本进行欠抽样,使位于中心区域的样本较容易被抽中,并与所有少数类样本组成bagging成员分类器的训练数据,得到若干个决策树子分类器;最后根据各子分类器的正确率进行加权投票生成预测模型.对19组UCI数据集和某电信运营商客户换机数据进行了测试实验,实验结果表明:KAcBag方法使抽样所得的样本具有较强的代表性,能有效提高少数类的分类性能并缩小问题规模. 展开更多
关键词 不平衡数据 欠抽样 样本权重 聚类 集成学习
在线阅读 下载PDF
基于BSMOTE和逆转欠抽样的不均衡数据分类算法 被引量:4
3
作者 陈睿 张亮 +1 位作者 杨静 胡荣贵 《计算机应用研究》 CSCD 北大核心 2014年第11期3299-3303,共5页
针对传统分类器在数据不均衡的情况下分类效果不理想的缺陷,为提高分类器在不均衡数据集下的分类性能,特别是少数类样本的分类能力,提出了一种基于BSMOTE和逆转欠抽样的不均衡数据分类算法。该算法使用BSMOTE进行过抽样,人工增加少数类... 针对传统分类器在数据不均衡的情况下分类效果不理想的缺陷,为提高分类器在不均衡数据集下的分类性能,特别是少数类样本的分类能力,提出了一种基于BSMOTE和逆转欠抽样的不均衡数据分类算法。该算法使用BSMOTE进行过抽样,人工增加少数类样本的数量,然后通过优先去除样本中的冗余和噪声样本,使用逆转欠抽样方法逆转少数类样本和多数类样本的比例。通过多次进行上述抽样形成多个训练集合,使用Bagging方法集成在多个训练集合上获得的分类器来提高有效信息的利用率。实验表明,该算法较几种现有算法不仅能够提高少数类样本的分类性能,而且能够有效提高整体分类准确度。 展开更多
关键词 不均衡数据集 边界少数类样本合成过抽样技术 逆转欠抽样技术 多分类器集成
在线阅读 下载PDF
结合欠抽样与集成的软件缺陷预测 被引量:7
4
作者 李勇 《计算机应用》 CSCD 北大核心 2014年第8期2291-2294,2310,共5页
软件缺陷预测是提高测试效率、保证软件可靠性的重要途径。为了提高软件缺陷预测的准确率,提出一种结合欠抽样与决策树分类器集成的软件缺陷预测模型。考虑到软件缺陷数据的类不平衡特性,首先,通过数据的不平衡率确定抽样度,执行欠抽样... 软件缺陷预测是提高测试效率、保证软件可靠性的重要途径。为了提高软件缺陷预测的准确率,提出一种结合欠抽样与决策树分类器集成的软件缺陷预测模型。考虑到软件缺陷数据的类不平衡特性,首先,通过数据的不平衡率确定抽样度,执行欠抽样实现数据的重新平衡;然后,采用Bagging随机抽样原理训练若干个决策树子分类器;最后,按照少数服从多数的原则生成预测模型。使用公开的NASA软件缺陷预测数据集进行了仿真实验。实验结果表明,与3种基准方法对比,所提模型在保证预报率的前提下,误报率(PF)降低了10%以上,综合评价指标均有显著提升。该模型的缺陷预测误报率较低,而且具有较高的预测准确率与稳定性。 展开更多
关键词 软件缺陷预测 类不平衡数据 欠抽样 决策树 集成算法
在线阅读 下载PDF
欠抽样和DEC相结合的不平衡数据分类算法 被引量:3
5
作者 吴敏 张化朋 李雷 《计算机技术与发展》 2014年第4期110-113,共4页
DEC算法是一种基于支持向量机的改进算法,但是研究表明,对于某些不平衡数据集,DEC分类器不能达到较高的少数类分类精度。针对这种情况,提出了一种基于欠抽样方法和DEC方法结合的新算法US-DEC来提高少数类分类精度。先用一个新的欠抽样... DEC算法是一种基于支持向量机的改进算法,但是研究表明,对于某些不平衡数据集,DEC分类器不能达到较高的少数类分类精度。针对这种情况,提出了一种基于欠抽样方法和DEC方法结合的新算法US-DEC来提高少数类分类精度。先用一个新的欠抽样方法来预处理数据集,再用DEC分类器训练处理过的数据集。通过在七个不平衡数据集上的仿真实验,比较了US-DEC算法和支持向量机,欠抽样方法以及DEC方法的分类性能。实验结果表明,在提高每类数据集的少数类分类精度上,US-DEC算法要优于其他算法。 展开更多
关键词 不平衡数据集 支持向量机 预处理数据集 欠抽样 DEC
在线阅读 下载PDF
基于欠抽样技术的软件单边带接收机
6
作者 黄葆华 《电信科学》 北大核心 1998年第2期20-22,共3页
理想的软件单边带接收机应该是对射频信号直接进行抽样,在通用数字信号处理器(DSP)中用软件完成单边带接收机的所有功能。但是,由于DSP速度的限制,目前对无线电接收机的软件化还只局限于中频。本文在讨论了欠抽样技术在软件... 理想的软件单边带接收机应该是对射频信号直接进行抽样,在通用数字信号处理器(DSP)中用软件完成单边带接收机的所有功能。但是,由于DSP速度的限制,目前对无线电接收机的软件化还只局限于中频。本文在讨论了欠抽样技术在软件单边带接收机中的应用的基础上,提出了一种对中频信号直接采样的软件单边带接收机的软硬件实现方案。 展开更多
关键词 欠抽样技术 软件 单边带接收机 无线电台
在线阅读 下载PDF
基于样本密度峰值的不平衡数据欠抽样方法 被引量:7
7
作者 苏俊宁 叶东毅 《计算机应用》 CSCD 北大核心 2020年第1期83-89,共7页
不平衡数据分类是数据挖掘和机器学习领域的一个重要问题,其中数据重抽样方法是影响分类准确率的一个重要因素。针对现有不平衡数据欠抽样方法不能很好地保持抽样样本与原有样本的分布一致的问题,提出一种基于样本密度峰值的不平衡数据... 不平衡数据分类是数据挖掘和机器学习领域的一个重要问题,其中数据重抽样方法是影响分类准确率的一个重要因素。针对现有不平衡数据欠抽样方法不能很好地保持抽样样本与原有样本的分布一致的问题,提出一种基于样本密度峰值的不平衡数据欠抽样方法。首先,应用密度峰值聚类算法估计多数类样本聚成的不同类簇的中心区域和边界区域,进而根据样本所处类簇区域的局部密度和不同密度峰值的分布信息计算样本权重;然后,按照权重大小对多数类样本点进行欠抽样,使所抽取的多数类样本尽可能由类簇中心区域向边界区域逐步减少,在较好地反映原始数据分布的同时又可抑制噪声;最后,将抽取到的多数类样本与所有的少数类样本构成平衡数据集用于分类器的训练。多个数据集上的实验结果表明,与现有的RBBag、uNBBag和KAcBag等欠抽样方法相比,所提方法在F1-measure和G-mean指标上均取得一定的提升,是有效、可行的样本抽样方法。 展开更多
关键词 不平衡数据 密度峰值 样本权重 欠抽样 集成学习
在线阅读 下载PDF
一种基于聚类融合欠抽样的不平衡数据分类方法 被引量:7
8
作者 张枭山 罗强 《计算机科学》 CSCD 北大核心 2015年第B11期63-66,共4页
在面对现实中广泛存在的不平衡数据分类问题时,大多数传统分类算法假定数据集类分布是平衡的,分类结果偏向多数类,效果不理想。为此,提出了一种基于聚类融合欠抽样的改进AdaBoost分类算法。该算法首先进行聚类融合,根据样本权值从每个... 在面对现实中广泛存在的不平衡数据分类问题时,大多数传统分类算法假定数据集类分布是平衡的,分类结果偏向多数类,效果不理想。为此,提出了一种基于聚类融合欠抽样的改进AdaBoost分类算法。该算法首先进行聚类融合,根据样本权值从每个簇中抽取一定比例的多数类和全部的少数类组成平衡数据集。使用AdaBoost算法框架,对多数类和少数类的错分类给予不同的权重调整,选择性地集成分类效果较好的几个基分类器。实验结果表明,该算法在处理不平衡数据分类上具有一定的优势。 展开更多
关键词 机器学习 不平衡数据 聚类融合 欠抽样 集成学习
在线阅读 下载PDF
改进欠抽样方法及其在非平衡数据集分类中的应用 被引量:7
9
作者 牛壮 李凤莲 +2 位作者 张雪英 樊宇宙 魏鑫 《计算机工程》 CAS CSCD 北大核心 2019年第6期218-224,共7页
欠抽样方法在非平衡数据集分类时,未充分考虑数据分布变化对分类结果造成的影响。为此,提出一种基于聚类融合去冗余的改进欠抽样方法。采用聚类算法得到多数类样本高密度分布区域的聚类中心,将多数类样本划分为不同子集,通过计算各子集... 欠抽样方法在非平衡数据集分类时,未充分考虑数据分布变化对分类结果造成的影响。为此,提出一种基于聚类融合去冗余的改进欠抽样方法。采用聚类算法得到多数类样本高密度分布区域的聚类中心,将多数类样本划分为不同子集,通过计算各子集的相似度冗余系数对多数类样本进行去冗余删除,以达到欠抽样的目的。对15个不同平衡率的数据集欠抽样后,利用代价敏感混合属性多决策树模型进行分类。实验结果表明,在不降低非平衡数据集分类准确率的前提下,该方法能够提高少数类样本的正类率及预测模型的G-mean值。 展开更多
关键词 非平衡数据集 聚类算法 欠抽样 去冗余 多决策树预测模型
在线阅读 下载PDF
基于AdaBoost的欠抽样集成学习算法 被引量:2
10
作者 孙晓燕 张化祥 计华 《山东大学学报(工学版)》 CAS 北大核心 2011年第4期91-94,100,共5页
不平衡数据集分类中,采用欠抽样方法容易忽略多数类中部分有用信息,为此提出一种基于AdaBoost的欠抽样集成学习算法U-Ensemble。该方法首先使用AdaBoost算法对数据集预处理,得到各样例权重。训练基分类器时,针对多数类数据不再采用boots... 不平衡数据集分类中,采用欠抽样方法容易忽略多数类中部分有用信息,为此提出一种基于AdaBoost的欠抽样集成学习算法U-Ensemble。该方法首先使用AdaBoost算法对数据集预处理,得到各样例权重。训练基分类器时,针对多数类数据不再采用bootstrap抽样方法,而是分别随机选择部分权重较大的样例与部分权重较小的样例,使两部分样例个数与少数类样例个数相同,并组成Bagging成员分类器的训练数据。实验结果证明了算法的有效性。 展开更多
关键词 不平衡数据集 ADABOOST算法 欠抽样
原文传递
不均衡数据集学习中基于初分类的过抽样算法 被引量:11
11
作者 韩慧 王路 +1 位作者 温明 王文渊 《计算机应用》 CSCD 北大核心 2006年第8期1894-1897,共4页
为了有效地提高不均衡数据集中少数类的分类性能,提出了基于初分类的过抽样算法。首先,对测试集进行初分类,以尽可能多地保留多数类的有用信息;其次,对于被初分类预测为少数类的样本进行再次分类,以有效地提高少数类的分类性能。使用美... 为了有效地提高不均衡数据集中少数类的分类性能,提出了基于初分类的过抽样算法。首先,对测试集进行初分类,以尽可能多地保留多数类的有用信息;其次,对于被初分类预测为少数类的样本进行再次分类,以有效地提高少数类的分类性能。使用美国加州大学欧文分校的数据集将基于初分类的过抽样算法与合成少数类过抽样算法、欠抽样方法进行了实验比较。结果表明,基于初分类的过抽样算法的少数类与多数类的分类性能都优于其他两种算法。 展开更多
关键词 不均衡数据集 抽样 欠抽样
在线阅读 下载PDF
基于安全样本筛选的不平衡数据抽样方法 被引量:6
12
作者 石洪波 刘焱昕 冀素琴 《模式识别与人工智能》 EI CSCD 北大核心 2019年第6期545-556,共12页
针对欠抽样可能导致有用信息的丢失,以及合成小类的过抽样技术(SMOTE)可能使大类和小类间类重叠更严重的问题,文中提出基于安全样本筛选的欠抽样和 SMOTE 结合的抽样方法(Screening_SMOTE).利用安全筛选规则,识别并丢弃大类中部分对确... 针对欠抽样可能导致有用信息的丢失,以及合成小类的过抽样技术(SMOTE)可能使大类和小类间类重叠更严重的问题,文中提出基于安全样本筛选的欠抽样和 SMOTE 结合的抽样方法(Screening_SMOTE).利用安全筛选规则,识别并丢弃大类中部分对确定决策边界无价值的实例和噪音实例,采用 SMOTE 对筛选后数据集进行过抽样.基于安全样本筛选的欠抽样既避免原始数据中有价值信息的丢失,又丢弃大类中的噪音实例,缓减过抽样数据集类重叠的问题.实验表明在处理不平衡数据集,特别是维数较高的不平衡数据集时 Screening_SMOTE 的有效性. 展开更多
关键词 不平衡数据 安全样本筛选 欠抽样 不平衡比率 合成小类的过抽样技术(SMOTE)
在线阅读 下载PDF
一种基于不平衡数据的聚类抽样方法 被引量:5
13
作者 朱亚奇 邓维斌 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2015年第2期421-429,共9页
许多研究表明传统分类器在对海量不平衡数据分类时偏向多数类规则,因此,会导致少数类实例被错误判断为多数类.针对上述问题,提出了一种基于分解求解的学习分类算法.算法先对样本数据进行聚类,在聚类的基础上多次根据权值对数据集进行欠... 许多研究表明传统分类器在对海量不平衡数据分类时偏向多数类规则,因此,会导致少数类实例被错误判断为多数类.针对上述问题,提出了一种基于分解求解的学习分类算法.算法先对样本数据进行聚类,在聚类的基础上多次根据权值对数据集进行欠抽样,产生平衡的数据集,对每个平衡数据集进行验证同时提高误判样本的权值.综合考虑每个基分类器的错误率作为分类器的权值,选择分类效果较好的基分类器进行加权集成.实验表明算法有较高的少数类正确率以及少数类F度量,同时可以大幅减少训练集数量. 展开更多
关键词 机器学习 不平衡数据 集成学习 欠抽样
在线阅读 下载PDF
类别不均衡学习中的抽样策略研究 被引量:7
14
作者 刘树栋 张可 《计算机工程与应用》 CSCD 北大核心 2019年第21期1-17,共17页
类别不均衡学习在信用评估、客户流失预测、医学诊断、短文本情感分析、标记学习、评分预测等众多领域有广泛的应用,是机器学习研究和应用的热点方向之一,近年来逐渐引起学术界和工业界的广泛关注。目前解决类别不均衡问题主要有三种方... 类别不均衡学习在信用评估、客户流失预测、医学诊断、短文本情感分析、标记学习、评分预测等众多领域有广泛的应用,是机器学习研究和应用的热点方向之一,近年来逐渐引起学术界和工业界的广泛关注。目前解决类别不均衡问题主要有三种方法:数据级解决方法、算法级解决方法和集成解决方法。侧重于对近年来类别不均衡学习中的抽样策略研究进展进行综述,介绍类别不均衡学习的基本框架,对类别不均衡学习中三种主要的抽样策略(过抽样、欠抽样和混合抽样)相关研究进展进行前沿概括、比较和分析,对类别不均衡学习的抽样策略中有待研究的难点、热点及发展趋势进行展望。 展开更多
关键词 不均衡学习 集成学习 欠抽样 特征选择 支持向量机 合成少数类过抽样技术 混合抽样
在线阅读 下载PDF
SMOTE混合抽样对非平衡数据分类效果的影响分析 被引量:4
15
作者 王蕾 刘赛可 夏利宇 《调研世界》 CSSCI 2020年第1期34-41,共8页
本文旨在研究对非平衡数据建模时,SMOTE过抽样和随机欠抽样的不同比例对模型预测效果产生的影响。首先基于模拟数据,探究了混合抽样比例的不同组合下,带有LASSO变量选择的逻辑回归模型对于非平衡程度不同数据的分类效果。模拟结果表明,... 本文旨在研究对非平衡数据建模时,SMOTE过抽样和随机欠抽样的不同比例对模型预测效果产生的影响。首先基于模拟数据,探究了混合抽样比例的不同组合下,带有LASSO变量选择的逻辑回归模型对于非平衡程度不同数据的分类效果。模拟结果表明,过抽样和欠抽样的比例越高,预测效果越好,但是在某些情况下,直接使用原始数据进行建模,选取一个合适的临界值,可以得到更理想的分类模型。通过对某担保公司的数据实证研究发现,前述结论基本成立,且当原始数据极不平衡时,采用混合抽样方法进行数据预处理可以有效提高模型的预测效果,这对于非平衡数据的建模分析过程有一定的指导意义。 展开更多
关键词 非平衡数据 SMOTE过抽样 欠抽样 混合抽样 分类效果
在线阅读 下载PDF
不平衡数据分类方法综述 被引量:28
16
作者 杨明 尹军梅 吉根林 《南京师范大学学报(工程技术版)》 CAS 2008年第4期7-12,共6页
分类问题是机器学习领域的重要研究内容之一,现有的一些分类方法都已经相对成熟,用它们来对平衡数据进行分类一般都能取得较好的分类性能,但在现实世界中数据往往都是不平衡的,而现有的分类器的设计都是基于类分布大致平衡这一假设的,... 分类问题是机器学习领域的重要研究内容之一,现有的一些分类方法都已经相对成熟,用它们来对平衡数据进行分类一般都能取得较好的分类性能,但在现实世界中数据往往都是不平衡的,而现有的分类器的设计都是基于类分布大致平衡这一假设的,如果用这些方法来对不平衡数据进行分类就会导致分类器的性能下降,因而研究用于处理不平衡数据集的分类方法显得相当重要.为便于读者更清晰地了解数据不平衡分类问题的研究现状和未来研究的动向,本文对相关的研究进行了综述和展望. 展开更多
关键词 不平衡数据 抽样 欠抽样 代价敏感 单分类器 特征选择 子空间
在线阅读 下载PDF
ENN-ADASYN-SVM算法检测P2P僵尸网络的研究 被引量:7
17
作者 康松林 樊晓平 +2 位作者 刘乐 李宏 李明娟 《小型微型计算机系统》 CSCD 北大核心 2016年第2期216-220,共5页
由于对组织或个人采取针对性的攻击,僵尸网络对因特网构成越来越严重的威胁.并且不同的加密方法以及隐蔽的通信信道使得p2p僵尸网络越来越难以检测.之前有很多基于分类检测算法的文献都有很高的整体正确率,但是单独类并没有很高的正确率... 由于对组织或个人采取针对性的攻击,僵尸网络对因特网构成越来越严重的威胁.并且不同的加密方法以及隐蔽的通信信道使得p2p僵尸网络越来越难以检测.之前有很多基于分类检测算法的文献都有很高的整体正确率,但是单独类并没有很高的正确率.同时,之前的文献并没有考虑到正常的网络流量和僵尸网络流量严重不平衡的问题.为了解决以上两个问题,提出一种基于最近邻规则欠抽样方法(ENN)和ADASYN(Adaptive Synthetic Sampling)结合的不均衡数据SVM分类算法应用于P2P僵尸网络检测.实验结果表明,无论是僵尸网络还是正常的流量,该方法都具有很高的正确率,并能在短时间内达到很好的分类效果;较之其他算法,它更适合处理大规模网络实时环境中大量的原始数据,对统计数据依赖性小,对不均衡数据分类具有较好的鲁棒性.因此,基于不均衡数据ENN-ADASYN-SVM分类算法更适应于复杂多变的网络环境下的P2P僵尸网络检测. 展开更多
关键词 P2P僵尸网络检测 SVM 不均衡数据分类 最近邻规则欠抽样方法(ENN) ADASYN
在线阅读 下载PDF
基于KL距离的不平衡数据渐进学习算法研究 被引量:1
18
作者 赵向兵 周建慧 杨泽民 《计算机仿真》 北大核心 2021年第12期291-294,共4页
为解决不平衡数据内在固有性引发的分类结果受强势类影响较大的问题,研究基于KL距离的不平衡数据渐进学习算法,精准地辨识出不平衡数据中的弱势类样本,提高算法分类性能。在深入分析KL距离和欠抽样法的基础上,使用欠抽样法平衡化处理不... 为解决不平衡数据内在固有性引发的分类结果受强势类影响较大的问题,研究基于KL距离的不平衡数据渐进学习算法,精准地辨识出不平衡数据中的弱势类样本,提高算法分类性能。在深入分析KL距离和欠抽样法的基础上,使用欠抽样法平衡化处理不平衡数据集,采用基于KL距离的不平衡数据半监督学习算法,以渐进模式,通过寻找可靠正例、可靠反例,实现处理后数据集的最终分类。实验结果表明,上述算法的G-mean值始终较高,可极大地提高算法分类性能;所提算法使用后的F-measure值在任何抽样比例下都高于使用前的F-measure值,且在抽样比例较大时,F-measure值呈缓慢上升趋势,能很好地分类出不平衡数据集中的弱势类样本。 展开更多
关键词 不平衡数据 渐进学习算法 弱势类 欠抽样
在线阅读 下载PDF
基于不平衡数据集的机器学习算法研究 被引量:6
19
作者 刘洋 《统计与决策》 CSSCI 北大核心 2019年第12期19-21,共3页
在应用机器学习构建数据模型的过程中,经常会面临类不平衡性的问题,在许多研究中,降低数据集的不平衡性多采用欠抽样法来进行处理,再应用C4.5、NB、LR、RF、KNN等机器学习算法进行数据建模。实验结果往往表明,欠抽样法得到的模型准确度... 在应用机器学习构建数据模型的过程中,经常会面临类不平衡性的问题,在许多研究中,降低数据集的不平衡性多采用欠抽样法来进行处理,再应用C4.5、NB、LR、RF、KNN等机器学习算法进行数据建模。实验结果往往表明,欠抽样法得到的模型准确度并不尽如人意,原因是这种方法是在牺牲负样本的预测精度前提下来提高整体精度的,因此,文章试图在尽量不减少原数据集中有用信息丢失的前提下采用重复抽样法进行数据处理可以有效弥补欠抽样法所带来的信息损失,进而提高模型精度。 展开更多
关键词 不平衡数据集 机器学习 欠抽样 重复抽样
在线阅读 下载PDF
基于谱聚类和成对数据表示的多层感知机分类算法 被引量:5
20
作者 刘树栋 魏嘉敏 《计算机科学》 CSCD 北大核心 2019年第S11期194-198,共5页
面向类别不均衡数据集的分类学习一直是数据挖掘和机器学习领域的研究热点。数据级、算法级和集成方法是目前解决类别不均衡学习的3种主流方法,其中欠抽样是类别不均衡学习一种常用的数据级解决方法,其缺点在于容易丢失多数类中部分有... 面向类别不均衡数据集的分类学习一直是数据挖掘和机器学习领域的研究热点。数据级、算法级和集成方法是目前解决类别不均衡学习的3种主流方法,其中欠抽样是类别不均衡学习一种常用的数据级解决方法,其缺点在于容易丢失多数类中部分有用信息。文中将谱聚类引入到成对数据表示的多数类欠抽样过程中,首先利用谱聚类方法,对多数类样本进行聚类,根据聚类簇大小和簇内样本点与少数类样本点的平均距离,在每个聚类簇内抽取不同个数有代表性的样本,并将簇内样本点之间及所有少数类样本点两两成对表示,从而有效降低了所有样本成对数据表示中两两组合而导致的数据暴涨问题,同时避免了随机抽样而可能导致的有效信息丢失问题。最后在9组UCI数据集上验证了所提算法的有效性。 展开更多
关键词 多层感知机 分类 欠抽样 谱聚类 不均衡学习
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部