期刊文献+
共找到31篇文章
< 1 2 >
每页显示 20 50 100
基于邻近样本类别判断的不平衡数据分类算法 被引量:2
1
作者 胡艳 《科技通报》 北大核心 2013年第10期58-60,共3页
数据类间分布不均衡是不平衡数据集分类效果不好的主要原因,为了克服类间分布的不均衡,本文提出了一种基于邻近样本类别判断的不平衡数据分类算法。首先,对待判定样本,计算它的k个最邻近样本,然后将待判定样本的类别指派到它的k个最邻... 数据类间分布不均衡是不平衡数据集分类效果不好的主要原因,为了克服类间分布的不均衡,本文提出了一种基于邻近样本类别判断的不平衡数据分类算法。首先,对待判定样本,计算它的k个最邻近样本,然后将待判定样本的类别指派到它的k个最邻近中的多数类。由于本文所提出的不平衡数据分类算法在类别决策时,只考虑少量的邻近样本的类别,而不是考虑所有的训练样本,因此可以较好地克服类间不平衡对少数类分类结果的影响。在客户流失数据集上的仿真实验充分证明了本文算法能较好地处理不平衡数据分类问题。 展开更多
关键词 不平衡数据 邻近样本 数据 少数
在线阅读 下载PDF
基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法 被引量:19
2
作者 霍玉丹 谷琼 +1 位作者 蔡之华 袁磊 《计算机应用》 CSCD 北大核心 2015年第1期121-124,139,共5页
针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍... 针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍率,并将这些采样倍率取值的组合编码为种群中的个体;然后,循环使用GA的选择、交叉、变异等算子对种群进行优化,在达到停机条件时获得采样倍率取值的最优组合;最后,根据找到的最优组合对非平衡数据集进行SMOTE采样。在10个典型的非平衡数据集上进行的实验结果表明:与SMOTE算法相比,GASMOTE在F-measure值上提高了5.9个百分点,在G-mean值上提高了1.6个百分点;与Borderline-SMOTE算法相比,GASMOTE在F-measure值上提高了3.7个百分点,在G-mean值上提高了2.3个百分点。该方法可作为一种新的解决非平衡数据集分类问题的过采样技术。 展开更多
关键词 平衡数据 少数样本合成过采样技术 采样倍率 遗传算法
在线阅读 下载PDF
基于样本权重的不平衡数据欠抽样方法 被引量:43
3
作者 熊冰妍 王国胤 邓维斌 《计算机研究与发展》 EI CSCD 北大核心 2016年第11期2613-2622,共10页
现实世界中广泛存在不平衡数据,其分类问题是数据挖掘和机器学习的一个研究热点.欠抽样是处理不平衡数据集的一种常用方法,其主要思想是选取多数类样本中的一个子集,使数据集的样本分布达到平衡,但其容易忽略多数类中部分有用信息.为此... 现实世界中广泛存在不平衡数据,其分类问题是数据挖掘和机器学习的一个研究热点.欠抽样是处理不平衡数据集的一种常用方法,其主要思想是选取多数类样本中的一个子集,使数据集的样本分布达到平衡,但其容易忽略多数类中部分有用信息.为此提出了一种基于样本权重的欠抽样方法KAcBag(K-means AdaCost bagging),该方法引入了样本权重来反映样本所处的区域,首先根据各类样本的数量初始化各样本权重,并通过多次聚类对各个样本的权重进行修改,权重小的多数类样本即处于多数类的中心区域;然后按权重大小对多数类样本进行欠抽样,使位于中心区域的样本较容易被抽中,并与所有少数类样本组成bagging成员分类器的训练数据,得到若干个决策树子分类器;最后根据各子分类器的正确率进行加权投票生成预测模型.对19组UCI数据集和某电信运营商客户换机数据进行了测试实验,实验结果表明:KAcBag方法使抽样所得的样本具有较强的代表性,能有效提高少数类的分类性能并缩小问题规模. 展开更多
关键词 不平衡数据 欠抽样 样本权重 集成学习
在线阅读 下载PDF
聚类边界过采样不平衡数据分类方法 被引量:31
4
作者 楼晓俊 孙雨轩 刘海涛 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2013年第6期944-950,共7页
针对传统SMOTE过采样方法在生成合成样本的过程中存在的盲目性,以及对噪声敏感且容易出现过拟合现象的问题,提出一种改进的聚类边界样本过采样(CB-SMOTE)方法,通过引入"聚类一致性系数"找到少数类样本的边界,利用边界样本的... 针对传统SMOTE过采样方法在生成合成样本的过程中存在的盲目性,以及对噪声敏感且容易出现过拟合现象的问题,提出一种改进的聚类边界样本过采样(CB-SMOTE)方法,通过引入"聚类一致性系数"找到少数类样本的边界,利用边界样本的最近邻密度来剔除噪声点和确定合成样本的数量,对SMOTE方法的新样本合成规则进行了优化.该方法是一种指导性的过采样方法,合成样本更加有利于分类器的学习.通过实验对比6种不同方法在UCI公共数据集上的分类性能,结果表明:CB-SMOTE方法对少数类样本和多数类样本都具有较高的分类准确率,且对过采样倍数的变化具有更高的稳定性. 展开更多
关键词 不平衡数据 过采样 边界 最近邻密度 合成样本
在线阅读 下载PDF
基于安全样本筛选的不平衡数据抽样方法 被引量:6
5
作者 石洪波 刘焱昕 冀素琴 《模式识别与人工智能》 EI CSCD 北大核心 2019年第6期545-556,共12页
针对欠抽样可能导致有用信息的丢失,以及合成小类的过抽样技术(SMOTE)可能使大类和小类间类重叠更严重的问题,文中提出基于安全样本筛选的欠抽样和 SMOTE 结合的抽样方法(Screening_SMOTE).利用安全筛选规则,识别并丢弃大类中部分对确... 针对欠抽样可能导致有用信息的丢失,以及合成小类的过抽样技术(SMOTE)可能使大类和小类间类重叠更严重的问题,文中提出基于安全样本筛选的欠抽样和 SMOTE 结合的抽样方法(Screening_SMOTE).利用安全筛选规则,识别并丢弃大类中部分对确定决策边界无价值的实例和噪音实例,采用 SMOTE 对筛选后数据集进行过抽样.基于安全样本筛选的欠抽样既避免原始数据中有价值信息的丢失,又丢弃大类中的噪音实例,缓减过抽样数据集类重叠的问题.实验表明在处理不平衡数据集,特别是维数较高的不平衡数据集时 Screening_SMOTE 的有效性. 展开更多
关键词 不平衡数据 安全样本筛选 欠抽样 不平衡比率 合成小的过抽样技术(SMOTE)
在线阅读 下载PDF
基于层次聚类的不平衡数据加权过采样方法 被引量:11
6
作者 夏英 李刘杰 +1 位作者 张旭 裴海英 《计算机科学》 CSCD 北大核心 2019年第4期22-27,共6页
不平衡数据对传统分类算法的性能有一定影响,使得少数类的识别率降低。过采样是处理不平衡数据集的常用方法之一,其主要思想是通过增加少数类样本,使得少数类与多数类的数量能够在一定程度上达到平衡,但现有的过采样方法存在合成重叠样... 不平衡数据对传统分类算法的性能有一定影响,使得少数类的识别率降低。过采样是处理不平衡数据集的常用方法之一,其主要思想是通过增加少数类样本,使得少数类与多数类的数量能够在一定程度上达到平衡,但现有的过采样方法存在合成重叠样本以及过拟合的问题。文中提出一种基于层次聚类的不平衡数据加权过采样方法WOHC(Weighted Oversampling method based on Hierarchical Clustering)。该方法首先使用层次聚类算法对少数类进行聚类,将少数类样本划分为多个类簇,然后计算出类簇的密度因子来确定各类簇的采样倍率,最后根据每个类簇中样本与多数类边界的距离确定采样权重。利用该方法采样并结合C4.5算法在多个数据集上进行分类实验,结果表明使用该方法能够使分类算法在F-measure和G-mean指标上分别提升7.6%和5.8%,体现了该方法的有效性。 展开更多
关键词 不平衡数据 层次聚 过采样 重叠样本
在线阅读 下载PDF
基于不平衡数据集的主动学习分类算法 被引量:8
7
作者 赵小强 刘梦依 《控制工程》 CSCD 北大核心 2019年第2期314-319,共6页
针对不平衡数据集在分类过程中易产生噪声数据和分类精度低的问题,提出一种基于改进SMOTE的不平衡数据集主动学习SVM分类算法。该算法对训练样本集利用少数类样本的归属值通过多数票选择法控制合成少数类样本的数量,以距离公式为衡量标... 针对不平衡数据集在分类过程中易产生噪声数据和分类精度低的问题,提出一种基于改进SMOTE的不平衡数据集主动学习SVM分类算法。该算法对训练样本集利用少数类样本的归属值通过多数票选择法控制合成少数类样本的数量,以距离公式为衡量标准划分超平面,在分类超平面两侧选择最近距离的等量对称的多数类样本,组成平衡采样数据集,利用支持向量机(SVM)进行分类得到优化分类器,再用主动学习对去除了训练样本的不平衡数据集利用优化分类器进行分类循环,直到剩余样本为零。利用UCI数据集中的数据实验表明,该算法有效地减少了噪声数据对分类的影响,并有效改善不平衡数据集的分类精度。 展开更多
关键词 数据挖掘 不平衡数据 少数样本合成过采样技术
在线阅读 下载PDF
一种非平衡数据分类的过采样随机森林算法 被引量:12
8
作者 赵锦阳 卢会国 +2 位作者 蒋娟萍 袁培培 柳学丽 《计算机应用与软件》 北大核心 2019年第4期255-261,316,共8页
在灾害天气、故障诊断、网络攻击和金融欺诈等领域经常存在不平衡的数据集。针对随机森林算法在非平衡数据集上表现的分类性能差的问题,提出一种新的过采样方法:SCSMOTE(Seed Center Synthetic Minority Over-sampling Technique)算法... 在灾害天气、故障诊断、网络攻击和金融欺诈等领域经常存在不平衡的数据集。针对随机森林算法在非平衡数据集上表现的分类性能差的问题,提出一种新的过采样方法:SCSMOTE(Seed Center Synthetic Minority Over-sampling Technique)算法。该算法的关键是在数据集的少数类样本中找出合适的候选样本,计算出候选样本的中心,在候选样本与样本中心之间产生新的少数类样本,实现了对合成少数类样本质量的控制。结合SCSMOTE算法与随机森林算法来处理非平衡数据集,通过在UCI数据集上对比实验结果表明,该算法有效提高了随机森林在非平衡数据集上的分类性能。 展开更多
关键词 平衡数据 少数 合成样本
在线阅读 下载PDF
多类不平衡数据分类方法综述 被引量:14
9
作者 李昂 韩萌 +2 位作者 穆栋梁 高智慧 刘淑娟 《计算机应用研究》 CSCD 北大核心 2022年第12期3534-3545,共12页
现实中许多领域产生的数据通常具有多个类别并且是不平衡的。在多类不平衡分类中,类重叠、噪声和多个少数类等问题降低了分类器的能力,而有效解决多类不平衡问题已经成为机器学习与数据挖掘领域中重要的研究课题。根据近年来的多类不平... 现实中许多领域产生的数据通常具有多个类别并且是不平衡的。在多类不平衡分类中,类重叠、噪声和多个少数类等问题降低了分类器的能力,而有效解决多类不平衡问题已经成为机器学习与数据挖掘领域中重要的研究课题。根据近年来的多类不平衡分类方法的文献,从数据预处理和算法级分类方法两方面进行了分析与总结,并从优缺点和数据集等方面对所有算法进行了详细分析。在数据预处理方法中,介绍了过采样、欠采样、混合采样和特征选择方法,对使用相同数据集算法的性能进行了比较。从基分类器优化、集成学习和多类分解技术三个方面对算法级分类方法展开介绍和分析。最后对多类不平衡数据分类研究领域的未来发展方向进行总结归纳。 展开更多
关键词 不平衡数据 数据处理方法 算法级分方法
在线阅读 下载PDF
不平衡数据集异常检测和分类算法 被引量:2
10
作者 樊芮 陈湘媛 +1 位作者 王冠男 崔艳辉 《电力系统及其自动化学报》 CSCD 北大核心 2023年第9期112-119,共8页
针对传统异常检测模型在面对不平衡样本集时存在参数优化困难、少数类识别效果差等问题,提出一种组合模型以实现不平衡数据集的异常检测和分类。首先利用支撑向量数据描述构造闭合曲面实现“异常”检测,然后提出改进少数样本合成技术对... 针对传统异常检测模型在面对不平衡样本集时存在参数优化困难、少数类识别效果差等问题,提出一种组合模型以实现不平衡数据集的异常检测和分类。首先利用支撑向量数据描述构造闭合曲面实现“异常”检测,然后提出改进少数样本合成技术对“异常”数据进行过采样以构建平衡数据集,最后利用所提最大类间-类内距K-均值聚类进行自动聚类,实现3种异常数据的分类判决。结果表明,所提方法能够获得较高的异常检测和分类性能,并且具有较强的泛化能力。 展开更多
关键词 异常检测及分 不平衡数据 最大间-内距K-均值聚 少数样本合成技术 过采样
在线阅读 下载PDF
基于单类支持向量机与KNN的两阶段不平衡数据分类
11
作者 刘阳 江峰 《计算机与数字工程》 2023年第4期769-774,982,共7页
针对单类支持向量机算法无法对不平衡数据集中的边界和离群样本进行准确分类的问题,将单类支持向量机与K近邻算法结合在一起,提出一种基于单类支持向量机与K近邻的两阶段不平衡数据分类算法TSC-OSK。TSC-OSK首先对训练集中的多数类样本... 针对单类支持向量机算法无法对不平衡数据集中的边界和离群样本进行准确分类的问题,将单类支持向量机与K近邻算法结合在一起,提出一种基于单类支持向量机与K近邻的两阶段不平衡数据分类算法TSC-OSK。TSC-OSK首先对训练集中的多数类样本与少数类样本分别进行拟合构建出两个单类支持向量机分类器,利用这两个分类器分别对测试样本进行第1阶段的分类,并将分类结果相互组合验证,将所有样本被划分成多数类、少数类、边界和离群这四种类型;再引入K近邻算法对边界和离群样本进行第2阶段分类,从而避免单类支持向量机算法在这些样本上的预测偏差。在多个不平衡数据集上的实验表明,相对于现有的不平衡数据处理方法,TSC-OSK能够取得更好的分类性能。 展开更多
关键词 不平衡数据 支持向量机 K近邻 边界样本 离群样本
在线阅读 下载PDF
基于TLR-ADASYN平衡化数据集的MSSA-SVM变压器故障诊断 被引量:52
12
作者 余松 胡东 +2 位作者 唐超 张丞鸣 谭为民 《高电压技术》 EI CAS CSCD 北大核心 2021年第11期3845-3853,共9页
变压器的稳定运行在电力系统安全中扮演重要角色,而变压器故障数据样本的不足会对故障类型的准确识别产生严重影响。论文首先使用了托梅克链接移除和自适应样本合成的方法对原始数据进行去噪处理及少数类数据样本合成;然后修正了部分麻... 变压器的稳定运行在电力系统安全中扮演重要角色,而变压器故障数据样本的不足会对故障类型的准确识别产生严重影响。论文首先使用了托梅克链接移除和自适应样本合成的方法对原始数据进行去噪处理及少数类数据样本合成;然后修正了部分麻雀算法(sparrow search algorithm,SSA)公式,并将其与差分进化算法融合,提出了改良麻雀算法(modified sparrow search algorithm,MSSA);接着构建了一种基于平衡数据集的改良麻雀算法优化支持向量机(modified sparrow search algorithm-support vector machine,MSSA-SVM)的变压器故障诊断模型;最后对BP神经网络(BP neural network,BPNN)、粒子群优化支持向量机(particle swarm optimization-support vector machine,PSO-SVM)、麻雀算法优化支持向量机(sparrow search algorithm-support vector machine,SSA-SVM)和MSSA-SVM进行对比仿真实验。结果显示,各类模型在使用平衡数据集后的平均准确率分别提升了3.12%、6.03%、7.58%、10.23%,验证了所提不平衡数据处理方法的有效性;另外,PSO-SVM、SSA-SVM、MSSA-SVM分别迭代了30次、26次和20次后收敛,其在测试集中Kappa系数分别为0.758、0.785和0.870,这表明了MSSA在该模型优化上具有更强的全局搜索能力。仿真结果说明在变压器数据不平衡的实际背景下,所提变压故障诊断方法具有较高的优越性。 展开更多
关键词 电力变压器 故障诊断 不平衡类样本数据处理 MSSA-SVM Kappa系数
在线阅读 下载PDF
高维类不平衡冠心病数据的变量选择
13
作者 宗敏洁 吴愿交 卢秀青 《数字技术与应用》 2022年第9期129-132,共4页
近几年,随着大数据概念的不断升温,学术界及产业界对不平衡数据处理问题的研究热情仍未消退,且呈现逐渐升温的趋势,医疗数据成为其重要处理对象。医疗数据的特征是高度不平衡性、变量相关性程度高且维度高。该文首先对数据集进行相关性... 近几年,随着大数据概念的不断升温,学术界及产业界对不平衡数据处理问题的研究热情仍未消退,且呈现逐渐升温的趋势,医疗数据成为其重要处理对象。医疗数据的特征是高度不平衡性、变量相关性程度高且维度高。该文首先对数据集进行相关性分析,得出变量间存在严重的相关性,变量之间存在相关性会对分类结果产生影响。 展开更多
关键词 变量选择 医疗数据 数据处理问题 变量相关性 不平衡 结果 相关性分析 数据
在线阅读 下载PDF
基于改进SMOTE的不平衡数据挖掘方法研究 被引量:31
14
作者 杨智明 乔立岩 彭喜元 《电子学报》 EI CAS CSCD 北大核心 2007年第B12期22-26,共5页
少类样本合成过采样技术(SMOTE)是一种新型的过采样方法,能够有效地处理不平衡数据分类问题,但SMOTE在产生合成样本的过程中,存在一定的盲目性.因此本文提出一种改进的过采样方法一自适应SMOTE,根据样本集内部分布特性,自适应调... 少类样本合成过采样技术(SMOTE)是一种新型的过采样方法,能够有效地处理不平衡数据分类问题,但SMOTE在产生合成样本的过程中,存在一定的盲目性.因此本文提出一种改进的过采样方法一自适应SMOTE,根据样本集内部分布特性,自适应调整SMOTE方法中近邻选择策略,控制合成样本的质量.算法分析和仿真结果表明,文中提出的方法在不影响计算复杂度的前提下,有效地提高了分类算法的整体分类准确率。 展开更多
关键词 不平衡数据 样本合成过采样技术 自适应SMOTE 合成样本 近邻选择策略
在线阅读 下载PDF
基于主动学习SMOTE的非均衡数据分类 被引量:23
15
作者 张永 李卓然 刘小丹 《计算机应用与软件》 CSCD 北大核心 2012年第3期91-93,162,共4页
少数类样本合成过采样技术(SMOTE)是一种典型的过采样数据预处理方法,它能够有效平衡非均衡数据,但会带来噪音等问题,影响分类精度。为解决此问题,借助主动学习支持向量机的分类性能,提出一种基于主动学习SMOTE的非均衡数据分类方法 ALS... 少数类样本合成过采样技术(SMOTE)是一种典型的过采样数据预处理方法,它能够有效平衡非均衡数据,但会带来噪音等问题,影响分类精度。为解决此问题,借助主动学习支持向量机的分类性能,提出一种基于主动学习SMOTE的非均衡数据分类方法 ALSMOTE。由于主动学习支持向量机采用基于距离的主动选择最佳样本的学习策略,因此能够主动选择非均衡数据中的有价值的多数类样本,舍弃价值较小的样本,从而提高运算效率,改进SMOTE带来的问题。首先运用SMOTE方法均衡小部分样本,得到初始分类器;然后利用主动学习策略调整分类器精度。实验结果表明,该方法有效提高了非均衡数据的分类准确率。 展开更多
关键词 主动学习 不平衡数据 少数样本合成过采样技术 支持向量机
在线阅读 下载PDF
面向不平衡数据集的改进型SMOTE算法 被引量:26
16
作者 王超学 张涛 马春森 《计算机科学与探索》 CSCD 2014年第6期727-734,共8页
针对SMOTE(synthetic minority over-sampling technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法GA-SMOTE。该算法的关键将是遗传算法中的3个基本算子引入到SMOTE中,利用选择算子实现对少数类样本有区别的选择,使... 针对SMOTE(synthetic minority over-sampling technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法GA-SMOTE。该算法的关键将是遗传算法中的3个基本算子引入到SMOTE中,利用选择算子实现对少数类样本有区别的选择,使用交叉、变异算子实现对合成样本质量的控制。结合GA-SMOTE与SVM(support vector machine)算法来处理不平衡数据的分类问题。UCI数据集上的大量实验表明,GA-SMOTE在新样本的整体合成效果上表现出色,有效提高了SVM在不平衡数据集上的分类性能。 展开更多
关键词 不平衡数据 遗传算子 少数样本合成过采样技术(SMOTE) SYNTHETIC MINORITY OVER-SAMPLING technique (SMOTE)
在线阅读 下载PDF
融合过抽样和欠抽样的不平衡数据重抽样方法 被引量:15
17
作者 吴磊 房斌 +2 位作者 刁丽萍 陈静 谢娜娜 《计算机工程与应用》 CSCD 2013年第21期172-176,185,共6页
在机器学习领域的研究当中,分类器的性能会受到许多方面的影响,其中训练数据的不平衡对分类器的影响尤为严重。训练数据的不平衡也就是指在提供的训练数据集中,一类的样本总数远多于另一类的样本总数。常用的不平衡数据的处理方法有很多... 在机器学习领域的研究当中,分类器的性能会受到许多方面的影响,其中训练数据的不平衡对分类器的影响尤为严重。训练数据的不平衡也就是指在提供的训练数据集中,一类的样本总数远多于另一类的样本总数。常用的不平衡数据的处理方法有很多,只探讨利用重抽样方法对不平衡数据进行预处理来提高分类效果的方法。数据抽样算法有很多,但可以归为两大类:过抽样和欠抽样。针对二分类问题提出了四种融合过抽样和欠抽样算法的重抽样方法:BSM+Tomek、BSM+ENN、CBOS+Tomek和CBOS+ENN,并且与另外十种经典的重抽样算法做了大量的对比实验,实验证明提出的四种预处理算法在多种评价指标下提高了不平衡数据的分类效果。 展开更多
关键词 不平衡数据 重抽样 基于聚的过抽样算法(CBOS) 基于边界值的虚拟少数向上采样算法(BSM) 可选择最 近邻算法(ENN) Tomek LINKS 处理
在线阅读 下载PDF
软件缺陷预测中的数据预处理方法 被引量:11
18
作者 潘春霞 杨秋辉 +2 位作者 谭武坤 邓惠心 伍佳 《计算机应用》 CSCD 北大核心 2020年第11期3273-3279,共7页
软件缺陷预测是软件质量保障领域的热点研究课题,缺陷预测模型的质量与训练数据有密切关系。用于缺陷预测的数据集主要存在数据特征的选择和数据类不平衡问题。针对数据特征选择问题,采用软件开发常用的过程特征和新提出的扩展过程特征... 软件缺陷预测是软件质量保障领域的热点研究课题,缺陷预测模型的质量与训练数据有密切关系。用于缺陷预测的数据集主要存在数据特征的选择和数据类不平衡问题。针对数据特征选择问题,采用软件开发常用的过程特征和新提出的扩展过程特征,然后采用基于聚类分析的特征选择算法进行特征选择;针对数据类不平衡问题,提出改进的Borderline-SMOTE过采样方法,使得训练数据集的正负样本数量相对平衡且合成样本的特征更符合实际样本特征。采用bugzilla、jUnit等项目的开源数据集进行实验,结果表明:所采用的特征选择算法在保证模型F⁃measure值的同时,可以降低57.94%的模型训练时间;使用改进的Borderline-SMOTE方法处理样本得到的缺陷预测模型在Precision、Recall、F⁃measure、AUC指标上比原始方法得到的模型平均分别提高了2.36个百分点、1.8个百分点、2.13个百分点、2.36个百分点;引入了扩展过程特征得到的缺陷预测模型比未引入扩展过程特征得到的模型在F⁃measure值上平均提高了3.79%;与文献中的方法得到的模型相比,所提方法得到的模型在F⁃measure值上平均提高了15.79%。实验结果证明所提方法能有效提升缺陷预测模型的质量。 展开更多
关键词 缺陷预测 数据处理 开发过程特征 特征选择 不平衡处理
在线阅读 下载PDF
一种基于SVM的非均衡数据集过采样方法 被引量:16
19
作者 张忠林 冯宜邦 赵中恺 《计算机工程与应用》 CSCD 北大核心 2020年第23期220-228,共9页
针对不平衡数据集分类结果偏向多数类的问题,重采样技术是解决此问题的有效方法之一。而传统过采样算法易合成无效样本,欠采样方法易剔除重要样本信息。基于此提出一种基于SVM的不平衡数据过采样方法SVMOM(Oversampling Method Based on... 针对不平衡数据集分类结果偏向多数类的问题,重采样技术是解决此问题的有效方法之一。而传统过采样算法易合成无效样本,欠采样方法易剔除重要样本信息。基于此提出一种基于SVM的不平衡数据过采样方法SVMOM(Oversampling Method Based on SVM)。SVMOM通过迭代合成样本。在迭代过程中,通过SVM得到分类超平面;根据每个少数类样本到分类超平面的距离赋予样本距离权重;同时考虑少数类样本的类内平衡,根据样本的分布计算样本的密度,赋予样本密度权重;依据样本的距离权重和密度权重计算每个少数类样本的选择权重,根据样本的选择权重选择样本运用SMOTE合成新样本,达到平衡数据集的目的。实验结果表明,提出的算法在一定程度上解决了分类结果偏向多数类的问题,验证了算法的有效性。 展开更多
关键词 不平衡数据 支持向量机(SVM) 过采样 样本权重 合成少数过采样技术(SMOTE)
在线阅读 下载PDF
改进边界分类的Borderline-SMOTE过采样方法 被引量:4
20
作者 马贺 宋媚 祝义 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第6期1003-1012,共10页
针对不平衡数据中类重叠区域易造成分类错误的问题,提出一种引入合成因子改进边界分类的Borderline-SMOTE过采样方法(IBSM).首先根据少数类样本近邻分布情况找出处于边界的少数类样本,然后计算边界样本对应的合成因子,并根据其取值更新... 针对不平衡数据中类重叠区域易造成分类错误的问题,提出一种引入合成因子改进边界分类的Borderline-SMOTE过采样方法(IBSM).首先根据少数类样本近邻分布情况找出处于边界的少数类样本,然后计算边界样本对应的合成因子,并根据其取值更新该样本需生成的样本数,最后在近邻中根据合成因子挑选距离最近的top-Z少数类样本进行新样本生成.将提出的方法与八种采样方法在KNN和SVM两种分类器、10个KEEL不平衡数据集上进行对比实验,结果表明,提出的方法在大部分数据集上的F1,G-mean,AUC(Area under Curve)均获得最优值,且F1与AUC的Friedman排名最优,证明所提方法和其余采样方法相比,在处理不平衡数据中的边界样本分类问题时有更好的表现,通过合成因子设定一定的约束条件与分配策略,可以为同类研究提供思路. 展开更多
关键词 不平衡数据 边界样本 重叠 Borderline-SMOTE 过采样
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部