期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于海林格距离和SMOTE的多类不平衡学习算法 被引量:11
1
作者 董明刚 姜振龙 敬超 《计算机科学》 CSCD 北大核心 2020年第1期102-109,共8页
数据不平衡现象在现实生活中普遍存在。在处理不平衡数据时,传统的机器学习算法难以达到令人满意的效果。少数类样本合成上采样技术(Synthetic Minority Oversampling Technique,SMOTE)是一种有效的方法,但在多类不平衡数据中,边界点分... 数据不平衡现象在现实生活中普遍存在。在处理不平衡数据时,传统的机器学习算法难以达到令人满意的效果。少数类样本合成上采样技术(Synthetic Minority Oversampling Technique,SMOTE)是一种有效的方法,但在多类不平衡数据中,边界点分布错乱和类别分布不连续变得更加复杂,导致合成的样本点会侵入其他类别区域,造成数据过泛化。鉴于基于海林格距离的决策树已被证明对不平衡数据具有不敏感性,文中结合海林格距离和SMOTE,提出了一种基于海林格距离和SMOTE的上采样算法(Based on Hellinger Distance and SMOTE Oversampling Algorithm,HDSMOTE)。首先,建立基于海林格距离的采样方向选择策略,通过比较少数类样本点的局部近邻域内的海林格距离的大小,来引导合成样本点的方向。其次,设计了基于海林格距离的采样质量评估策略,以免合成的样本点侵入其他类别的区域,降低过泛化的风险。最后,采用7种代表性的上采样算法和HDSMOTE算法对15个多类不平衡数据集进行预处理,使用决策树的分类器进行分类,以Precision,Recall,F-measure,G-mean和MAUC作为评价标准对各算法的性能进行评价。实验结果表明,相比于对比算法,HDSMOTE算法在以上评价标准上均有所提升:在Precision上最高提升了17.07%,在Recall上最高提升了21.74%,在F-measure上最高提升了19.63%,在G-mean上最高提升了16.37%,在MAUC上最高提升了8.51%。HDSMOTE相对于7种代表性的上采样方法,在处理多类不平衡数据时有更好的分类效果。 展开更多
关键词 SMOTE 上采样 海林格距离 类不平衡学习
在线阅读 下载PDF
基于AdaBoost的类不平衡学习算法 被引量:11
2
作者 秦孟梅 邱建林 +2 位作者 陆鹏程 陈璐璐 赵伟康 《计算机应用研究》 CSCD 北大核心 2017年第11期3229-3232,3254,共5页
处理类不平衡数据时,少数类的边界实例非常容易被错分。为了降低类不平衡对分类器性能的影响,提出了自适应边界采样算法(AB-SMOTE)。AB-SMOTE算法对少数类的边界样本进行自适应采样,提高了数据集的平衡度和有效性;同时将AB-SMOTE算法与... 处理类不平衡数据时,少数类的边界实例非常容易被错分。为了降低类不平衡对分类器性能的影响,提出了自适应边界采样算法(AB-SMOTE)。AB-SMOTE算法对少数类的边界样本进行自适应采样,提高了数据集的平衡度和有效性;同时将AB-SMOTE算法与数据清理技术融合,形成基于Ada Boost的集成算法ABTAdaBoost。ABTAda Boost算法主要包括三个阶段:对训练数据集采用AB-SMOTE算法,降低数据集的类不平衡度;使用Tomek links数据清理技术清除数据集中的噪声和抽样方法产生的重叠样例,有效提高数据的可用性;使用Ada Boost集成算法生成一个基于N个弱分类器的集成分类器。实验分别以J48决策树和朴素贝叶斯作为基分类器,在12个UCI数据集上的实验结果表明,ABTAda Boost算法的预测性能优于其他几种算法。 展开更多
关键词 机器学习 类不平衡学习 集成学习 SMOTE 数据清理技术
在线阅读 下载PDF
基于Bagging集成学习的多集类不平衡学习 被引量:7
3
作者 肖梁 韩璐 +3 位作者 魏鹏飞 郑鑫浩 张上 吴飞 《计算机技术与发展》 2021年第10期1-6,共6页
类不平衡分类问题是模式识别与机器学习领域研究的热点问题之一,广泛出现在软件缺陷预测、医疗诊断、目标检测等实际应用场景中。现有的类不平衡学习算法通常关注如何通过减少多数类样本数量或增加少数类样本数量来平衡数据集,而忽视了... 类不平衡分类问题是模式识别与机器学习领域研究的热点问题之一,广泛出现在软件缺陷预测、医疗诊断、目标检测等实际应用场景中。现有的类不平衡学习算法通常关注如何通过减少多数类样本数量或增加少数类样本数量来平衡数据集,而忽视了类不平衡数据中常存在的噪声样本以及各类样本间分布重叠的问题,导致算法的分类性能有待提升。为解决上述问题,提出基于Bagging集成学习的多集类不平衡学习算法。该算法由基于Bagging的多集构建和特征提取与多集融合两个模块构成,基于Bagging的多集构建部分通过改进的重采样算法构建多个平衡训练集并去除多数类样本中的噪声样本;特征提取与多集融合部分利用线性判别分析提高样本分离度并融合多个训练集所训练的分类器的预测结果。实验结果表明,该方法具有良好的类不平衡分类性能。 展开更多
关键词 类不平衡学习 重采样 线性判别分析 集成学习 多集学习
在线阅读 下载PDF
基于类不平衡学习的蛋白质与金属离子交互位点预测 被引量:1
4
作者 乔梁 谢冬青 《南京理工大学学报》 EI CAS CSCD 北大核心 2018年第6期707-715,共9页
为了提高蛋白质与金属离子的交互位点(PMIIS)预测的准确率,从解决数据分布不平衡问题出发,提出了1种结合下采样与上采样方法的类不平衡学习算法。同时对多数类样本与少数类样本进行采样,在补充少数类样本信息的同时,减少多数类样本的冗... 为了提高蛋白质与金属离子的交互位点(PMIIS)预测的准确率,从解决数据分布不平衡问题出发,提出了1种结合下采样与上采样方法的类不平衡学习算法。同时对多数类样本与少数类样本进行采样,在补充少数类样本信息的同时,减少多数类样本的冗余信息。基于该文类不平衡学习算法与支持向量机(SVM),设计了1种基于序列信息的预测方法。为了客观评价PMIIS的预测性能,构建了领域内较为完备的、含有蛋白质与Zn^(2+)、Ca^(2+)与Fe^(3+)交互位点的标准数据集。在此数据集上的实验结果表明,该文预测方法在蛋白质与Zn^(2+)、Ca^(2+)与Fe^(3+)交互位点预测问题上的平均马氏相关系数(MCC)为0.646,优于TargetS与IonCom。 展开更多
关键词 类不平衡学习 蛋白质与金属离子 交互位点 预测 支持向量机
在线阅读 下载PDF
类不平衡模糊加权极限学习机算法研究 被引量:7
5
作者 于化龙 祁云嵩 +1 位作者 杨习贝 左欣 《计算机科学与探索》 CSCD 北大核心 2017年第4期619-632,共14页
从理论上分析了样例不平衡分布对极限学习机性能产生危害的原因;在该理论框架下探讨了加权极限学习机在处理此类问题上的有效性及其固有缺陷;引入模糊集的思想,对传统的加权极限学习机进行了改进,并提出了4种用于解决类不平衡问题的模... 从理论上分析了样例不平衡分布对极限学习机性能产生危害的原因;在该理论框架下探讨了加权极限学习机在处理此类问题上的有效性及其固有缺陷;引入模糊集的思想,对传统的加权极限学习机进行了改进,并提出了4种用于解决类不平衡问题的模糊加权极限学习机算法;最后通过20个基准的二类不平衡数据集对所提算法的有效性和可行性进行了验证。实验结果表明:较之加权极限学习机及几种传统的不平衡极限学习机算法,提出的算法可明显获得更优的分类性能,并且与模糊加权支持向量机系列算法相比,所提算法通常可获得与之相当的分类性能,但时间开销往往更小。 展开更多
关键词 极限学习 类不平衡学习 模糊加权 先验分布信息
在线阅读 下载PDF
基于类不平衡和特征选择的两阶段垃圾评论检测方法 被引量:1
6
作者 曲豫宾 李芳 陈翔 《江苏工程职业技术学院学报》 2017年第4期16-20,共5页
用户在电商平台购买商品的时候,其他用户对相关商品的评论起着重要引导作用。出于影响用户购买倾向等目的,部分商家在电商平台存在恶意刷评论的行为。已有的垃圾评论识别研究重点从用户的购买行为等方面进行数据挖掘,目前还没有研究人... 用户在电商平台购买商品的时候,其他用户对相关商品的评论起着重要引导作用。出于影响用户购买倾向等目的,部分商家在电商平台存在恶意刷评论的行为。已有的垃圾评论识别研究重点从用户的购买行为等方面进行数据挖掘,目前还没有研究人员从中文电商平台的垃圾评论内容角度展开研究。从国内某一知名电商平台抓取相关数据,根据行为模式确定强疑似垃圾评论;针对搜集的数据集内存在的类不平衡问题和维度灾难问题,设计出了一种两阶段垃圾评论检测方法。实证研究表明,该方法构建的模型相对于仅考虑类不平衡或仅考虑维数灾难的基准方法,具有更好的分类效果。 展开更多
关键词 垃圾评论检测 类不平衡学习 特征选择 实证研究
在线阅读 下载PDF
面向软件缺陷预测的聚类欠采样集成方法 被引量:3
7
作者 陆鹏程 邱建林 +2 位作者 卞彩峰 陈璐璐 陈翔 《计算机工程与设计》 北大核心 2016年第7期1805-1810,1891,共7页
为缓解类不平衡问题对预测模型性能的影响,提出一种基于聚类的欠采样集成方法 CBUE(cluster-based undersampling ensemble method)。对多数类进行聚类分析,根据聚类的结果分布(即每个簇的大小比例)有放回地选择N个多数类的子集,N个子... 为缓解类不平衡问题对预测模型性能的影响,提出一种基于聚类的欠采样集成方法 CBUE(cluster-based undersampling ensemble method)。对多数类进行聚类分析,根据聚类的结果分布(即每个簇的大小比例)有放回地选择N个多数类的子集,N个子集分别和所有的少数类实例组成N个新的训练集;根据N个训练集训练出N个分类器,按照少数服从多数的原则生成一个新的集成分类器对新的数据进行预测。CBUE以NASA数据集作为评测对象,以balance、G-mean和AUC为评测指标,实验结果表明,该方法在大部分情况下要优于5种经典的基准方法 (ROS、RUS、SMOTE、RF和NB)。 展开更多
关键词 类不平衡学习 软件缺陷预测 集成学习方法 欠采样
在线阅读 下载PDF
基于OCkNN+ENN的过采样算法研究
8
作者 张爱民 于化龙 《计算机与数字工程》 2024年第5期1275-1281,1330,共8页
类不平衡学习是机器学习领域热点问题之一。在类别不平衡学习方法中,SMOTE被认为是其中的一个基准算法。虽然SMOTE算法在绝大多数的类不平衡数据集上表现良好,但它也存在一些问题,如会产生噪声干扰和噪声传播。基于对SMOTE改进算法的研... 类不平衡学习是机器学习领域热点问题之一。在类别不平衡学习方法中,SMOTE被认为是其中的一个基准算法。虽然SMOTE算法在绝大多数的类不平衡数据集上表现良好,但它也存在一些问题,如会产生噪声干扰和噪声传播。基于对SMOTE改进算法的研究,提出了一种更加鲁棒和通用的算法:ONE-SMOTE。研究发现:使用ENN进行数据清洗,可以很好地消除数据噪声,使用基于KNN的一类分类器(OCkNN)可以探测样本空间的相对密度分布信息,并精确定位每个样本的相对密度位置以及边界。基于样本位置信息进行过采样可以很好地保持原始样本空间的密度分布。实验结果表明:该算法能有效提高数据分类的准确性。 展开更多
关键词 类不平衡学习 SMOTE ENN OCkNN 相对密度分布信息
在线阅读 下载PDF
SBFS:基于搜索的软件缺陷预测特征选择框架 被引量:6
9
作者 陈翔 陆凌姣 +1 位作者 吉人 魏世鑫 《计算机应用研究》 CSCD 北大核心 2017年第4期1105-1108,1119,共5页
在搜集缺陷预测数据集的时候,由于考虑了大量与代码复杂度或开发过程相关的度量元,造成数据集内存在维数灾难的问题。借助基于搜索的软件工程思想,提出一种新颖的基于搜索的包裹式特征选择框架SBFS。该框架在实现时,首先借助SMOTE方法... 在搜集缺陷预测数据集的时候,由于考虑了大量与代码复杂度或开发过程相关的度量元,造成数据集内存在维数灾难的问题。借助基于搜索的软件工程思想,提出一种新颖的基于搜索的包裹式特征选择框架SBFS。该框架在实现时,首先借助SMOTE方法来缓解数据集内存在的类不平衡问题,随后借助基于遗传算法的特征选择方法,基于训练集选出最优特征子集。在实证研究中,以NASA数据集作为评测对象,以基于前向选择策略的包裹式特征选择方法 FW、基于后向选择策略的包裹式特征选择方法 BW、不进行特征选择的方法 Origin作为基准方法。最终实证研究结果表明:SBFS方法在90%的情况下,不差于Origin法;在82.3%的情况下,不差于BW法;在69.3%的情况下,不差于FW法。除此之外,若基于决策树分类器,则应用SMOTE方法后,可以在71%的情况下提高模型性能;而基于朴素贝叶斯和Logistic回归分类器,则应用SMOTE方法后,仅可以在47%和43%的情况下提高模型的预测性能。 展开更多
关键词 软件缺陷预测 特征选择 基于搜索的软件工程 类不平衡学习
在线阅读 下载PDF
基于启发式BP算法的软件缺陷预测模型 被引量:2
10
作者 刘影 孙凤丽 +2 位作者 郭栋 张泽奇 杨隽 《测控技术》 2020年第12期111-115,共5页
针对软件缺陷预测时缺陷数据集中存在的类别分布不平衡问题,结合上采样算法SMOTE与Edited Nearest Neighbor (ENN)数据清洗策略,提出了一种基于启发式BP神经网络算法的软件缺陷预测模型。模型中采用上采样算法SMOTE增加少数类样本以改... 针对软件缺陷预测时缺陷数据集中存在的类别分布不平衡问题,结合上采样算法SMOTE与Edited Nearest Neighbor (ENN)数据清洗策略,提出了一种基于启发式BP神经网络算法的软件缺陷预测模型。模型中采用上采样算法SMOTE增加少数类样本以改善项目中的数据不平衡状况,并针对采样后数据噪声问题进行ENN数据清洗,结合基于启发式学习的模拟退火算法改进四层BP神经网络后建立分类预测模型,在AEEEM数据库上使用交叉验证对提出的方案进行性能评估,结果表明所提出的算法能够有效提高模型在预测类不平衡数据时的分类准确度。 展开更多
关键词 软件缺陷预测 类不平衡学习 BP神经网络
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部