期刊文献+
共找到127篇文章
< 1 2 7 >
每页显示 20 50 100
基于改进合成少数类过采样技术的非概率可靠性指标解 被引量:1
1
作者 张梦 陈旭勇 +1 位作者 彭元林 李书雅 《武汉工程大学学报》 CAS 2024年第2期231-236,共6页
当结构的功能函数呈现高度非线性、极限状态曲面为多区域的情形时,现有算法无法有效求解非概率可靠性指标,为解决此类问题,将合成少数类过采样技术(SMOTE)进行改进,提出了基于改进SMOTE算法的非概率可靠性指标解法。首先基于非概率可靠... 当结构的功能函数呈现高度非线性、极限状态曲面为多区域的情形时,现有算法无法有效求解非概率可靠性指标,为解决此类问题,将合成少数类过采样技术(SMOTE)进行改进,提出了基于改进SMOTE算法的非概率可靠性指标解法。首先基于非概率可靠性指标的几何意义,将样本分类策略、超球限制策略与标准SMOTE算法相结合,提出了改进SMOTE算法来进一步提升算法在极限状态曲面附近的采样效率;然后结合改进SMOTE算法在标准化空间中高精度的拟合局部极限状态曲面,进而搜索得到非概率可靠性指标;最后给出了基于改进SMOTE算法的非概率可靠性指标解的主要流程。数值算例表明,当极限状态曲面呈现局部闭合、多区域的特点时,改进后的SMOTE算法可以高效地获取位于极限状态曲面附近的样本点,进而高精度地拟合极限状态曲面。将本文方法的计算结果与解析解对比,相对误差远远小于工程中的最大误差限值5%,说明改进SMOTE算法能够较好地处理高度非线性功能函数,验证了所提算法的有效性和实用性。 展开更多
关键词 非概率可靠性指标 合成少数过采样技术 样本策略 超球限制策略 极限状态曲面
在线阅读 下载PDF
基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法 被引量:19
2
作者 霍玉丹 谷琼 +1 位作者 蔡之华 袁磊 《计算机应用》 CSCD 北大核心 2015年第1期121-124,139,共5页
针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍... 针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍率,并将这些采样倍率取值的组合编码为种群中的个体;然后,循环使用GA的选择、交叉、变异等算子对种群进行优化,在达到停机条件时获得采样倍率取值的最优组合;最后,根据找到的最优组合对非平衡数据集进行SMOTE采样。在10个典型的非平衡数据集上进行的实验结果表明:与SMOTE算法相比,GASMOTE在F-measure值上提高了5.9个百分点,在G-mean值上提高了1.6个百分点;与Borderline-SMOTE算法相比,GASMOTE在F-measure值上提高了3.7个百分点,在G-mean值上提高了2.3个百分点。该方法可作为一种新的解决非平衡数据集分类问题的过采样技术。 展开更多
关键词 非平衡数据集 少数样本合成过采样技术 采样倍率 遗传算法
在线阅读 下载PDF
基于少数类样品合成过抽样技术算法的血液透析患者动静脉内瘘功能不良的预测模型建立
3
作者 黄建钰 端靓靓 《临床肾脏病杂志》 2024年第5期378-384,共7页
目的分析血液透析患者动静脉内瘘(arteriovenous fistula,AVF)功能不良的危险因素,并基于少数类样品合成过抽样技术(synthetic minority oversampling technique,SMOTE)算法建立风险预警模型。方法选取安庆市立医院2019年1月1日至2021... 目的分析血液透析患者动静脉内瘘(arteriovenous fistula,AVF)功能不良的危险因素,并基于少数类样品合成过抽样技术(synthetic minority oversampling technique,SMOTE)算法建立风险预警模型。方法选取安庆市立医院2019年1月1日至2021年12月31日期间在肾内科就诊且以AVF作为透析通路的血液透析患者400例作为研究对象,根据血液透析患者AVF功能将其分为AVF功能不良组(81例)和AVF功能正常组(319例),分析所选血液透析患者的临床资料,并通过单因素与多因素Logistic回归分析筛选血液透析患者AVF功能不良的危险因素,再通过SMOTE算法对上述危险因素的数据进行重建,从而获得血液透析患者AVF功能不良风险预警模型,并对两种模型的预测效能进行比较。结果女性、糖尿病、白蛋白<35 g/L、C反应蛋白≥25 mg/L、血磷>2 mmol/L、AVF狭窄为血液透析患者AVF功能不良的危险因素(P<0.05)。根据上述危险因素及回归系数,获得原始预警模型P1预警模型的受试者工作特征曲线曲线下面积为0.787(95%CI:0.743~0.831),P2预警模型的受试者工作特征曲线曲线下面积为0.870(95%CI:0.812~0.928),基于SMOTE算法预警模型的真正类率值比原始数据预警模型(0.731比0.763)低,而PPV值(0.742比0.866)、F-score(0.729比0.886)均比原始数据预警模型高。结论女性、糖尿病、白蛋白<35 g/L、C反应蛋白≥25 mg/L、血磷>2 mmol/L、AVF狭窄为血液透析患者AVF功能不良的危险因素,根据上述危险因素构建的SMOTE预警模型相较于传统Logistic回归模型有着更高的预测价值。 展开更多
关键词 少数样品合成过抽样技术 肾透析 动静脉内瘘 功能不良 预测模型 血液透析
原文传递
基于新型采样技术的非平衡数据分类方法 被引量:1
4
作者 刘子桐 刘振远 +1 位作者 庞娜 马铭 《北华大学学报(自然科学版)》 CAS 2024年第5期694-700,共7页
在一些现实场景中,数据不平衡问题普遍存在,严重影响模型的预测结果。合成少数类过采样技术(Synthetic Minority Over-Sampling Technique,SMOTE)是解决非平衡分类问题的一种方法,但存在局限性。针对数据中的类不平衡问题,提出基于数据... 在一些现实场景中,数据不平衡问题普遍存在,严重影响模型的预测结果。合成少数类过采样技术(Synthetic Minority Over-Sampling Technique,SMOTE)是解决非平衡分类问题的一种方法,但存在局限性。针对数据中的类不平衡问题,提出基于数据分布和聚类加权的改进SMOTE随机森林分类算法(Random Forest Using SMOTE Based on Data Distribution and Cluster Weighting,DCSMOTE-RF)。该算法通过获取样本分布信息,将少数类样本划分到不同簇群,根据簇群信息量为每个区域分配不同合成份额;少数类样本结合自身权重,生成相应规模的目标样本;通过基于随机森林学习评价训练数据。10组非平衡数据集仿真试验结果表明,DCSMOTE-RF算法对非平衡数据具有较好的预测效果。 展开更多
关键词 非平衡分 合成少数过采样技术 随机森林
在线阅读 下载PDF
基于带多数类权重的少数类过采样技术和随机森林的信用评估方法 被引量:13
5
作者 田臣 周丽娟 《计算机应用》 CSCD 北大核心 2019年第6期1707-1712,共6页
针对信用评估中最为常见的不均衡数据集问题以及单个分类器在不平衡数据上分类效果有限的问题,提出了一种基于带多数类权重的少数类过采样技术和随机森林(MWMOTE-RF)结合的信用评估方法。首先,在数据预处理过程中利用MWMOTE技术增加少... 针对信用评估中最为常见的不均衡数据集问题以及单个分类器在不平衡数据上分类效果有限的问题,提出了一种基于带多数类权重的少数类过采样技术和随机森林(MWMOTE-RF)结合的信用评估方法。首先,在数据预处理过程中利用MWMOTE技术增加少数类别样本的样本数;然后,在预处理后的较平衡的新数据集上利用监督式机器学习算法中的随机森林算法对数据进行分类预测。使用受测者工作特征曲线下面积(AUC)作为分类评价指标,在UCI机器学习数据库中的德国信用卡数据集和某公司的汽车违约贷款数据集上的仿真实验表明,在相同数据集上,MWMOTE-RF方法与随机森林方法和朴素贝叶斯方法相比,AUC值分别提高了18%和20%。与此同时,随机森林方法分别与合成少数类过采样技术(SMOTE)方法和自适应综合过采样(ADASYN)方法结合,MWMOTE-RF方法与它们相比,AUC值分别提高了1.47%和2.34%,从而验证了所提方法的有效性及其对分类器性能的优化。 展开更多
关键词 不平衡数据集 机器学习 带多数权重的少数过采样技术 随机森林 信用评估
在线阅读 下载PDF
基于融合少数类过采样均衡多分类数据的改进极限学习机的变压器故障诊断方法 被引量:14
6
作者 王艳 李伟 +2 位作者 赵洪山 申宗旺 王寅初 《电网技术》 EI CSCD 北大核心 2023年第9期3799-3807,共9页
针对变压器小概率故障事件导致数据集不均衡时,严重影响故障识别能力的问题,提出一种基于融合少数类过采样(synthetic minority over-sampling technique,SMOTE)算法均衡多分类数据的改进麻雀搜索算法(improved sparrow search algorith... 针对变压器小概率故障事件导致数据集不均衡时,严重影响故障识别能力的问题,提出一种基于融合少数类过采样(synthetic minority over-sampling technique,SMOTE)算法均衡多分类数据的改进麻雀搜索算法(improved sparrow search algorithm,ISSA)优化极限学习机(extreme learning machine,ELM)的变压器故障诊断方法。首先,利用K-means算法对样本空间进行聚类,基于不平衡度选择聚类中心,利用SMOTE算法向聚类簇合成新样本以增强类内特征的聚合性;其次,针对边界区的样本,利用基于不同策略的Borderline-SMOTE算法向聚类簇合成新样本以增大类间特征的差异性;最后,利用基于Tent混沌映射的麻雀搜索算法(sparrow search algorithm,SSA)对极限学习机(extreme learning machine,ELM)模型中的输入权值和隐藏层偏置进行优化,以提高算法的全局搜索能力和模型的诊断精度。基于变压器油色谱数据的故障诊断实验结果表明:所提基于融合SMOTE均衡多分类数据的ISSA-ELM变压器故障诊断方法能够有效改善诊断模型对多数类的偏向问题,进一步提升模型的诊断精度、收敛速度和稳定性,适用于变压器非均衡数据集的多分类故障诊断。 展开更多
关键词 变压器 故障诊断 非均衡数据 合成少数过采样 麻雀搜索算法 极限学习机
在线阅读 下载PDF
针对样本类不平衡的深度残差网络电力系统暂态稳定评估方法 被引量:1
7
作者 刘颂凯 党喜 +3 位作者 崔梓琪 杨超 阮肇华 袁铭洋 《智慧电力》 北大核心 2024年第1期116-123,共8页
系统的量测数据可能受到噪声以及样本类分布不平衡问题的影响,导致基于数据驱动的暂态稳定评估模型性能下降。提出一种针对样本类不平衡的的深度残差网络电力系统暂态稳定评估方法。首先,利用改进过采样技术为滤除噪声的少数类样本构造... 系统的量测数据可能受到噪声以及样本类分布不平衡问题的影响,导致基于数据驱动的暂态稳定评估模型性能下降。提出一种针对样本类不平衡的的深度残差网络电力系统暂态稳定评估方法。首先,利用改进过采样技术为滤除噪声的少数类样本构造所需的新样本,改善样本类不平衡问题,并减少噪声的影响;然后,基于深度残差网络构建电力系统暂态稳定评估模型,解决梯度消失导致的模型性能退化问题,提高模型的鲁棒性和准确性;最后,在新英格兰10机39节点和47机140节点系统上的仿真结果表明,所提方法能减小噪声干扰、降低不平衡数据集所带来的影响和减少计算复杂度。 展开更多
关键词 暂态稳定评估 噪声问题 样本分布不平衡 改进合成少数过采样技术 深度残差网络
在线阅读 下载PDF
基于少数类过采样的倾向得分匹配插补法 被引量:4
8
作者 杨贵军 杜飞 孙玲莉 《统计与信息论坛》 CSSCI 北大核心 2021年第1期3-12,共10页
无回答在大数据应用中频繁发生。通常,实际数据的无回答率较低,在这样的情况下,采用倾向得分模型对无回答单元与回答单元进行匹配,易导致倾向得分匹配插补法的插补效果显著下降。为此,将合成少数类过采样算法的思想融入到倾向得分匹配... 无回答在大数据应用中频繁发生。通常,实际数据的无回答率较低,在这样的情况下,采用倾向得分模型对无回答单元与回答单元进行匹配,易导致倾向得分匹配插补法的插补效果显著下降。为此,将合成少数类过采样算法的思想融入到倾向得分匹配插补法中,提出基于少数类过采样的倾向得分匹配插补法。利用统计模拟与实证研究,在不同无回答率、插补重数和误差分布情形下,演示新插补法的统计性质和应用效果。统计模拟显示,新插补法具有明显高于倾向得分匹配插补法的精度,统计性质受无回答率、插补重数和误差分布的影响小。实证结果显示,新插补法在实际数据中具有较好的应用性。基于少数类过采样的倾向得分匹配插补法提供了处理无回答问题的新思路,并具有较好的扩展性。 展开更多
关键词 倾向得分匹配插补法 合成少数过采样算法 无回答率 无回答机制
在线阅读 下载PDF
聚类边界过采样不平衡数据分类方法 被引量:31
9
作者 楼晓俊 孙雨轩 刘海涛 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2013年第6期944-950,共7页
针对传统SMOTE过采样方法在生成合成样本的过程中存在的盲目性,以及对噪声敏感且容易出现过拟合现象的问题,提出一种改进的聚类边界样本过采样(CB-SMOTE)方法,通过引入"聚类一致性系数"找到少数类样本的边界,利用边界样本的... 针对传统SMOTE过采样方法在生成合成样本的过程中存在的盲目性,以及对噪声敏感且容易出现过拟合现象的问题,提出一种改进的聚类边界样本过采样(CB-SMOTE)方法,通过引入"聚类一致性系数"找到少数类样本的边界,利用边界样本的最近邻密度来剔除噪声点和确定合成样本的数量,对SMOTE方法的新样本合成规则进行了优化.该方法是一种指导性的过采样方法,合成样本更加有利于分类器的学习.通过实验对比6种不同方法在UCI公共数据集上的分类性能,结果表明:CB-SMOTE方法对少数类样本和多数类样本都具有较高的分类准确率,且对过采样倍数的变化具有更高的稳定性. 展开更多
关键词 不平衡数据 过采样 边界 最近邻密度 合成样本
在线阅读 下载PDF
利用采样安全系数的多类不平衡过采样算法 被引量:4
10
作者 董明刚 刘明 敬超 《计算机科学与探索》 CSCD 北大核心 2020年第10期1776-1786,共11页
传统的过采样算法在处理多类不平衡问题时容易出现过度泛化和类别重叠,从而降低了分类性能。为了提高多类不平衡学习性能,提出了一种利用采样安全系数的多类不平衡过采样(SSCMIO)算法。首先为了防止过度泛化,采用近邻采样安全系数为那... 传统的过采样算法在处理多类不平衡问题时容易出现过度泛化和类别重叠,从而降低了分类性能。为了提高多类不平衡学习性能,提出了一种利用采样安全系数的多类不平衡过采样(SSCMIO)算法。首先为了防止过度泛化,采用近邻采样安全系数为那些会造成过度泛化的邻域分配一个较小的权重。然后考虑到样本点的全局特性,采用反向近邻采样安全系数防止新合成的样本点侵入到其他类别区域,减轻类别之间的重叠问题。最后以C4.5决策树作为基分类器,将SSCMIO算法与7种典型的过采样算法进行了对比实验。在16个公开的真实数据集上,SSCMIO算法在准确率、召回率、F-measure、MG、MAUC这5个指标上均能取得11个以上的最优值,在5个指标上最大提升分别是0.4818、0.3053、0.3420、0.2664、0.1307。实验结果表明SSCMIO算法相比其他7种算法可以取得更好的分类性能。 展开更多
关键词 采样安全系数 过采样 合成少数技术 不平衡问题
在线阅读 下载PDF
融合簇边界移动与自适应合成的混合采样算法 被引量:4
11
作者 高雷阜 张梦瑶 赵世杰 《电子学报》 EI CAS CSCD 北大核心 2022年第10期2517-2529,共13页
针对伪负采样算法(Pseudo-Negative Sampling,PNS)存在的类内子聚集和类别重叠问题,提出一种融合簇边界负样本移动策略(Cluster Boundary Negative Movement Strategy,CBNMS)与自适应正样本合成技术(Adaptive Pos⁃itive Synthesis Techn... 针对伪负采样算法(Pseudo-Negative Sampling,PNS)存在的类内子聚集和类别重叠问题,提出一种融合簇边界负样本移动策略(Cluster Boundary Negative Movement Strategy,CBNMS)与自适应正样本合成技术(Adaptive Pos⁃itive Synthesis Technology,ADPST)的改进混合采样算法(Improved Cluster Boundary Negative Movement Strategy,ICB⁃NMS),以提升非均衡数据的整体分类性能和正类识别精度.CBNMS策略采用凝聚层次聚类对正负类样本进行划分,并通过各局部样本间相似关系识别潜在负类中且与正类相关性较大的簇边界负样本,提高采样的局部精确性和时效性.为进一步加强CBNMS策略对正样本重叠区域的识别性能,ICBNMS算法在簇边界负样本移动均衡化基础上,引入ADPST技术,利用稀疏度与距离复合因子组合加权以自适应确定最优样本生成区域,从而有效削弱样本的重叠性且丰富样本的多样性.实验结果表明,相比其他采样算法,ICBNMS算法在10个非均衡数据集的多组实验中G-mean和Fmeasure等指标获得最优值,且时间效率比CDSMOTE和PNS算法分别提升了32.27%和27.88%,凸显出更优越的鲁棒性和泛化性. 展开更多
关键词 非均衡数据分 凝聚层次聚 簇边界负样本移动 自适应正样本合成 混合采样
在线阅读 下载PDF
基于合成少数类过采样技术算法构建脓毒症合并急性呼吸窘迫综合征的预警模型
12
作者 段红伟 李晓静 +2 位作者 杨兴菊 王飞 杨逢永 《中华危重病急救医学》 CAS CSCD 北大核心 2024年第4期358-363,共6页
目的探讨脓毒症患者发生急性呼吸窘迫综合征(ARDS)的独立危险因素,建立预警模型,并基于合成少数类过采样技术(SMOTE)算法对模型进行预测价值验证。方法采用回顾性病例对照研究方法,选择2016年10月至2022年10月济南市人民医院收治的566... 目的探讨脓毒症患者发生急性呼吸窘迫综合征(ARDS)的独立危险因素,建立预警模型,并基于合成少数类过采样技术(SMOTE)算法对模型进行预测价值验证。方法采用回顾性病例对照研究方法,选择2016年10月至2022年10月济南市人民医院收治的566例脓毒症患者。收集患者的一般资料、基础疾病、感染部位、起始病因、病情严重程度评分、入院时血液指标和动脉血气分析指标、治疗措施、并发症及预后指标。根据患者住院期间是否发生ARDS分组,观察对比两组患者的临床资料;采用单因素和二元多因素Logistic回归分析筛选脓毒症患者住院期间发生ARDS的独立危险因素,并建立回归方程,构建预警模型,同时基于SMOTE算法改进数据集,构建改进数据集的预警模型;绘制受试者工作特征曲线(ROC曲线),对比验证模型的预测效能。结果566例脓毒症患者均纳入最终分析,其中163例在住院期间发生ARDS,403例未发生ARDS。单因素分析显示,两组患者年龄、体质量指数(BMI)、恶性肿瘤、输血史、胰腺及胰周感染、胃肠道感染、起始病因为肺部感染、急性生理学与慢性健康状况评分Ⅱ(APACHEⅡ)、序贯器官衰竭评分(SOFA)、白蛋白(Alb)、血尿素氮(BUN)、机械通气治疗、脓毒性休克比例及重症监护病房(ICU)住院时间差异均有统计学意义。二元多因素Logistic回归分析显示,年龄〔优势比(OR)=3.449,95%可信区间(95%CI)为2.197~5.414,P=0.000〕、起始病因为肺部感染(OR=2.309,95%CI为1.427~3.737,P=0.001)、胰腺及胰周感染(OR=1.937,95%CI为1.236~3.035,P=0.004)、脓毒性休克(OR=3.381,95%CI为1.890~6.047,P=0.000)、SOFA评分(OR=9.311,95%CI为5.831~14.867,P=0.000)为脓毒症患者住院期间发生ARDS的独立危险因素。基于上述危险因素建立预警模型:P1=-4.558+1.238×年龄+0.837×起始病因为肺部感染+0.661×胰腺及胰周感染+1.218×脓毒性休克+2.231×SOFA评分;ROC曲线分析显示,该模型预测脓毒症患者住院期间发生ARDS的ROC曲线下面积(AUC)为0.882(95%CI为0.851~0.914),敏感度为79.8%,特异度为83.4%。基于SMOTE算法改进数据集,再次构建预警模型:P_(2)=-3.279+1.288×年龄+0.763×起始病因为肺部感染+0.635×胰腺及胰周感染+1.068×脓毒性休克+2.201×SOFA评分;ROC曲线分析显示,该模型预测脓毒症患者住院期间发生ARDS的AUC为0.890(95%CI为0.867~0.913),敏感度为85.3%,特异度为79.1%,进一步验证了以上述独立危险因素构建的预警模型具有较高的预测效能。结论脓毒症患者住院期间发生ARDS的危险因素包括年龄、起始病因为肺部感染、胰腺及胰周感染、脓毒性休克和SOFA评分,临床上可依据基于上述危险因素建立的预警模型对脓毒症患者发生ARDS的概率进行评估,进而提前干预,改善预后。 展开更多
关键词 脓毒症 急性呼吸窘迫综合征 危险因素 回归方程 合成少数过采样技术算法
原文传递
基于密度峰值聚类和局部稀疏度的过采样算法 被引量:1
13
作者 吕佳 郭铭 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第3期483-494,共12页
现有的绝大多数过采样方法着重于寻找少数类样本的边界从而增强样本的可分性,忽略了样本的重叠分布与小析取问题,这导致在过采样阶段产生过多的噪声,最终无法实现对少数类样本的正确分类.针对这些问题,提出一种基于密度峰值聚类和局部... 现有的绝大多数过采样方法着重于寻找少数类样本的边界从而增强样本的可分性,忽略了样本的重叠分布与小析取问题,这导致在过采样阶段产生过多的噪声,最终无法实现对少数类样本的正确分类.针对这些问题,提出一种基于密度峰值聚类和局部稀疏度的过采样算法.首先利用改进的密度峰值聚类算法对全部样本自适应地划分出多个簇,根据簇内样本的不平衡比过滤掉不平衡比过高的簇,然后在筛选出的簇中根据少数类样本的分布情况对各簇的过采样个数进行分配,最后通过样本密度计算出各簇少数类样本的局部稀疏度,从中选择出稀疏度较高的少数类样本参与到最终的合成少数过采样.将提出的过采样算法与八种常用的过采样算法分别与三种基分类器相结合,在18个不平衡数据集上进行对比实验.实验结果表明,提出的算法总体上表现更优,能得到更好的分类性能. 展开更多
关键词 不平衡数据 密度峰值聚 过采样 局部稀疏度 合成少数过采样
在线阅读 下载PDF
基于混合采样的非平衡数据分类算法 被引量:20
14
作者 吴艺凡 梁吉业 王俊红 《计算机科学与探索》 CSCD 北大核心 2019年第2期342-349,共8页
过采样和欠采样方法是处理非平衡数据集分类的常用方法,但使用单一的采样算法可能造成少数类样本过拟合或者丢失含有重要信息的样本。提出了基于分类超平面的混合采样算法SVM_HS(hybrid sampling algorithm based on support vector mac... 过采样和欠采样方法是处理非平衡数据集分类的常用方法,但使用单一的采样算法可能造成少数类样本过拟合或者丢失含有重要信息的样本。提出了基于分类超平面的混合采样算法SVM_HS(hybrid sampling algorithm based on support vector machine),旨在克服SVM算法在处理非平衡数据时分类超平面容易偏向少数类样本的问题。该算法首先利用SVM算法得到分类超平面。然后迭代进行混合采样,主要包括:(1)删除离分类超平面较远的一些多数类样本;(2)对靠近真实类边界的少数类样本用SMOTE(synthetic minority oversampling technique)过采样,使分类超平面向着真实类边界方向偏移。实验结果表明相比其他相关算法,该算法的F-value值和G-mean值均有较大提高。 展开更多
关键词 非平衡 支持向量机(SVM) 少数样本过采样技术(SMOTE) 超平面 混合采样
在线阅读 下载PDF
一种非平衡数据分类的过采样随机森林算法 被引量:12
15
作者 赵锦阳 卢会国 +2 位作者 蒋娟萍 袁培培 柳学丽 《计算机应用与软件》 北大核心 2019年第4期255-261,316,共8页
在灾害天气、故障诊断、网络攻击和金融欺诈等领域经常存在不平衡的数据集。针对随机森林算法在非平衡数据集上表现的分类性能差的问题,提出一种新的过采样方法:SCSMOTE(Seed Center Synthetic Minority Over-sampling Technique)算法... 在灾害天气、故障诊断、网络攻击和金融欺诈等领域经常存在不平衡的数据集。针对随机森林算法在非平衡数据集上表现的分类性能差的问题,提出一种新的过采样方法:SCSMOTE(Seed Center Synthetic Minority Over-sampling Technique)算法。该算法的关键是在数据集的少数类样本中找出合适的候选样本,计算出候选样本的中心,在候选样本与样本中心之间产生新的少数类样本,实现了对合成少数类样本质量的控制。结合SCSMOTE算法与随机森林算法来处理非平衡数据集,通过在UCI数据集上对比实验结果表明,该算法有效提高了随机森林在非平衡数据集上的分类性能。 展开更多
关键词 非平衡数据集 少数 合成样本
在线阅读 下载PDF
面向不平衡图像数据的对抗自编码器过采样算法
16
作者 职为梅 常智 +1 位作者 卢俊华 耿正乾 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第11期4208-4218,共11页
许多适用于低维数据的传统不平衡学习算法在图像数据上的效果并不理想。基于生成对抗网络(GAN)的过采样算法虽然可以生成高质量图像,但在类不平衡情况下容易产生模式崩溃问题。基于自编码器(AE)的过采样算法容易训练,但生成的图像质量... 许多适用于低维数据的传统不平衡学习算法在图像数据上的效果并不理想。基于生成对抗网络(GAN)的过采样算法虽然可以生成高质量图像,但在类不平衡情况下容易产生模式崩溃问题。基于自编码器(AE)的过采样算法容易训练,但生成的图像质量较低。为进一步提高过采样算法在不平衡图像中生成样本的质量和训练的稳定性,该文基于生成对抗网络和自编码器的思想提出一种融合自编码器和生成对抗网络的过采样算法(BAEGAN)。首先在自编码器中引入一个条件嵌入层,使用预训练的条件自编码器初始化GAN以稳定模型训练;然后改进判别器的输出结构,引入一种融合焦点损失和梯度惩罚的损失函数以减轻类不平衡的影响;最后从潜在向量的分布映射中使用合成少数类过采样技术(SMOTE)来生成高质量的图像。在4个图像数据集上的实验结果表明该算法在生成图像质量和过采样后的分类性能上优于具有辅助分类器的条件生成对抗网络(ACGAN)、平衡生成对抗网络(BAGAN)等过采样算法,能有效解决图像数据中的类不平衡问题。 展开更多
关键词 不平衡图像数据 过采样 生成对抗网络 对抗自编码器 合成少数过采样技术
在线阅读 下载PDF
考虑过采样器与分类器参数优化的变压器故障诊断策略 被引量:18
17
作者 栗磊 王廷涛 +3 位作者 赫嘉楠 牛健 梁亚波 苗世洪 《电力自动化设备》 EI CSCD 北大核心 2023年第1期209-217,共9页
变压器故障样本的不平衡性使得故障诊断分类准确率低,且容易弱化少数类故障样本的分类效果。对此,采用过采样方法实现故障样本的均衡化,并提出一种考虑过采样器与分类器参数优化的变压器故障诊断策略。首先,搭建变压器故障诊断模型的整... 变压器故障样本的不平衡性使得故障诊断分类准确率低,且容易弱化少数类故障样本的分类效果。对此,采用过采样方法实现故障样本的均衡化,并提出一种考虑过采样器与分类器参数优化的变压器故障诊断策略。首先,搭建变压器故障诊断模型的整体结构,阐述故障诊断的实现过程。在此基础上,提出诊断模型中过采样器、分类器、参数优化器3种主要环节的算法实现:针对过采样器,提出一种基于近邻分布特性的改进合成少数过采样算法实现故障样本的均衡化;针对分类器,采用层次式有向无环图支持向量机算法实现故障样本的多标签分类;针对参数优化器,提出一种双层参数优化方法,上层采用层次搜索算法对过采样倍率寻优,下层采用改进哈里斯鹰算法对支持向量机参数寻优。最后,对所提策略进行算例分析,结果表明,所提策略能够合成质量更高的少数类故障样本,实现故障样本的准确分类。 展开更多
关键词 电力变压器 故障诊断 不平衡样本 过采样 基于近邻分布特性的改进合成少数过采样 层次搜索-改进哈里斯鹰算法
在线阅读 下载PDF
面向非平衡多分类问题的二次合成QSMOTE方法 被引量:2
18
作者 韩明鸣 郭虎升 王文剑 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2019年第1期1-13,共13页
近年来非平衡多分类数据的学习问题在机器学习和数据挖掘领域备受关注,上采样技术成为解决数据不平衡问题的主要方法,然而已有的上采样技术仍有很多的不足,例如新合成的少数类样本仍可能分布在对应少数类样本的原始区域内,不能有效改善... 近年来非平衡多分类数据的学习问题在机器学习和数据挖掘领域备受关注,上采样技术成为解决数据不平衡问题的主要方法,然而已有的上采样技术仍有很多的不足,例如新合成的少数类样本仍可能分布在对应少数类样本的原始区域内,不能有效改善数据分布的不平衡情况.此外,若原始样本中不同类别样本分布存在重叠,则新合成的样本会更容易偏离到其他类样本分布中,从而造成过泛化现象,影响少数类样本的分类精度.为解决上述问题,提出一种二次合成的上采样方法(Quadratic Synthetic Minority Over-sampling Technique,QSMOTE).首先通过少数类样本的支持度选择包含重要信息的样本来进行第一次合成,然后通过分析指定少数类样本质心的邻域内样本分布情况来调整第二次样本合成范围,并最终进行第二次合成.在UCI和MNIST数据集上的实验结果表明,QSMOTE不仅可以改善数据分布的不平衡问题,而且可以尽可能地减少过泛化现象,特别是对少数类样本的分类准确率有大幅提升. 展开更多
关键词 非平衡问题 过泛化 重叠 合成少数采样技术(SMOTE)
在线阅读 下载PDF
不平衡数据集的DC-SMOTE过采样方法
19
作者 冀常鹏 尚佳奇 代巍 《智能系统学报》 CSCD 北大核心 2024年第3期525-533,共9页
针对不平衡数据集在分类任务中表现不佳的问题,提出基于局部密度与集中度的过采样算法。针对数据集中所有的少数类样本点,分别利用高斯核函数与局部引力来计算局部密度与集中度;对于局部密度较小的部分有针对性地合成第一类新样本,解决... 针对不平衡数据集在分类任务中表现不佳的问题,提出基于局部密度与集中度的过采样算法。针对数据集中所有的少数类样本点,分别利用高斯核函数与局部引力来计算局部密度与集中度;对于局部密度较小的部分有针对性地合成第一类新样本,解决类内不平衡问题。根据集中度的不同,区分出少数类样本的边界,有针对性地合成第二类新样本,达到强化边界的作用;同时,通过自适应生成新样本,有效解决大部分过采样算法没有明确过采样量或者盲目追求样本平衡度相等的问题。最后,在公开的12个不平衡数据集上进行了实验,实验结果表明,本算法在低不平衡数据集与高不平衡数据集上的应用均拥有良好的表现。 展开更多
关键词 不平衡数据集 过采样 高斯核函数 局部引力 高不平衡数据 合成少数过采样 不平衡度
在线阅读 下载PDF
不均衡小样本下的设备状态与寿命预测 被引量:1
20
作者 陈扬 刘勤明 郑伊寒 《计算机集成制造系统》 EI CSCD 北大核心 2024年第1期217-226,共10页
针对面向小样本不均衡设备健康监测数据时AdaBoost处理效果差的问题,提出了基于裁剪过采样新增AdaBoost算法的设备健康状态分析以及寿命预测模型。首先,基于AdaBoost计算出样本权值分布和容量,根据样本最大权值与样本个数生成改进裁剪系... 针对面向小样本不均衡设备健康监测数据时AdaBoost处理效果差的问题,提出了基于裁剪过采样新增AdaBoost算法的设备健康状态分析以及寿命预测模型。首先,基于AdaBoost计算出样本权值分布和容量,根据样本最大权值与样本个数生成改进裁剪系数,选择性地对权值大于裁剪系数的样本进行处理从而提高计算效率。其次,通过类k近邻法则过滤出错分类样本权值,随后引入合成少数类过采样技术提升该种类样本权值个数,有效规避迭代过程中不均衡数据集可能引起的过拟合问题。最后,通过对设备运行状态进行准确分类并拟合出与时间相关的设备寿命曲线预测设备寿命。算例结果表明,所提模型能够有效分析出不均衡数据下的设备健康状况,同时也可以对剩余寿命进行有效预测。 展开更多
关键词 样本 不均衡数据 ADABOOST算法 合成少数过采样技术 剩余寿命预测
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部