期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
一种面向药物-靶点相互作用预测的不平衡数据处理方法 被引量:2
1
作者 叶志威 张晓龙 林晓丽 《武汉科技大学学报》 CAS 北大核心 2022年第1期68-74,共7页
为了解决药物-靶点相互作用(DTI)预测中数据集样本分布不平衡的问题,提出了一种新的数据处理方法。通过词向量特征提取,将原始蛋白质序列信息和药物化学结构信息转换为低维向量特征,组合药物特征和靶点特征来表征药物-靶点相互作用;采用... 为了解决药物-靶点相互作用(DTI)预测中数据集样本分布不平衡的问题,提出了一种新的数据处理方法。通过词向量特征提取,将原始蛋白质序列信息和药物化学结构信息转换为低维向量特征,组合药物特征和靶点特征来表征药物-靶点相互作用;采用Borderline-SMOTE技术合成少数类样本,以改善数据集的样本分布;最后将处理好的数据输入到梯度提升决策树(GBDT)分类器中进行分类预测。实验结果表明,本文方法不仅能有效提取药物-靶点相互作用的特征,加快特征提取和特征选择的过程,还能缓解数据集的不平衡性对预测结果的不利影响,提高了预测模型的性能。 展开更多
关键词 不平衡数据处理 药物-靶点相互作用 词向量 特征提取 Borderline-SMOTE 梯度提升决策树
在线阅读 下载PDF
社交平台不平衡文本数据处理与应用研究
2
作者 姜钰棋 侯智文 +2 位作者 王一帆 翟晗名 卜凡亮 《计算机科学与探索》 CSCD 北大核心 2024年第9期2370-2383,共14页
随着社会信息化程度加深,运用自然语言处理技术从海量网络数据中筛选提取有效信息,具有重要的实用价值。然而,从社交平台收集的文本数据存在有效信息类别数据量少、类别不平衡等问题。因此,提出SimDyFeFL方法解决中文应急关联文本识别... 随着社会信息化程度加深,运用自然语言处理技术从海量网络数据中筛选提取有效信息,具有重要的实用价值。然而,从社交平台收集的文本数据存在有效信息类别数据量少、类别不平衡等问题。因此,提出SimDyFeFL方法解决中文应急关联文本识别任务的数据不均衡问题,EdaDyFeFL方法解决英文网络暴力检测任务的数据不均衡问题。采用SimBERT与EDA方法将类间差异较大的原始数据增强至类间数量相近后,融合加入动态反馈过程的Focal Loss函数对各类别加权,并设计BERT、RoBERTa与BERT_DPCNN作为文本分类模型进行三个阶段的对比实验,证明提出方法的有效性。在中、英文两个真实数据集上的大量实验表明,使用SimDyFeFL与EdaDyFeFL改进后的文本分类模型综合性能提升显著,中文模型准确率最高提升7.70个百分点,英文模型准确率最高提升5.15个百分点。与Kaggle平台已有研究取得的最好成绩相比,英文模型准确率高出了2.92个百分点,Macro F1值与Weighted F1值分别高出2.83个百分点与2.95个百分点。 展开更多
关键词 社交平台文本分类 不平衡数据处理 SimBERT EDA Focal Loss
在线阅读 下载PDF
基于ADASYN平衡化数据集的POA-SVM变压器故障诊断 被引量:10
3
作者 刘迪迪 王洋 +2 位作者 刘辉乾 李华强 朱庆东 《电网与清洁能源》 CSCD 北大核心 2023年第8期36-44,共9页
基于机器学习的变压器故障诊断在特定样本数据下实现了高精度的故障诊断及分类,然而对于非均衡数据集容易导致一致性降低。提出了ADASYN-POA-SVM变压器故障诊断模型,该模型能够在保留少类样本数据特征的情况下对原始少类数据进行样本合... 基于机器学习的变压器故障诊断在特定样本数据下实现了高精度的故障诊断及分类,然而对于非均衡数据集容易导致一致性降低。提出了ADASYN-POA-SVM变压器故障诊断模型,该模型能够在保留少类样本数据特征的情况下对原始少类数据进行样本合成,使训练集中各类样本数达到均衡;鹈鹕优化(pelican optimization algorithm,POA)支持向量机(support vector machine,SVM)在实现SVM参数自动寻优的同时,还能提高整体的诊断准确度。将所提模型与反向传播(back propagation,BP)神经网络、随机森林(random forests,RF)以及SVM算法进行对比仿真实验,结果表明:经过ADASYN过采样方法处理后可以实现样本的均衡化;所提模型在迭代次数为10次时趋于收敛,相比于其他模型而言一致性最高,为99.32%,验证了所提模型在处理变压器不均衡数据时具有较高的优越性。 展开更多
关键词 变压器 不平衡数据处理 变压器故障诊断 POA-SVM
在线阅读 下载PDF
基于TLR-ADASYN平衡化数据集的MSSA-SVM变压器故障诊断 被引量:52
4
作者 余松 胡东 +2 位作者 唐超 张丞鸣 谭为民 《高电压技术》 EI CAS CSCD 北大核心 2021年第11期3845-3853,共9页
变压器的稳定运行在电力系统安全中扮演重要角色,而变压器故障数据样本的不足会对故障类型的准确识别产生严重影响。论文首先使用了托梅克链接移除和自适应样本合成的方法对原始数据进行去噪处理及少数类数据样本合成;然后修正了部分麻... 变压器的稳定运行在电力系统安全中扮演重要角色,而变压器故障数据样本的不足会对故障类型的准确识别产生严重影响。论文首先使用了托梅克链接移除和自适应样本合成的方法对原始数据进行去噪处理及少数类数据样本合成;然后修正了部分麻雀算法(sparrow search algorithm,SSA)公式,并将其与差分进化算法融合,提出了改良麻雀算法(modified sparrow search algorithm,MSSA);接着构建了一种基于平衡数据集的改良麻雀算法优化支持向量机(modified sparrow search algorithm-support vector machine,MSSA-SVM)的变压器故障诊断模型;最后对BP神经网络(BP neural network,BPNN)、粒子群优化支持向量机(particle swarm optimization-support vector machine,PSO-SVM)、麻雀算法优化支持向量机(sparrow search algorithm-support vector machine,SSA-SVM)和MSSA-SVM进行对比仿真实验。结果显示,各类模型在使用平衡数据集后的平均准确率分别提升了3.12%、6.03%、7.58%、10.23%,验证了所提不平衡数据处理方法的有效性;另外,PSO-SVM、SSA-SVM、MSSA-SVM分别迭代了30次、26次和20次后收敛,其在测试集中Kappa系数分别为0.758、0.785和0.870,这表明了MSSA在该模型优化上具有更强的全局搜索能力。仿真结果说明在变压器数据不平衡的实际背景下,所提变压故障诊断方法具有较高的优越性。 展开更多
关键词 电力变压器 故障诊断 不平衡类样本数据处理 MSSA-SVM Kappa系数
在线阅读 下载PDF
基于集成学习的航班延误等级预测方法
5
作者 鲁亮 万欣然 +1 位作者 樊玮 郭威龙 《计算机工程与设计》 北大核心 2025年第4期1030-1037,共8页
为提高航班延误预测的准确性,提出一种基于改进Stacking集成学习的航班延误等级预测方法。运用空中交通管理机场性能算法对出发和到达机场天气进行精确量化,引入机场相对繁忙度和前序航班等,对航班延误影响最为重要的因素构造特征,使用C... 为提高航班延误预测的准确性,提出一种基于改进Stacking集成学习的航班延误等级预测方法。运用空中交通管理机场性能算法对出发和到达机场天气进行精确量化,引入机场相对繁忙度和前序航班等,对航班延误影响最为重要的因素构造特征,使用Catboost模型进行特征筛选,以及SMOTE与Tomek Link算法进行不平衡数据处理;在Stacking集成学习方法中引入基学习器权重参数进行建模,引入贝叶斯优化找到模型最佳的超参数组合。实验结果表明,改进后的方法相比原有方法在多项预测评价指标上均有提高。 展开更多
关键词 航班延误等级 预测模型 空中交通管理机场性能算法 数据不平衡处理 Stacking集成学习 权重参数 贝叶斯优化
在线阅读 下载PDF
基于遗传理论的改进数据过采样方法 被引量:1
6
作者 丁胜夺 赵刚 +1 位作者 阎红巧 刘洪太 《计算机系统应用》 2022年第2期185-190,共6页
针对数据分类预测模型的生成中,高度不平衡的训练数据会大幅降低模型的性能,本文提出了一种改进的基于遗传思想的不平衡数据集过采样方法,该方法从生物染色体遗传理论中得到启发,利用近亲生成相似而又不完全相同的新实例来平衡多数类,... 针对数据分类预测模型的生成中,高度不平衡的训练数据会大幅降低模型的性能,本文提出了一种改进的基于遗传思想的不平衡数据集过采样方法,该方法从生物染色体遗传理论中得到启发,利用近亲生成相似而又不完全相同的新实例来平衡多数类,在保证样本分布不变的前提下,减弱甚至消除不平衡数据对训练结果的偏差影响.最后,通过在公共数据集上的对比实验表明,该方法取得了更高的召回率及G-mean值,证明此改进方法行之有效,所生成模型的综合性能有所提高. 展开更多
关键词 过采样 不平衡数据处理 分类预测模型 遗传理论
在线阅读 下载PDF
基于对比学习与特征交叉融合的贷款违约预测模型研究
7
作者 梁静娟 路新喜 董凌鹤 《计算机应用文摘》 2025年第7期69-72,共4页
信贷业务是我国商业银行的核心利润来源,其风险管理水平直接影响银行的盈利能力和金融稳定性。然而,传统的信用评分模型在处理高维稀疏数据、非线性关系以及类别不平衡问题时存在一定的局限性。为此,文章提出了一种基于对比学习与特征... 信贷业务是我国商业银行的核心利润来源,其风险管理水平直接影响银行的盈利能力和金融稳定性。然而,传统的信用评分模型在处理高维稀疏数据、非线性关系以及类别不平衡问题时存在一定的局限性。为此,文章提出了一种基于对比学习与特征交叉融合的贷款违约预测模型(DCN-CL-FL)。在Kaggle信贷违约数据集上的实验结果表明,DCN-CL-FL模型相比次优模型XGBoost,AUC指标提升了2.12%,F1-score提升了4.73%。消融实验进一步验证了各模块的有效性:对比学习模块使AUC提升了4.45%,交叉熵对比损失函数使AUC提升了3.64%。 展开更多
关键词 特征交叉 对比学习 贷款违约预测 模型融合 数据不平衡处理
在线阅读 下载PDF
基于随机森林的高速公路变路径偷逃费行为识别
8
作者 邹杰 曹宏禄 +2 位作者 李平安 黄诗音 赵建东 《科学技术与工程》 北大核心 2024年第36期15694-15700,共7页
为提高高速公路变路径偷逃费行为识别效率,针对改变路径偷逃费行为进行研究,建立一种基于随机森林的高速公路变路径偷逃费行为识别模型,能够有效识别该类偷逃费行为,协助高速公路相关管理部门追缴偷逃费用。首先,分析原始收费数据,筛选... 为提高高速公路变路径偷逃费行为识别效率,针对改变路径偷逃费行为进行研究,建立一种基于随机森林的高速公路变路径偷逃费行为识别模型,能够有效识别该类偷逃费行为,协助高速公路相关管理部门追缴偷逃费用。首先,分析原始收费数据,筛选出与本次研究相关的字段,经过运算得到12个模型可输入的初始特征;然后,通过计算各个特征的方差膨胀因子(variance inflation factor,VIF)和容忍度(tolerance,TOL)值来剔除存在共线性的特征,并利用Boruta算法筛选高重要性特征(“行驶方向是否一致”“入出站是否一致”“通行时间”和“最小费额里程”);其次,使用SMOTETomek综合采样技术来平衡数据集;再其次,利用网格搜索法对随机森林进行超参数调优;最后,利用所建立模型进行训练和识别,并与基准模型的识别效果进行对比。结果表明:所建立模型能够更好地对高速公路变路径偷逃费行为进行识别,Macro-F1分数达到了0.966,优于极限梯度提升(extreme gradient boost,XGBoost)(0.9431)、决策树(decision tree,DT)(0.9563)和梯度提升决策树(gradient boosting decision trees,GBDT)(0.9382),能够为运营管理部门稽查该类偷逃费车辆提供参考。 展开更多
关键词 随机森林(RF) 改变路径偷逃费 Boruta算法 数据不平衡处理
在线阅读 下载PDF
基于CatBoost算法的长江中游冬季降水相态预报方法研究 被引量:5
9
作者 王珊珊 雷彦森 +4 位作者 方鸿斌 孟英杰 章翠红 刘文婷 李康丽 《气象》 CSCD 北大核心 2022年第9期1153-1161,共9页
利用2000—2014年地面观测资料和欧洲中期天气预报中心(ECMWF)ERA5再分析资料,选取表征四类降水相态(雨、雪、雨夹雪、冻雨)的温度、湿度、微物理特征的43个特征量,使用精细地形高度订正,利用CatBoost算法开展长江中游降水相态预报方法... 利用2000—2014年地面观测资料和欧洲中期天气预报中心(ECMWF)ERA5再分析资料,选取表征四类降水相态(雨、雪、雨夹雪、冻雨)的温度、湿度、微物理特征的43个特征量,使用精细地形高度订正,利用CatBoost算法开展长江中游降水相态预报方法研究。结果显示:此方法对雨、雪、冻雨有较好的分类和预报效果。使用精细地形高度预处理后的特征量,能够提高降水相态判别的准确率和空间精细度。雨、雪、冻雨的预报准确率与ECMWF预报产品相比分别提高了9.9%、39.1%、11.1%,但对雨夹雪的改进不明显。 展开更多
关键词 降水相态 Catboost算法 不平衡数据处理
在线阅读 下载PDF
基于DE-lightGBM模型的上市公司高送转预测实证研究 被引量:3
10
作者 岑健铭 封全喜 +1 位作者 张丽丽 佟锐超 《计算机科学》 CSCD 北大核心 2022年第S02期137-143,共7页
“高送转”现象指上市公司转增较大比例的股票。针对上市公司实施“高送转”现象的预测问题,文中提出了一种基于差分进化算法超参数优化的lightGBM模型(简记为DE-lightGBM)。该模型主要包括两个方面:首先,利用差分进化算法调整lightGBM... “高送转”现象指上市公司转增较大比例的股票。针对上市公司实施“高送转”现象的预测问题,文中提出了一种基于差分进化算法超参数优化的lightGBM模型(简记为DE-lightGBM)。该模型主要包括两个方面:首先,利用差分进化算法调整lightGBM模型的损失函数中少数类别的权重以及正则项系数,以处理数据类别不平衡的问题;其次,以F1和AUC作为评价指标,再次利用差分进化算法优化li-ghtGBM模型的重要超参数变量,找到一组预测效果最优的参数组合。数值结果显示,DElightGBM模型取得了较好的效果,F1和AUC值分别为0.5368和0.8734。提出的DE-lightGBM模型能够有效识别下一年将会实施“高送转”的上市公司。 展开更多
关键词 高送转 差分进化算法 lightGBM 不平衡数据处理 机器学习
在线阅读 下载PDF
基于代价敏感学习的不平衡虚假评论处理模型 被引量:2
11
作者 刘美玲 尚玥 +1 位作者 赵铁军 周继云 《数据分析与知识发现》 CSSCI CSCD 北大核心 2023年第6期113-122,共10页
【目的】增强虚假评论识别任务中模型对文本深层语义信息的学习能力,并解决虚假评论识别任务中存在的严重的数据不平衡问题。【方法】基于数据本身的用户行为特征与文本特征进行类间可分性计算自动学习代价敏感矩阵,增强模型对不平衡数... 【目的】增强虚假评论识别任务中模型对文本深层语义信息的学习能力,并解决虚假评论识别任务中存在的严重的数据不平衡问题。【方法】基于数据本身的用户行为特征与文本特征进行类间可分性计算自动学习代价敏感矩阵,增强模型对不平衡数据的学习能力;同时利用BERT在文本编码方面的能力进一步优化模型。【结果】在YelpCHI数据集上进行实验,对比现有先进方法(En-HGAN),本文模型的F1值提升了约18个百分点,AUC值提升了约12个百分点。【局限】未将所提模型应用到更多的研究领域中。【结论】将用户行为特征与评论文本特征看作虚假评论类与真实类之间的特征集合进行类别可分性计算能够有效提高模型对虚假评论识别的性能。 展开更多
关键词 虚假评论识别 类别可分性计算 代价敏感学习 不平衡数据处理
原文传递
一种基于IBDP-GRU模型的热带果树寒冻害预警技术 被引量:2
12
作者 张晓鹏 秦亮曦 +1 位作者 秦川 苏永秀 《广西大学学报(自然科学版)》 CAS 北大核心 2022年第4期1008-1017,共10页
针对热带果树寒冻害预警中涉及的气象数据不平衡问题,提出一种结合不平衡数据处理和门控循环单元的热带果树寒冻害预警模型(IBDP-GRU)。按照设定的低温阈值,将数据样本按其最低气温分为高于阈值(通常为多数)和低于阈值(通常为少数)2类;... 针对热带果树寒冻害预警中涉及的气象数据不平衡问题,提出一种结合不平衡数据处理和门控循环单元的热带果树寒冻害预警模型(IBDP-GRU)。按照设定的低温阈值,将数据样本按其最低气温分为高于阈值(通常为多数)和低于阈值(通常为少数)2类;利用提出的欠抽样算法对多数类样本进行欠抽样,并为不同类的训练样本赋予不同的权重;将训练样本和权重输入到GRU模型中训练;结合未来一天的最低气温预测值和相关热带果树的寒冻害指标判断这些果树在未来一天是否会受害。实验结果表明,IBDP-GRU能在不显著影响多数类样本预测的同时更加注重少数类样本的预测;在预测果树一天是否会受害时,IBDP-GRU对香蕉寒冻害预警的正报率分别比GRU、LSTM、CNN-GRU和BP模型的高16.4%、19.3%、20.3%、31.3%,对莲雾寒冻害预警的正报率分别比上述模型高18.7%、18.6%、20.5%、32.2%。 展开更多
关键词 深度学习 门控循环单元 不平衡数据处理 气温预测 寒冻害预警
在线阅读 下载PDF
基于Stacking算法的银行定期存款产品购买行为研究
13
作者 郑江怀 吕卫东 +1 位作者 王一朵 胡陈陈 《应用数学进展》 2022年第9期6426-6435,共10页
研究客户的购买行为以及客户的价值成为提高银行收益与优化营销策略的主要途径。本文通过研究客户购买某商业银行定期存款产品的相关数据,预测客户是否会购买该产品。使用LabelEncoding编码方法和SMOTE算法对数据进行处理。使用RFECV和G... 研究客户的购买行为以及客户的价值成为提高银行收益与优化营销策略的主要途径。本文通过研究客户购买某商业银行定期存款产品的相关数据,预测客户是否会购买该产品。使用LabelEncoding编码方法和SMOTE算法对数据进行处理。使用RFECV和GBDT算法进行特征选择,根据特征重要性获得影响客户是否购买的重要指标。使用决策树、SVM与GBDT算法以及Stacking算法对银行客户是否会购买定期存款产品进行研究,结果显示Stacking算法的预测效果比单一模型的预测效果更好。 展开更多
关键词 不平衡数据处理 Stacking算法 准确率
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部