基于深度集成学习的类极度不均衡数据信用欺诈检测算法被引量：20

Credit Fraud Detection for Extremely Imbalanced Data Based on Ensembled Deep Learning

在线阅读下载PDF

导出

摘要信用欺诈数据分布极度不均衡时,信息失真、周期性统计误差和报告偏倚所产生的噪声错误对训练模型干扰凸显,且易产生过拟合现象.鉴于此,提出一种深度信念神经网络集成算法来解决类极度不均衡的信用欺诈问题.首先,提出双向联合采样算法克服信息缺失和过拟合问题;然后,构造2阶段基分类器簇,针对支持向量机(support vector machine,SVM)对不均衡数据分布所表现的分类超平面向少数类偏移问题,利用增强(boosting)算法生成SVM与随机森林(random forest,RF)结合的基分类器簇;利用深度信念网络(deep belief network,DBN)整合基分类器簇的多元预测,输出分类结果.考虑传统精度评价指标过度关注多数类样本,忽视信用欺诈存在违约损失高于利息收益事实,引入成本-效益指数兼顾正类和负类样本的识别能力,提高模型对少数类样本预测精度.通过对欧洲信用卡欺诈数据检测发现,相比于其他相关算法成本效益指数均值提高3个百分点,同时,实验比较样本不均衡比例对算法精度影响,结果表明在处理极端不均衡数据时所提算法效果更优. The existence of class imbalance in credit fraud data significantly undermines model performance.In particular,when the sample distribution is extremely unbalanced,noise caused by information distortion,statistical discrepancy and reporting bias will severely damage the process of training models,leading to potential issues such as overfitting.For this reason,this paper proposes an algorithm based on ensembled deep belief network,which is meant to tackle credit fraud data featured by extreme imbalance.First,this paper proposes joint sampling strategy combining under-sampling and over-sampling to retrieve training subset data.Then,we introduce an algorithm of constructing classifier clusters through two stages.Support vector classifiers and random forest classifiers are combined by using Boosting algorithm to overcome classification interface deviation of support vector machine.Finally,deep belief network is exploited to assemble classifiers predictions and output final classification result.Besides,traditional evaluation methods put too much emphasis on majority samples,ignoring the reality where the minority matters even more.The revenue cost index that considers identification of both positive and negative samples has thereby been introduced.This paper conducts empirical study on European credit card data and concludes a 3%higher performance on revenue cost index of the proposed algorithm than others average.The experiment also evaluates the influence of imbalance ratio over algorithm s performance and finds that proposed algorithm outperforms others in this aspect.

作者刘颖杨轲 Liu Ying;Yang Ke(School of Management Science and Information Engineering,Jilin University of Finance and Economics,Changchun 130117;School of Taxation,Jilin University of Finance and Economics,Changchun 130117)

机构地区吉林财经大学管理科学与信息工程学院吉林财经大学税务学院

出处《计算机研究与发展》 EI CSCD 北大核心 2021年第3期539-547,共9页 Journal of Computer Research and Development

基金国家社会科学基金项目(20BTJ062)。

关键词信用欺诈类极不均衡深度信念神经网络支持向量机成本-效益指数 credit fraud extremely imbalanced data deep belief network(DBN) support vector machine(SVM) revenue cost index

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1王瑞琴,吴宗大,蒋云良,楼俊钢.一种基于两阶段深度学习的集成推荐模型[J].计算机研究与发展,2019,56(8):1661-1669. 被引量：12
2夏利宇,何晓群.基于重抽样法处理不平衡问题的信用评级模型[J].管理评论,2020,32(3):75-84. 被引量：8

二级参考文献5

1陶新民,徐晶,童智靖,刘玉.不均衡数据下基于阴性免疫的过抽样新算法[J].控制与决策,2010,25(6):867-872. 被引量：11
2薛薇.非平衡数据集的改进SMOTE再抽样算法[J].统计研究,2012,29(6):95-98. 被引量：22
3衣柏衡,朱建军,李杰.基于改进SMOTE的小额贷款公司客户信用风险非均衡SVM分类[J].中国管理科学,2016,24(3):24-30. 被引量：54
4夏利宇,何晓群.基于半参数方法进行拒绝推断的信用评级模型[J].管理评论,2018,30(10):40-48. 被引量：9
5何晓群,夏利宇,姜天英.处理不平衡征信数据的零膨胀信用评级模型[J].数理统计与管理,2019,0(5):812-822. 被引量：9

共引文献18

1杨鸿雁,田英杰.机器学习在食品安全风险预警及抽检方案制订中的应用研究[J].管理评论,2022,34(11):315-323. 被引量：6
2孙肖依,刘华锋,景丽萍,于剑.基于列表级排序的深度生成推荐方法[J].计算机研究与发展,2020,57(8):1697-1706. 被引量：7
3乔文增,王兵,张强.深度学习下光纤围栏入侵告警方法[J].激光杂志,2020,41(10):162-166. 被引量：1
4朱瑞,张俊三,朱杰,张世栋.一种基于KCNN和MKR的两阶段深度学习多任务推荐模型[J].陕西师范大学学报（自然科学版）,2020,48(6):82-89. 被引量：5
5朱飞燕.人工智能技术的图书馆书籍自动推荐系统[J].电子测量技术,2020,43(18):88-92. 被引量：4
6王馨乐,汪红.基于混合过滤的网络关联数据个性化推荐系统设计[J].电子设计工程,2021,29(1):110-114. 被引量：4
7丁晓梅.基于集成学习的静态软件缺陷预测模型构建[J].成都工业学院学报,2021,24(1):12-16. 被引量：1
8何恩业,李尚鲁,杨静,季轩梁,高姗,王丹.基于串联深度神经网络的Chl-a浓度短期预报方法研究[J].海洋预报,2021,38(4):1-10. 被引量：1
9张会月,张红宇.融合评分和社会化标签的两阶段深度推荐方法[J].计算机应用研究,2021,38(10):3000-3004. 被引量：1
10郭磊,李秋菊,刘方爱,王新华.基于自注意力网络的共享账户跨域序列推荐[J].计算机研究与发展,2021,58(11):2524-2537. 被引量：8

同被引文献191

1闫洪举.基于深度学习的指数跟踪方法研究[J].统计与决策,2021,37(5):143-147. 被引量：3
2渠鸿宇,黄彬,赵伟,宋佳凝,郭乙莹,胡海川,曹越男.HRCLDAS-V1.0和ERA5海面风场对比评估分析[J].热带气象学报,2022,38(4):569-579. 被引量：8
3陈荣荣,詹国华,李志华.基于XGBoost算法模型的信用卡交易欺诈预测研究[J].计算机应用研究,2020,37(S01):111-112. 被引量：14
4无.2020年支付体系运行总体情况[J].金融会计,2021(4):77-80. 被引量：4
5陈学彬,武靖,徐明东.我国信用债个体违约风险测度与防范——基于LSTM深度学习模型[J].复旦学报（社会科学版）,2021(3):159-173. 被引量：14
6李梦涛,吕朝辉.基于数据挖掘的信用卡欺诈检测[J].中国传媒大学学报（自然科学版）,2020,27(6):69-73. 被引量：2
7季晓阳,吴辉碇,杨学联.海面风场数值预报的历史和现状[J].海洋预报,2005,22(z1):167-171. 被引量：14
8陈雷.国际信用卡欺诈与预防[J].中国信用卡,2004(6):43-47. 被引量：11
9马雄威.线性回归方程中多重共线性诊断方法及其实证分析[J].华中农业大学学报（社会科学版）,2008(2):78-81. 被引量：80
10郭涛,李贵洋,袁丁.基于置信度和神经网络的信用卡异常检测[J].计算机工程,2008,34(15):205-207. 被引量：7

引证文献20

1付钰菲,汪明艳.深度学习在金融领域的应用研究综述[J].软件工程,2022,25(3):1-4. 被引量：6
2储安琪,丁志军.基于灰狼优化算法的信用评估样本均衡化与特征选择同步处理[J].计算机科学,2022,49(4):134-139. 被引量：5
3刘学文,王继奎,杨正国,李强,易纪海,李冰,聂飞平.密度峰值优化的球簇划分欠采样不平衡数据分类算法[J].计算机应用,2022,42(5):1455-1463. 被引量：14
4刘波,梁龙跃.基于KM-SVMSMOTE-CNN的信用卡欺诈检测[J].计算机系统应用,2022,31(6):361-367. 被引量：1
5许明珠,徐浩,孔鹏,吴艳兰.结合植被指数和卷积神经网络的遥感植被分类方法[J].激光与光电子学进展,2022,59(24):265-277. 被引量：2
6胡海川,董林.一种基于集合数值预报产品的台风强度订正方法[J].气象学报,2023,81(2):316-327. 被引量：4
7郜佳蕾,郜佳慧.基于反馈监督式学习策略的信用卡欺诈检测方法[J].淮阴师范学院学报（自然科学版）,2023,22(2):125-131.
8马召贵.基于改进KNN的不均衡信息文本分类算法[J].信息与电脑,2023,35(12):85-87. 被引量：1
9刘华玲,曹世杰,许珺怡,陈尚辉.数字信用交易反欺诈研究进展[J].计算机科学与探索,2023,17(10):2300-2324. 被引量：3
10蒋洪迅,江俊毅,梁循.基于机器学习的信用卡交易欺诈检测研究综述[J].计算机工程与应用,2023,59(21):1-25. 被引量：4

二级引证文献45

1蒋美英,郑山红.基于深度强化学习TD3算法的投资组合管理[J].信息技术与信息化,2022(9):177-180.
2陈志强,杨霞,陈小杰.YOLO与SAHI模型在建筑外立面表观损伤检测中的协同应用[J].施工技术（中英文）,2022,51(24):114-119. 被引量：6
3任金金,汪绪彪.基于神经网络的不均衡数据分类方法[J].长江信息通信,2022,35(12):70-72. 被引量：2
4王学军.基于分块检测的社区网络敏感信息聚类算法[J].智能计算机与应用,2022,12(12):214-217. 被引量：1
5柳秀秀,孔春伟.自然语言处理在金融领域应用的场景、挑战和发展建议[J].金融科技时代,2023,31(5):23-27. 被引量：1
6蒋丽丽,于翔,顾晓丽,陈琰.基于朴素贝叶斯算法的环境污染监测数据分类方法[J].信息记录材料,2023,24(5):154-156. 被引量：2
7俞文瑾,白泽洋,田东蒙,尹璐,郑皓天.应用时空大数据的电力需求侧不平衡数据渐进学习算法[J].数学的实践与认识,2023,53(6):197-204. 被引量：3
8李弘扬,史令飞,张利龙.联通公有云平台下军校多源数据融合清洗技术[J].智能计算机与应用,2023,13(7):187-190.
9林娜,何静,王斌,唐菲菲,周俊宇,郭江.结合植被光谱特征与Sep-UNet的城市植被信息智能提取方法[J].地球信息科学学报,2023,25(8):1717-1729. 被引量：2
10杨知玲.基于随机平衡采样的不确定大数据流在线分类算法[J].现代电子技术,2023,46(19):125-128.

1郭林,李战江,孔文婷.基于二阶段Logistic回归的小企业信用指标判别模型[J].数学的实践与认识,2020,50(20):35-45. 被引量：8
2任楚岚,曾召侠.浅析深度信念网络模型[J].网络安全技术与应用,2021(1):9-11.
3罗会兰,彭珊,陈鸿坤.目标检测难点问题最新研究进展综述[J].计算机工程与应用,2021,57(5):36-46. 被引量：16
4闭乐华.风险投资对被投企业资源配置效率的影响分析[J].锋绘,2021(2):155-156.
5徐龙飞,郁进明.基于ML loss的SVM分类算法[J].计算机应用研究,2021,38(2):435-439. 被引量：7
6陈丽芳,代琪,刘洋,刘保相.面向不平衡数据的三支决策混合采样算法研究[J].山西大学学报（自然科学版）,2020,43(4):776-785. 被引量：3
7刘炜.健美操专项柔韧素质训练方法实验比较研究[J].真情,2021(1):242-242.
8毛铭泽.一种混合的信用卡欺诈检测模型[J].电脑知识与技术,2021,17(2):194-196.
9石欣然,张奇支,赵淦森,郑伟平.一种基于少样本且不均衡的网络攻击流量检测系统[J].华南师范大学学报（自然科学版）,2021,53(1):100-108. 被引量：7
10包蓓,吴韫韬,石晓欣,荣棣君,朱立人,王燕.突发公共卫生事件对上海老年人抑郁情绪波动的影响及相关因素分析[J].中华老年医学杂志,2021,40(2):227-231. 被引量：2

计算机研究与发展

2021年第3期

浏览历史

内容加载中请稍等...

基于深度集成学习的类极度不均衡数据信用欺诈检测算法被引量：20

参考文献2

二级参考文献5

共引文献18

同被引文献191

引证文献20

二级引证文献45

相关作者

相关机构

相关主题

浏览历史

基于深度集成学习的类极度不均衡数据信用欺诈检测算法 被引量：20

参考文献2

二级参考文献5

共引文献18

同被引文献191

引证文献20

二级引证文献45

相关作者

相关机构

相关主题

浏览历史

基于深度集成学习的类极度不均衡数据信用欺诈检测算法被引量：20