一种基于MissFroest的并行插补算法被引量：2

A Parallel Interpolation Algorithm Based on MissFroest

在线阅读下载PDF

导出

摘要本研究针对大数据分析预处理的缺失数据值填补问题及解决方案进行了探讨,提出了一种用于缺失值填充的插补算法。该算法在MissForest算法基础上融合K折交叉验证的思想,通过在不同缺失率下的插补试验与分析表明:该算法的填补误差小于传统的CNN插补算法,运行时间复杂度优于基础的MissForest算法,具有较强的泛化能力。 This study discusses the problem of missing data value filling in the preprocessing of big data analysis and its solutions, and proposes an interpolation algorithm for missing value filling. This algorithm combines the idea of K-fold cross-validation on the basis of the MissForest algorithm. Interpolation experiments and analysis under different missing rates show that the algorithm has less filling error than the traditional CNN interpolation algorithm, running time complexity is better than the basic MissForest algorithm, and has a strong generalization ability.

作者华南马春萍朱彦霞刘惠萍曹彦王飞张利鹏 HUA Nan;MA Chunping;ZHU Yanxia;LIU Huiping;CAO Yan;WANG Fei;ZHANG Lipeng(China Radio and Television Henan Network Co.,Ltd.,Zhengzhou 450000,China;The First Affiliated Hospital of Henan University of CM,Zhengzhou 450000,China;Henan General Hospital,Zhengzhou 450002,China;College of Information Engineering Xuchang University,Xuchang 461000,China;Henan Univer-sity of Animal Husbandry and Economy,Zhengzhou 450000,China)

机构地区中国广电河南网络有限公司河南中医药大学第一附属医院河南省职工医院许昌学院信息工程学院河南牧业经济学院

出处《河南科技》 2022年第3期18-21,共4页 Henan Science and Technology

基金 2020年度河南省医学科技攻关计划联合共建项目(LHGJ20200242) 2021年度河南省重点研发与推广专项(科技攻关)项目(212102311002,212102210138,212102311000) 2022年度河南省高等学校重点项目(22B520023,22A520040)。

关键词数据缺失机器学习缺失值插补随机森林 missing data machine learning imputation of missing values random forest

分类号 TP399 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1刘琚,杜若画,吴强,何泽鲲,于璐跃.一种基于张量分解的医学数据缺失模态的补全算法[J].数据采集与处理,2021,36(1):45-52. 被引量：9
2黄裕.基于多视角缺失补全算法的数据挖掘研究[J].计算技术与自动化,2018,37(2):67-72. 被引量：1
3李业棉,赵芃,杨嵛惠,王静娴,颜虹,陈方尧.队列研究中纵向缺失数据填补方法的模拟研究[J].中华流行病学杂志,2021,42(10):1889-1894. 被引量：7
4石清阳,李玲,任燕,姚明宏,孙鑫.实效性随机对照试验中的统计方法(Ⅱ):解决结局缺失问题[J].中国循证医学杂志,2021,21(6):729-736. 被引量：3
5杨弘,田晶,王可,张青,韩清华,张岩波.混合型缺失数据填补方法比较与应用[J].中国卫生统计,2020,37(3):395-399. 被引量：19
6杨日东,李琳,陈秋源,周毅.LKNNI:一种局部K近邻插补算法[J].中国卫生统计,2019,36(5):780-783. 被引量：6
7李琳,杨红梅,杨日东,胡珊,张学良,周毅.基于临床数据集的缺失值处理方法比较[J].中国数字医学,2018,13(4):8-10. 被引量：13
8岳勇,田考聪.数据缺失及其填补方法综述[J].预防医学情报杂志,2005,21(6):683-685. 被引量：30

二级参考文献57

1Rubin D.Inference and missing data[J]. Biometrika,1976,63(3):581-592.
2Little RJA,Rubin DB.Statistical Analysis with Missing Data[M].New York:Wiley and Sons,Inc.1987.
3Nordheim EV.Inference from nonrandomly missing data:An example from a genetic study on Turner' s Syndrome [J].Am Statist Assoc,1984,79:772-780.
4Horton NJ,Laird NM.Maximum likehood analysis of generalized linear models with missing covariates [J].Statist Meth Med Res,1988,8(1):37-50.
5Allison PD.Multiple imputation for missing data:A cautionary tale [J].Sociological Methods and Research,2000,28(3):301-309.
6Bello AL.Imputation techniques in regression analysis:Looking closely at their implementation [J].Computational Statistics and Data Analysis,1995,20:45-57.
7Rao JNK,Shao J.Jackknife variance estimation with survey data under hot deck imputation [J].Biometrika,1992,79:811-822.
8Rubin DB.Multiple imputations in sample surveys [J].Am Statist Assoc,1978:20-34.
9Meng XL,Rubin DB.Performing likelihood ration tests with multiple imputed data sets [J ].Biometrika,1992,79 (1):103-111.
10Schafer JL.Analysis of incomplete multivariate data [M].Chapman and Hall,1997:286-293.

共引文献77

1张玮畅,田晶,杨弘,韩清华,张岩波.冠心病合并慢性心力衰竭患者5年全因死亡生存分析与可解释性研究[J].中华疾病控制杂志,2023,27(4):373-378. 被引量：14
2陈敏琼.一种混合型数据的分布差异检验方法[J].哈尔滨师范大学自然科学学报,2024,40(3):14-23.
3罗旭,程承旗,李勇,陈晓雪,冯仲科.SPSS在数据缺失值处理中的应用[J].水土保持研究,2007,14(4):426-429.
4文强,孟刚,余永强,潘蕾,王军,常璐.基于灰色动态GM(1,1)的医疗器械不良事件报告数量预测模型研究[J].医疗装备,2008,21(4):1-5.
5赵飞,张志杰,刘建翔,王海银,周艺彪,彭文祥,赵根明,姜庆五.疾病监测资料中缺失值最佳填充次数的研究[J].中国卫生统计,2009,26(5):455-458. 被引量：2
6赵飞,张志杰,刘建翔,王海银,周艺彪,彭文祥,赵根明,姜庆五.不同缺失值填充方法在全国血吸虫病监测资料中的比较研究[J].中国卫生统计,2010,27(2):125-128. 被引量：1
7胡思贵,赵明.完全随机缺失数据下配对试验的Bayes分析[J].数学的实践与认识,2011,41(8):73-77. 被引量：1
8佟昕,高强.统计学中的数据缺失及解决方法[J].辽宁经济职业技术学院学报.辽宁经济管理干部学院,2011(2):15-16. 被引量：4
9唐健元,杨志敏,杨进波,黄钦,吴春芳,冯毅.临床研究中缺失值的类型和处理方法研究[J].中国卫生统计,2011,28(3):338-341. 被引量：28
10陈渊成,张菁.确证性临床试验中数据缺失的处理指南[J].中国新药杂志,2012,21(7):732-736. 被引量：10

同被引文献17

1李绪贵,张琦,熊昌军.绝经后骨质疏松症的患病情况及相关危险因素分析[J].中国妇幼保健,2015,30(29):5047-5049. 被引量：30
2宋志雪,陈长香.骨质疏松老年患者睡眠障碍及影响因素分析[J].中国公共卫生,2017,33(2):257-260. 被引量：11
3刘婷婷,李晓丹,王文志,杨定焯.BMC/体重指标评价骨质疏松的探索[J].中国骨质疏松杂志,2017,23(10):1261-1267. 被引量：5
4柴生颋,谢平金,万雷,林勇.体重及体质量指数与骨质疏松性骨折发生的关系研究[J].中国骨质疏松杂志,2018,24(2):156-160. 被引量：49
5余锦娟,林勇.基于机器学习的骨质疏松性骨折预测研究[J].中国医学物理学杂志,2018,35(11):1329-1333. 被引量：7
6林珊珊,杨雪梅,郭丽敏.2型糖尿病患者绝经后骨质疏松危险因素的Logistic回归分析[J].河北医药,2019,41(19):3016-3018. 被引量：10
7牟唯嫣,王春玲,赵昕.基于空间填充准则的交叉验证方法及其应用[J].系统科学与数学,2020,40(2):382-388. 被引量：7
8贾鹏,徐又佳.绝经后骨质疏松骨折的治疗[J].实用妇产科杂志,2020,36(7):492-494. 被引量：7
9胡伟雄,林涌鹏,饶思远,王穗林,陈博来,王拥军.814例绝经后女性初潮年龄、绝经年龄及月经维持年限与骨质疏松症相关性研究[J].中国骨质疏松杂志,2020,26(9):1257-1261. 被引量：24
10陈婉琦,林勇.基于集成学习的骨质疏松性骨折预测研究[J].中国医学物理学杂志,2021,38(2):254-258. 被引量：4

引证文献2

1朱彦霞,华南,刘小侃.基于BP神经网络的绝经后女性骨质疏松预测模型构建[J].中国数字医学,2023,18(8):95-102.
2颜如雪,赵秉文,武雁奇,郑振海,金佳豪.集中供热系统能耗异常数据识别及修复方法研究[J].科技通报,2024,40(7):15-20. 被引量：1

二级引证文献1

1李文超,张鲲鹏.集中供热系统工程机械设备常见问题及处理方法[J].模具制造,2025,25(2):241-243.

1张小明.事业单位档案管理信息化建设存在的问题与解决方案[J].活力,2022(1):172-174.
2杨旭,崔瑞飞,田超,胡斯惠,姜健民,徐培康.基于线性样条和CNN-LSTM的北斗卫星缺失数据处理方法[J].空间科学学报,2022,42(1):163-169. 被引量：9
3何佑伟,贺质越,汤勇,秦佳正,宋俊杰,汪勇.基于机器学习的页岩气井产量评价与预测[J].石油钻采工艺,2021,43(4):518-524. 被引量：14
4温玉雷.FGFD-3000型翻堆机性能试验与分析[J].农机科技推广,2022(1):43-43.
5杨波,姚宇,蒲晓蓉,刘晓旭.涂装线取消密封胶烘干炉及其影响[J].现代涂料与涂装,2022,25(2):54-56.
6雷王利.秸秆灭茬还田耕整机田间试验与分析[J].农业装备技术,2022,48(1):25-27.
7靳西山,钱欲晓.大型商业综合体中机电安装常见问题及解决方案[J].地产,2021(17):192-194.
8丁敏.基于网络直播的农产品品牌建设研究[J].南方农机,2022,53(4):106-108. 被引量：11
9靳昙昙,刘龙,刘道奇,董铁有,王东伟,李秀杰.激光切割花生荚果挤压断裂力学特性试验与分析[J].农机化研究,2022,44(4):147-152. 被引量：2
10张存,王文静,李芳,张鹏,范森.基于Easyortho的航天正射影像自动精度检测试验与分析[J].测绘标准化,2021,37(4):66-68.

河南科技

2022年第3期

浏览历史

内容加载中请稍等...

一种基于MissFroest的并行插补算法被引量：2

参考文献8

二级参考文献57

共引文献77

同被引文献17

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于MissFroest的并行插补算法 被引量：2

参考文献8

二级参考文献57

共引文献77

同被引文献17

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于MissFroest的并行插补算法被引量：2