-
题名融合相似度与随机森林的数据挖掘算法改进
- 1
-
-
作者
孙宝刚
何国斌
-
机构
重庆人文科技学院计算机工程学院
西南大学计算机与信息科学学院
-
出处
《计算机仿真》
2025年第1期362-366,共5页
-
基金
重庆市教委人文社会科学类研究项目(22SKGH493)。
-
文摘
为了避免噪声数据干扰数据挖掘效果,提高数据挖掘的精度和质量,提出融合相似度与随机森林的数据挖掘算法。采用奇异值分解算法分解数据矩阵,获得一系列奇异值,同时引入中位数绝对偏差法在上述奇异值中选取较大的奇异值,利用这些奇异值展开重构,得到去噪后的数据;计算去噪后数据的样本熵,将其作为数据特征,结合P值和特征相似度对数据特征展开筛选,剔除冗余特征,选取最优数据特征;建立极限随机森林,将数据特征输入极限随机森林中,实现数据挖掘。实验结果表明,所提算法在数据挖掘过程中具有较高的查全率、F-measure指标以及AUC值,表明所提算法具有良好的数据挖掘性能。
-
关键词
数据相似度
奇异值分解算法
中位数绝对偏差法
极限随机森林
数据挖掘
-
Keywords
Data similarity
Singular value decomposition SVD
Median absolute deviation method
Extreme random forest
Data mining
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名GPS坐标时间序列粗差剔除方法比较分析
被引量:8
- 2
-
-
作者
舒颖
-
机构
中铁第四勘察设计院集团有限公司
-
出处
《导航定位学报》
CSCD
2021年第4期79-85,共7页
-
基金
国家自然科学基金项目(41674005,41871373,42061077)
江西省自然科学基金项目(20202BAB214029)
中铁第四勘察设计院集团有限公司科技基金项目(2019K095,2019K123)。
-
文摘
为了更加有效地探测和剔除GPS台站位移序列的粗差,对几种常见的GPS坐标时间序列粗差剔除方法进行比较分析:分别采用GPS坐标时间序列中常用的粗差探测方法如5倍中误差法(5σ)、3倍中误差法(3σ)、中位数绝对偏差法、四分位距法对GPS坐标时间序列进行粗差处理分析;并以40个GPS基准站坐标序列为对象进行粗差剔除比较;最后对去除粗差后的GPS坐标序列进行噪声模型分析,总结粗差剔除前后坐标时间序列的最佳噪声模型。实验结果表明,4种粗差探测和剔除方法都能检测出时间序列中的粗差,且以四分位距法的效果最为明显。
-
关键词
全球定位系统
坐标时间序列
粗差剔除
中位数绝对偏差法
四分位距法
噪声模型
-
Keywords
global positioning system
coordinate time series
outlier elimination
median absolute deviation method
interquartile range method
noise model
-
分类号
P228
[天文地球—大地测量学与测量工程]
-