期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
不同场景下的文本长度异常数据清洗系统设计
1
作者 黄怡 王峰 +2 位作者 胡志亮 胡鹏 胡传胜 《电子设计工程》 2024年第4期94-97,102,共5页
从混合数据样本中筛选文本长度异常数据时,文本信息处理所需耗时较长,为此设计不同场景下的文本长度异常数据清洗系统。根据场景信息定义表达式,获取元数据样本。根据异常值计算结果,判定文本数据长度。按照总线协议作用原则,调节数据... 从混合数据样本中筛选文本长度异常数据时,文本信息处理所需耗时较长,为此设计不同场景下的文本长度异常数据清洗系统。根据场景信息定义表达式,获取元数据样本。根据异常值计算结果,判定文本数据长度。按照总线协议作用原则,调节数据清洗组件的连接状态,完成数据清洗总线的设计,实现不同场景下文本长度异常数据清洗系统的搭建。对比实验结果表明,筛选信息文本时,该清洗系统可将异常数据与常规数据样本之间的文本长度差提升至3.76×10~7bit,节省了2.7 ms的文本信息处理耗时。 展开更多
关键词 文本长度 异常数据清洗 场景信息 数据 异常 总线协议
在线阅读 下载PDF
基于四分位与CFSFDP的风电机组异常数据清洗方法 被引量:5
2
作者 马良玉 耿妍竹 +1 位作者 袁乃正 段新会 《电力科学与工程》 2023年第6期9-16,共8页
在分析风机功率曲线异常数据的类型及产生原因的基础上,将异常数据划分为堆积型和离散型;在进行简单的异常数据剔除后,分别利用四分位–快速密度峰值聚类、快速密度峰值聚类–四分位这2种不同的组合方法进行数据清洗。将取自数据采集与... 在分析风机功率曲线异常数据的类型及产生原因的基础上,将异常数据划分为堆积型和离散型;在进行简单的异常数据剔除后,分别利用四分位–快速密度峰值聚类、快速密度峰值聚类–四分位这2种不同的组合方法进行数据清洗。将取自数据采集与监视控制系统的4台风机历史运行数据用于实验验证,并采用数据剔除率以及相关性指标来判断异常数据的清洗效果。实验结果表明所提算法可行、有效。 展开更多
关键词 风电机组 采集与监视控制系统 异常数据清洗 四分位法 快速密度峰值聚类算法
在线阅读 下载PDF
数据库中多源异构异常数据清洗方法 被引量:3
3
作者 王彩霞 陶健 《通化师范学院学报》 2023年第12期54-60,共7页
常规的数据库中多源异构异常数据清洗,主要采用数据特征相似度值计算的方法进行,忽略了数据特征时序关联性对异常数据识别的影响,导致异常数据清洗结果的查全率较低.因此,提出基于时序关联和密度聚类算法的数据库中多源异构异常数据清... 常规的数据库中多源异构异常数据清洗,主要采用数据特征相似度值计算的方法进行,忽略了数据特征时序关联性对异常数据识别的影响,导致异常数据清洗结果的查全率较低.因此,提出基于时序关联和密度聚类算法的数据库中多源异构异常数据清洗方法,对数据库中多源异构数据进行去噪、归一化的预处理,计算处理后的数据特征时序关联度,空间反馈后,基于密度聚类算法对数据聚类密度进行计算,识别出异常数据,求解异常数据缺失部分并填补,完成异常数据的清洗.实验结果表明:应用所提方法得出的异常数据清洗结果,表现出的查全率较高,均值可达0.94,可靠性较高,满足了数据库中多源异构异常数据清洗的现实需求. 展开更多
关键词 多源异构数据 异常数据清洗 数据 数据清洗 时序关联 密度聚类算法
在线阅读 下载PDF
一种基于深度学习的异常数据清洗算法 被引量:24
4
作者 匡俊搴 赵畅 +2 位作者 杨柳 王海峰 钱骅 《电子与信息学报》 EI CSCD 北大核心 2022年第2期507-513,共7页
在物联网(IoT)中采用合适的异常数据清洗算法能极大地提升数据质量。许多研究人员采用统计学方法或分类聚类等方法对时-空相关数据进行清洗。但这些方法需要额外的先验知识,会给汇聚节点带来额外的计算开销。该文根据低秩-稀疏矩阵分解... 在物联网(IoT)中采用合适的异常数据清洗算法能极大地提升数据质量。许多研究人员采用统计学方法或分类聚类等方法对时-空相关数据进行清洗。但这些方法需要额外的先验知识,会给汇聚节点带来额外的计算开销。该文根据低秩-稀疏矩阵分解模型,提出一种基于深度神经网络的快速异常数据清洗算法,来解决物联网中时-空相关数据的清洗问题。结合感知数据的时-空相关性和异常值的稀疏性,将异常数据清洗问题转换为优化问题,并采用迭代阈值收缩算法(ISTA)求解该优化问题,再将ISTA算法展开成一个固定长度的深度神经网络。实际数据集的实验结果表明,该方法能够自动更新阈值,比传统的ISTA算法收敛速度更快,精度更高。 展开更多
关键词 物联网 异常数据清洗 迭代阈值收缩算法 展开 深度神经网络
在线阅读 下载PDF
基于正则自编码器及Optuna寻优的异常用电数据清洗研究 被引量:5
5
作者 陈慧 陈适 +3 位作者 郭银婷 连淑婷 王康 韦先灿 《电力需求侧管理》 2023年第5期53-58,共6页
为有效解决用电信息采集系统中电量数据丢失问题,提出基于正则自编码器的缺失数据填补方法。首先,根据正则自编码器学习到的特征重构电量数据,实现缺失数据的修复。然后,通过对损失函数增加L21范数及正交约束实现正则化,提升模型的泛化... 为有效解决用电信息采集系统中电量数据丢失问题,提出基于正则自编码器的缺失数据填补方法。首先,根据正则自编码器学习到的特征重构电量数据,实现缺失数据的修复。然后,通过对损失函数增加L21范数及正交约束实现正则化,提升模型的泛化能力,并采用Optuna实现超参数的自动寻优。最后,实际数据集的测试结果表明:与其他自编码器相比,正则自编码器能够较为准确地补齐缺失数据。 展开更多
关键词 异常数据清洗 自编码器 正则化 Optuna寻优
在线阅读 下载PDF
基于QM-DBSCAN的风力机数据清洗方法 被引量:9
6
作者 郑玉巧 刘玉涵 +2 位作者 何正文 董博 魏剑峰 《兰州理工大学学报》 CAS 北大核心 2021年第6期50-55,共6页
针对风电场风速-功率异常数据难以清洗的问题,提出一种基于QM-DBSCAN算法的风电场数据清洗方法.首先选取最能代表风力机运行状况的风速-功率数据作为研究对象,根据异常数据的分布特征进行分类;然后分别利用四分位法、标准DBSCAN算法及基... 针对风电场风速-功率异常数据难以清洗的问题,提出一种基于QM-DBSCAN算法的风电场数据清洗方法.首先选取最能代表风力机运行状况的风速-功率数据作为研究对象,根据异常数据的分布特征进行分类;然后分别利用四分位法、标准DBSCAN算法及基于QM-DBSCAN方法识别和剔除异常数;最后通过spearman系数进一步验证所提方法的有效性.研究结果表明:QM-DBSCAN方法的剔除效果最好,较四分位法和标准DBSCAN法的spearman系数分别提高0.0035和0.0047. 展开更多
关键词 风力机 异常数据清洗 四分位法 DBSCAN QM-DBSCAN
在线阅读 下载PDF
基于边缘检测与方差变点的风功率数据清洗方法 被引量:4
7
作者 苏荣 张斌 +1 位作者 沈晨 陈俊生 《广东电力》 2021年第5期48-56,共9页
风电场SCADA系统中存在大量异常监测数据,不利于风功率曲线的准确建模和风能预测等后续研究的开展。为此,根据负值点以及分散型、堆积型异常数据的分布特征,提出一种基于边缘检测与方差变点的风功率数据清洗方法。首先进行数据预清洗,... 风电场SCADA系统中存在大量异常监测数据,不利于风功率曲线的准确建模和风能预测等后续研究的开展。为此,根据负值点以及分散型、堆积型异常数据的分布特征,提出一种基于边缘检测与方差变点的风功率数据清洗方法。首先进行数据预清洗,以识别负值点;接着基于边缘检测识别曲线主体,以清洗分散型异常数据;然后通过方差变点分区间获得风速功率点中的方差突变点,以清洗堆积型异常数据;最后得到分类清洗后的风功率数据。算例验证结果表明,所提方法可有效地分类识别异常数据,通用性较好,且有利于风功率曲线的准确建模。 展开更多
关键词 风功率 异常数据清洗 边缘检测 方差突变点
在线阅读 下载PDF
Efficient and Effective 4D Trajectory Data Cleansing 被引量:2
8
作者 TAN Xin SUN Xiaoqian +1 位作者 ZHANG Chunxiao WANDELT Sebastian 《Transactions of Nanjing University of Aeronautics and Astronautics》 EI CSCD 2020年第2期288-299,共12页
As the rapid development of aviation industry and newly emerging crowd-sourcing projects such as Flightradar24 and FlightAware,large amount of air traffic data,particularly four-dimension(4D)trajectory data,have becom... As the rapid development of aviation industry and newly emerging crowd-sourcing projects such as Flightradar24 and FlightAware,large amount of air traffic data,particularly four-dimension(4D)trajectory data,have become available for the public.In order to guarantee the accuracy and reliability of results,data cleansing is the first step in analyzing 4D trajectory data,including error identification and mitigation.Data cleansing techniques for the 4D trajectory data are investigated.Back propagation(BP)neural network algorithm is applied to repair errors.Newton interpolation method is used to obtain even-spaced trajectory samples over a uniform distribution of each flight’s 4D trajectory data.Furthermore,a new method is proposed to compress data while maintaining the intrinsic characteristics of the trajectories.Density-based spatial clustering of applications with noise(DBSCAN)is applied to identify remaining outliers of sample points.Experiments are performed on a data set of one-day 4D trajectory data over Europe.The results show that the proposed method can achieve more efficient and effective results than the existing approaches.The work contributes to the first step of data preprocessing and lays foundation for further downstream 4D trajectory analysis. 展开更多
关键词 4D trajectories data cleansing outlier detection REPAIR
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部