期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于大数据随机样本划分的分布式观测点分类器
1
作者 李旭 何玉林 +2 位作者 崔来中 黄哲学 PHILIPPE Fournier-Viger 《计算机应用》 CSCD 北大核心 2024年第6期1727-1733,共7页
观测点分类器(OPC)是一种试图通过将多维样本空间线性不可分问题转换成一维距离空间线性可分问题的有监督学习模型,对高维数据的分类问题尤为有效。针对OPC在处理大数据分类问题时表现的较高训练复杂度,在Spark框架下设计一款基于大数... 观测点分类器(OPC)是一种试图通过将多维样本空间线性不可分问题转换成一维距离空间线性可分问题的有监督学习模型,对高维数据的分类问题尤为有效。针对OPC在处理大数据分类问题时表现的较高训练复杂度,在Spark框架下设计一款基于大数据的随机样本划分(RSP)的分布式OPC(DOPC)。首先,在分布式计算环境下生成大数据的RSP数据块,并将它转换为弹性分布式数据集(RDD);其次,在RSP数据块上协同式地训练一组OPC,由于每个RSP数据块上的OPC独立训练,因此有高效的Spark可实现性;最后,在Spark框架下将在RSP数据块上协同训练的OPC集成为DOPC,对新样本进行类标签预测。在8个大数据集上,对Spark集群环境下实现的DOPC的可行性、合理性和有效性进行实验验证,实验结果显示,DOPC能够以更低的计算消耗获得比单机OPC更高的测试精度,同时相较于Spark框架下实现的基于RSP模型的神经网络(NN)、决策树(DT)、朴素贝叶斯(NB)和K最近邻(KNN),DOPC分类器具有更强的泛化性能。测试结果表明,DOPC是一种高效低耗的处理大数据分类问题的有监督学习算法。 展开更多
关键词 大数据分类 分布式文件系统 随机样本划分 观测点分类器 Spark计算框架
在线阅读 下载PDF
大数据随机样本划分模型及相关分析计算技术 被引量:17
2
作者 黄哲学 何玉林 +1 位作者 魏丞昊 张晓亮 《数据采集与处理》 CSCD 北大核心 2019年第3期373-385,共13页
设计了一种新的适用于大数据的管理和分析模型大数据随机样本划分(Random samplepartition,RSP)模型,它是将大数据文件表达成一系列RSP数据块文件的集合,分布存储在集群节点上。RSP的生成操作使每个RSP数据块的分布与大数据的分布保持... 设计了一种新的适用于大数据的管理和分析模型大数据随机样本划分(Random samplepartition,RSP)模型,它是将大数据文件表达成一系列RSP数据块文件的集合,分布存储在集群节点上。RSP的生成操作使每个RSP数据块的分布与大数据的分布保持统计意义上的一致,因此,每个RSP数据块是大数据的一个随机样本数据,可以用来估计大数据的统计特征,或建立大数据的分类和回归模型。基于RSP模型,大数据的分析任务可以通过对RSP数据块的分析来完成,不需要对整个大数据进行计算,极大地减少了计算量,降低了对计算资源的要求,提高了集群系统的计算能力和扩展能力。本文首先给出RSP模型的定义、理论基础和生成方法;然后介绍基于RSP数据块的渐近式集成学习Alpha计算框架;之后讨论基于RSP模型和Alpha框架的大数据分析相关计算技术,包括:数据探索与清洗、概率密度函数估计、有监督子空间学习、半监督集成学习、聚类集成和异常点检测;最后讨论RSP模型在分而治之大数据分析和抽样方法上的创新,以及RSP模型和Alpha计算框架实现大规模数据分析的优势。 展开更多
关键词 大数据 随机样本划分 渐近式集成学习 人工智能
在线阅读 下载PDF
分布式子空间局部链接随机向量函数链接网络
3
作者 于万国 袁镇濠 +1 位作者 陈佳琪 何玉林 《深圳大学学报(理工版)》 CAS CSCD 北大核心 2022年第6期675-683,共9页
为解决随机向量函数链接(random vector functional link,RVFL)网络处理大规模数据分类时表现出的泛化能力差和计算复杂度高的问题,基于Spark框架设计与实现一种分布式子空间局部链接的RVFL(distributed RVFL with subspace-based local... 为解决随机向量函数链接(random vector functional link,RVFL)网络处理大规模数据分类时表现出的泛化能力差和计算复杂度高的问题,基于Spark框架设计与实现一种分布式子空间局部链接的RVFL(distributed RVFL with subspace-based local connections,DRVFL-SLC)网络.利用弹性分布式数据集(resilient distributed dataset,RDD)的分区并行性,对存于Hadoop分布式文件系统(Hadoop distributed file system,HDFS)的大规模数据集进行随机样本划分(random sample partition,RSP)操作,保证每个RSP数据块对应RDD的1个分区.其中,RSP数据块是在给定的显著性水平下与大数据保持概率分布一致性的数据子集.在分布式环境下对包含多个分区的RDD调用mapPartitions转换算子并行高效地训练对应的最优RVFL-SLC网络.利用collect执行算子将RDD每个分区对应的最优RVFL-SLC网络进行高效率地渐近融合获得DRVFLSLC网络以实现对大数据分类问题的近似求解.在部署了6个计算节点的Spark集群上,基于8个百万条记录的大规模数据集对DRVFL-SLC网络的可行性和有效性进行了验证.结果表明,DRVFL-SLC网络拥有很好的加速比、可扩展性以及规模增长性,同时能够获得比在单机上利用全量数据训练的RVFL-SLC网络更好的泛化表现. 展开更多
关键词 人工智能 随机向量函数链接网络 子空间局部链接 随机样本划分 HADOOP分布式文件系统
在线阅读 下载PDF
基于标签迭代的聚类集成算法
4
作者 何玉林 杨锦 +1 位作者 黄哲学 尹剑飞 《智能科学与技术学报》 CSCD 2024年第4期466-479,共14页
现有的“数据相同,算法不同”式的聚类集成算法训练策略普遍存在处理大规模数据性能受限以及共识函数适应性不强的缺点。为此,对“数据不同,算法相同”式的聚类集成算法训练策略进行了研究,构建了一种基于标签迭代的聚类集成(LICE)算法... 现有的“数据相同,算法不同”式的聚类集成算法训练策略普遍存在处理大规模数据性能受限以及共识函数适应性不强的缺点。为此,对“数据不同,算法相同”式的聚类集成算法训练策略进行了研究,构建了一种基于标签迭代的聚类集成(LICE)算法。首先,该算法在原始数据集的随机样本划分(RSP)数据块上训练若干基聚类器。接着,利用最大平均差异准则对聚类簇数相同的基聚类结果进行融合,并基于标签确定的RSP数据块训练一个启发式分类器。之后,迭代式地利用启发式分类器对标签不确定的RSP数据块中的样本点进行标签预测,利用分类标签与聚类标签一致的样本点强化启发式分类器的性能。最后,通过一系列可信的实验对LICE算法的可行性和有效性进行验证,结果显示在代表性数据集上,LICE算法对应的标准互信息、调整兰德系数、Fowlkes-Mallows指数以及纯度在第5次迭代时相比于迭代起始分别平均提升了17.23%、16.75%、31.29%和12.37%。与7种经典的聚类集成算法相比,在选用的数据集上,这4个指标的值分别平均提升了11.76%、16.50%、9.36%和14.20%。实验证实了LICE算法是一种高效合理的、能够处理大数据聚类问题的聚类集成算法。 展开更多
关键词 聚类集成算法 集成学习 随机样本划分 最大平均差异 标签迭代
在线阅读 下载PDF
混合属性数据集分布一致性度量的新方法 被引量:3
5
作者 何玉林 金一 +2 位作者 戴德鑫 黄柏皓 黄家杰 《深圳大学学报(理工版)》 EI CAS CSCD 北大核心 2021年第2期170-179,共10页
数据分布一致性的度量是大数据随机样本划分生成过程中的一个关键问题,如何针对混合属性的数据集进行合理有效的分布一致性度量是目前随机样本划分技术研究的重点.提出一种新的基于深度编码和最大平均差异的混合属性数据集分布一致性度... 数据分布一致性的度量是大数据随机样本划分生成过程中的一个关键问题,如何针对混合属性的数据集进行合理有效的分布一致性度量是目前随机样本划分技术研究的重点.提出一种新的基于深度编码和最大平均差异的混合属性数据集分布一致性度量方法,不直接对两个不同的原始数据集进行分布一致性的度量,而是首先对混合属性中的离散属性进行独热编码,得到独热编码数据集;之后对独热编码数据集进行自编码处理,得到深度编码数据集;最后基于最大均值差异指标对两个不同的深度编码数据集进行分布一致性的度量.在Adult、Australian、CRX和German标准混合属性数据集上对所提方法进行性能实验验证,结果表明,与基于离散属性独热编码的最大平均差异方法和基于连续属性二进制化的相似性度量方法相比,新方法能够更加准确地对混合属性数据进行分布一致性的度量. 展开更多
关键词 人工智能 随机样本划分 分布一致性 最大均值差异 混合属性数据 独热编码 深度编码
在线阅读 下载PDF
基于统计感知的大数据处理与分析课程设计研究 被引量:1
6
作者 何玉林 尹剑飞 黄哲学 《现代计算机》 2021年第17期158-161,170,共5页
随着国内高校相继成立针对本科生的、以大数据技术与应用专业人才培养为目的的大数据特色班,对专业核心课程《大数据处理与分析》教学内容的设计变得非常迫切。本文提出一种以大数据统计感知思想为切入点、以大数据随机样本划分模型为... 随着国内高校相继成立针对本科生的、以大数据技术与应用专业人才培养为目的的大数据特色班,对专业核心课程《大数据处理与分析》教学内容的设计变得非常迫切。本文提出一种以大数据统计感知思想为切入点、以大数据随机样本划分模型为基础的课程设计方案,主要包括大数据存储处理、大数据预处理、大数据切分处理、大数据降维处理、大数据统计分析、大数据分类分析和大数据聚类分析七部分教学内容。同时,结合有针对性的应用案例将课程知识点与实际应用有机结合,在重视课程设计的理论性基础上,增强教学内容的实用性。 展开更多
关键词 大数据处理 大数据分析 课程设计 统计感知 随机样本划分
在线阅读 下载PDF
基于统计感知的大数据系统计算框架 被引量:5
7
作者 魏丞昊 黄哲学 何玉林 《深圳大学学报(理工版)》 EI CAS CSCD 北大核心 2018年第5期441-443,共3页
为在一定计算资源条件下实现大数据可计算化,本研究提出一种基于统计感知思想的Tbyte级大数据系统计算框架Bigdata-α,该框架的核心为大数据随机样本划分模型和逼近式集成学习模型.前者保证了划分后每个子数据块所包含的样本与大数据总... 为在一定计算资源条件下实现大数据可计算化,本研究提出一种基于统计感知思想的Tbyte级大数据系统计算框架Bigdata-α,该框架的核心为大数据随机样本划分模型和逼近式集成学习模型.前者保证了划分后每个子数据块所包含的样本与大数据总体概率分布的一致性.后者通过分析若干个随机样本数据块替代了Tbyte级全量数据分析.使用1 Tbyte模拟数据集验证随机样本划分模型的有效性,通过逐渐增加随机样本块的个数,提升了Higgs数据集基分类器的分类准确度,证明该方法能克服大数据分析中计算资源的限制瓶颈. 展开更多
关键词 计算机系统结构 大数据 随机样本划分 逼近式集成学习 并行分布式计算 分布式处理系统
在线阅读 下载PDF
针对大规模数据的分布一致缺失值插补算法 被引量:5
8
作者 余嘉茵 何玉林 +1 位作者 崔来中 黄哲学 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第5期740-753,共14页
缺失值插补(missing value imputation,MVI)作为数据挖掘领域的重要研究分支,旨在为机器学习算法的训练提供高质量的数据支持。不同于现有的以算法性能提升为导向的MVI算法,为对大规模数据的缺失值进行有效插补,该文提出一种以数据结构... 缺失值插补(missing value imputation,MVI)作为数据挖掘领域的重要研究分支,旨在为机器学习算法的训练提供高质量的数据支持。不同于现有的以算法性能提升为导向的MVI算法,为对大规模数据的缺失值进行有效插补,该文提出一种以数据结构还原为导向的数据分布一致MVI(distribution consistency-based MVI, DC-MVI)算法。首先,DC-MVI算法基于概率分布一致性原则构建了用于确定最优插补值的目标函数;其次,利用推导出的可行缺失值优化规则获取与原始完整值保持最大分布一致性且方差最为接近的插补值;最后,在分布式环境下,针对大数据的随机样本划分(random sample partition, RSP)数据块并行训练DC-MVI算法,获得大规模数据缺失值对应的插补值。实验结果表明:DC-MVI算法不仅能生成与原始完整值保持给定显著性水平下概率分布一致的插补值,还具有比另外5种经典的和3种最新的MVI算法更快的插补速度和更好的插补效果,进而证实DC-MVI算法是一种可行的大规模数据MVI算法。 展开更多
关键词 文字信息处理 缺失值插补 分布一致性 最大均值差异 大规模数据 随机样本划分 分布式计算
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部