期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
大数据随机样本划分模型及相关分析计算技术 被引量:17
1
作者 黄哲学 何玉林 +1 位作者 魏丞昊 张晓亮 《数据采集与处理》 CSCD 北大核心 2019年第3期373-385,共13页
设计了一种新的适用于大数据的管理和分析模型大数据随机样本划分(Random samplepartition,RSP)模型,它是将大数据文件表达成一系列RSP数据块文件的集合,分布存储在集群节点上。RSP的生成操作使每个RSP数据块的分布与大数据的分布保持... 设计了一种新的适用于大数据的管理和分析模型大数据随机样本划分(Random samplepartition,RSP)模型,它是将大数据文件表达成一系列RSP数据块文件的集合,分布存储在集群节点上。RSP的生成操作使每个RSP数据块的分布与大数据的分布保持统计意义上的一致,因此,每个RSP数据块是大数据的一个随机样本数据,可以用来估计大数据的统计特征,或建立大数据的分类和回归模型。基于RSP模型,大数据的分析任务可以通过对RSP数据块的分析来完成,不需要对整个大数据进行计算,极大地减少了计算量,降低了对计算资源的要求,提高了集群系统的计算能力和扩展能力。本文首先给出RSP模型的定义、理论基础和生成方法;然后介绍基于RSP数据块的渐近式集成学习Alpha计算框架;之后讨论基于RSP模型和Alpha框架的大数据分析相关计算技术,包括:数据探索与清洗、概率密度函数估计、有监督子空间学习、半监督集成学习、聚类集成和异常点检测;最后讨论RSP模型在分而治之大数据分析和抽样方法上的创新,以及RSP模型和Alpha计算框架实现大规模数据分析的优势。 展开更多
关键词 大数据 随机样本划分 渐近式集成学习 人工智能
在线阅读 下载PDF
基于统计感知的大数据系统计算框架 被引量:5
2
作者 魏丞昊 黄哲学 何玉林 《深圳大学学报(理工版)》 EI CAS CSCD 北大核心 2018年第5期441-443,共3页
为在一定计算资源条件下实现大数据可计算化,本研究提出一种基于统计感知思想的Tbyte级大数据系统计算框架Bigdata-α,该框架的核心为大数据随机样本划分模型和逼近式集成学习模型.前者保证了划分后每个子数据块所包含的样本与大数据总... 为在一定计算资源条件下实现大数据可计算化,本研究提出一种基于统计感知思想的Tbyte级大数据系统计算框架Bigdata-α,该框架的核心为大数据随机样本划分模型和逼近式集成学习模型.前者保证了划分后每个子数据块所包含的样本与大数据总体概率分布的一致性.后者通过分析若干个随机样本数据块替代了Tbyte级全量数据分析.使用1 Tbyte模拟数据集验证随机样本划分模型的有效性,通过逐渐增加随机样本块的个数,提升了Higgs数据集基分类器的分类准确度,证明该方法能克服大数据分析中计算资源的限制瓶颈. 展开更多
关键词 计算机系统结构 大数据 随机样本划分 逼近式集成学习 并行分布式计算 分布式处理系统
在线阅读 下载PDF
Bootstrap样本大数据模型和分布式集成学习方法 被引量:1
3
作者 罗凯靖 张育铭 +1 位作者 何玉林 黄哲学 《大数据》 2024年第3期93-108,共16页
传统Bootstrap抽样和Bagging集成学习通常以串行方式实现,计算效率低,且存在样本不可重用、扩展性差等问题,不适合高效的大规模Bagging集成学习。从大数据分布式计算的思维入手,提出新的Bootstrap样本划分(BSP)大数据模型和分布式集成... 传统Bootstrap抽样和Bagging集成学习通常以串行方式实现,计算效率低,且存在样本不可重用、扩展性差等问题,不适合高效的大规模Bagging集成学习。从大数据分布式计算的思维入手,提出新的Bootstrap样本划分(BSP)大数据模型和分布式集成学习方法。BSP数据模型通过分布式生成算法将训练数据表达成分布式Bootstrap样本集的集合,存储成HDFS分布式数据文件,为后续的分布式集成学习提供数据支持。分布式集成学习方法从BSP数据模型中随机选取多个BSP数据块,读入集群各个节点的虚拟机,用串行算法对选取的数据块并行计算统计量或训练建模,再将所有的计算子结果回传至主节点中,生成最终的集成学习结果,此过程中可加入对子结果的质量选择以进一步提高预测效果。BSP数据模型的生成和分布式集成学习采用非Map-Reduce计算范式进行,每个数据块的计算独立完成,减少了计算节点间的数据通信开销。提出的算法在Spark开源系统中以新的算子方式实现,供Spark应用程序调用。实验表明,新方法可以高效地生成训练数据的BSP数据模型,提高数据样本的可重用性,在基于有监督机器学习算法构建的大规模Bagging集成学习实验中,计算效率能提高50%以上,同时预测精度进一步提高约2%。 展开更多
关键词 Bootstrap抽样 Bagging集成学习 分布式集成学习 SPARK
在线阅读 下载PDF
基于候选中心融合的多观测点I-nice聚类算法 被引量:1
4
作者 陈鸿杰 何玉林 +1 位作者 黄哲学 尹剑飞 《模式识别与人工智能》 EI CSCD 北大核心 2022年第4期348-362,共15页
伴随着问题场景数据在规模上的快速增长和构成上的复杂化,精确估计簇的个数和簇的中心点是当下聚类算法处理和分析复杂大规模数据的重要挑战.簇数及簇心的精确估计对于部分有参聚类算法、数据集整体复杂性度量和数据简化表示等都十分关... 伴随着问题场景数据在规模上的快速增长和构成上的复杂化,精确估计簇的个数和簇的中心点是当下聚类算法处理和分析复杂大规模数据的重要挑战.簇数及簇心的精确估计对于部分有参聚类算法、数据集整体复杂性度量和数据简化表示等都十分关键.文中在深入分析I-nice的基础上,提出基于候选中心融合的多观测点I-nice聚类算法.在原多观测点投影分治框架上采用混合高斯模型(Gaussian Mixture Model,GMM),结合粗细粒度最佳GMM搜索策略,实现数据子集的精确划分.此外,基于候选中心点分别到各观测点的距离值及最佳GMM,构造候选中心点的GMM构件向量,并设计一组闵可夫斯基距离对进行候选中心点间的相异度度量,实现基于GMM构件向量相异度的多观测点I-nice候选中心融合.不同于现有聚类算法,文中算法联合优化分治环节数据子集划分和候选中心集成这两个关键过程,实现成百上千个簇的精确高效估计.在真实数据集和仿真数据集上的一系列实验表明,文中算法能精确估计簇数和簇中心,具备较高的聚类精度.实验同时验证算法的有效性及在各类数据场景下的稳定性. 展开更多
关键词 无监督学习 观测点 I-nice 无参聚类 高斯混合模型
在线阅读 下载PDF
基于神经网络的工厂用电状态识别方法 被引量:1
5
作者 秦红莲 何玉林 黄哲学 《集成技术》 2019年第4期42-51,共10页
智能电表的迅速普及与应用引起电力消耗数据(即智能电网数据)的激增,这不仅给数据的存储与通信带来了挑战,同时也增加了对数据进行分析的难度。另外,由于生产性质和经营方式的不同,工厂的用电状态往往比较复杂。基于传统经验的人工识别... 智能电表的迅速普及与应用引起电力消耗数据(即智能电网数据)的激增,这不仅给数据的存储与通信带来了挑战,同时也增加了对数据进行分析的难度。另外,由于生产性质和经营方式的不同,工厂的用电状态往往比较复杂。基于传统经验的人工识别不能满足实际应用的需求,该文研究了一种基于神经网络的工厂用电状态自动识别方法。首先,对采集于真实应用场景的电网大数据进行必要的预处理,包括数据的合并、清洗、标准化、打标和抽样;然后,基于预处理的电网数据构建神经网络模型用于对工厂用电状态的自动识别;最后,对提出的基于神经网络的工厂用电状态识别方法进行实验验证,证实了该方法的合理性和有效性。通过对工厂用电状态的准确识别,能够帮助供电公司指导企业进行错峰用电,进而有效缓解电力供给不平衡的问题,以达到对电能合理开发和利用的目的。 展开更多
关键词 人工智能 神经网络 智能电表 电网数据 用电状态
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部