期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
Density estimation-based method to determine sample size for random sample partition of big data
1
作者 Yulin HE Jiaqi CHEN +2 位作者 Jiaxing SHEN Philippe FOURNIER-VIGER Joshua Zhexue HUANG 《Frontiers of Computer Science》 SCIE EI CSCD 2024年第5期57-70,共14页
Random sample partition(RSP)is a newly developed big data representation and management model to deal with big data approximate computation problems.Academic research and practical applications have confirmed that RSP... Random sample partition(RSP)is a newly developed big data representation and management model to deal with big data approximate computation problems.Academic research and practical applications have confirmed that RSP is an efficient solution for big data processing and analysis.However,a challenge for implementing RSP is determining an appropriate sample size for RSP data blocks.While a large sample size increases the burden of big data computation,a small size will lead to insufficient distribution information for RSP data blocks.To address this problem,this paper presents a novel density estimation-based method(DEM)to determine the optimal sample size for RSP data blocks.First,a theoretical sample size is calculated based on the multivariate Dvoretzky-Kiefer-Wolfowitz(DKW)inequality by using the fixed-point iteration(FPI)method.Second,a practical sample size is determined by minimizing the validation error of a kernel density estimator(KDE)constructed on RSP data blocks for an increasing sample size.Finally,a series of persuasive experiments are conducted to validate the feasibility,rationality,and effectiveness of DEM.Experimental results show that(1)the iteration function of the FPI method is convergent for calculating the theoretical sample size from the multivariate DKW inequality;(2)the KDE constructed on RSP data blocks with sample size determined by DEM can yield a good approximation of the probability density function(p.d.f);and(3)DEM provides more accurate sample sizes than the existing sample size determination methods from the perspective of p.d.f.estimation.This demonstrates that DEM is a viable approach to deal with the sample size determination problem for big data RSP implementation. 展开更多
关键词 random sample partition big data sample size Dvoretzky-Kiefer-Wolfowitz inequality kerneldensity estimator probability density function
原文传递
基于大数据随机样本划分的分布式观测点分类器
2
作者 李旭 何玉林 +2 位作者 崔来中 黄哲学 PHILIPPE Fournier-Viger 《计算机应用》 CSCD 北大核心 2024年第6期1727-1733,共7页
观测点分类器(OPC)是一种试图通过将多维样本空间线性不可分问题转换成一维距离空间线性可分问题的有监督学习模型,对高维数据的分类问题尤为有效。针对OPC在处理大数据分类问题时表现的较高训练复杂度,在Spark框架下设计一款基于大数... 观测点分类器(OPC)是一种试图通过将多维样本空间线性不可分问题转换成一维距离空间线性可分问题的有监督学习模型,对高维数据的分类问题尤为有效。针对OPC在处理大数据分类问题时表现的较高训练复杂度,在Spark框架下设计一款基于大数据的随机样本划分(RSP)的分布式OPC(DOPC)。首先,在分布式计算环境下生成大数据的RSP数据块,并将它转换为弹性分布式数据集(RDD);其次,在RSP数据块上协同式地训练一组OPC,由于每个RSP数据块上的OPC独立训练,因此有高效的Spark可实现性;最后,在Spark框架下将在RSP数据块上协同训练的OPC集成为DOPC,对新样本进行类标签预测。在8个大数据集上,对Spark集群环境下实现的DOPC的可行性、合理性和有效性进行实验验证,实验结果显示,DOPC能够以更低的计算消耗获得比单机OPC更高的测试精度,同时相较于Spark框架下实现的基于RSP模型的神经网络(NN)、决策树(DT)、朴素贝叶斯(NB)和K最近邻(KNN),DOPC分类器具有更强的泛化性能。测试结果表明,DOPC是一种高效低耗的处理大数据分类问题的有监督学习算法。 展开更多
关键词 大数据分类 分布式文件系统 随机样本划分 观测点分类器 Spark计算框架
在线阅读 下载PDF
基于标签迭代的聚类集成算法
3
作者 何玉林 杨锦 +1 位作者 黄哲学 尹剑飞 《智能科学与技术学报》 CSCD 2024年第4期466-479,共14页
现有的“数据相同,算法不同”式的聚类集成算法训练策略普遍存在处理大规模数据性能受限以及共识函数适应性不强的缺点。为此,对“数据不同,算法相同”式的聚类集成算法训练策略进行了研究,构建了一种基于标签迭代的聚类集成(LICE)算法... 现有的“数据相同,算法不同”式的聚类集成算法训练策略普遍存在处理大规模数据性能受限以及共识函数适应性不强的缺点。为此,对“数据不同,算法相同”式的聚类集成算法训练策略进行了研究,构建了一种基于标签迭代的聚类集成(LICE)算法。首先,该算法在原始数据集的随机样本划分(RSP)数据块上训练若干基聚类器。接着,利用最大平均差异准则对聚类簇数相同的基聚类结果进行融合,并基于标签确定的RSP数据块训练一个启发式分类器。之后,迭代式地利用启发式分类器对标签不确定的RSP数据块中的样本点进行标签预测,利用分类标签与聚类标签一致的样本点强化启发式分类器的性能。最后,通过一系列可信的实验对LICE算法的可行性和有效性进行验证,结果显示在代表性数据集上,LICE算法对应的标准互信息、调整兰德系数、Fowlkes-Mallows指数以及纯度在第5次迭代时相比于迭代起始分别平均提升了17.23%、16.75%、31.29%和12.37%。与7种经典的聚类集成算法相比,在选用的数据集上,这4个指标的值分别平均提升了11.76%、16.50%、9.36%和14.20%。实验证实了LICE算法是一种高效合理的、能够处理大数据聚类问题的聚类集成算法。 展开更多
关键词 聚类集成算法 集成学习 随机样本划分 最大平均差异 标签迭代
在线阅读 下载PDF
同心圆检测中的区域划分算法 被引量:9
4
作者 牛建军 刘上乾 +1 位作者 韩宝君 任宝文 《光子学报》 EI CAS CSCD 北大核心 2006年第12期1946-1949,共4页
针对在基于图像的高准确度测量领域中同心圆图像检测这一实际问题,分析并实验验证了Hough变换法的缺点和一般圆拟合法的不足,根据系统光轴与同心圆旋转对称轴重合的特点,提出对图像平面进行区域划分再应用圆拟合法检测的方法.建立了基... 针对在基于图像的高准确度测量领域中同心圆图像检测这一实际问题,分析并实验验证了Hough变换法的缺点和一般圆拟合法的不足,根据系统光轴与同心圆旋转对称轴重合的特点,提出对图像平面进行区域划分再应用圆拟合法检测的方法.建立了基于距离空间聚类和基于随机采样两种区域划分算法,并且给出了圆心初值误差的极限.通过实验仿真,证明了新算法简单高效和可靠,而基于随机采样的算法更适合于实时检测的应用. 展开更多
关键词 同心圆检测 圆拟合 区域划分 距离空间聚类 随机采样
在线阅读 下载PDF
PAA:海量数据上一种有效的近似聚集查询算法 被引量:2
5
作者 韩希先 李建中 高宏 《计算机研究与发展》 EI CSCD 北大核心 2014年第1期41-53,共13页
聚集查询是一种常用但是耗时的数据库操作.相对于准确查询,以少得多的响应时间向用户返回满足置信区间的近似结果通常是一种更好的选择.现有的近似查询方法无法在海量数据上高效地处理满足任意精度的近似聚集查询.提出一种新的算法PAA(p... 聚集查询是一种常用但是耗时的数据库操作.相对于准确查询,以少得多的响应时间向用户返回满足置信区间的近似结果通常是一种更好的选择.现有的近似查询方法无法在海量数据上高效地处理满足任意精度的近似聚集查询.提出一种新的算法PAA(partition-based approximate aggregation)来有效处理满足任意置信区间的近似聚集.维属性的数据空间被划分为同样大小的空间区域,每个分片维护着维属性落入对应空间区域的元组.PAA算法维护表的随机样本RS,其执行包括两个阶段.在阶段1,如果利用预构建的随机样本RS不能返回满足用户要求的近似结果,那么在阶段2,PAA算法从与查询区域相交的空间区域对应的分片集合IPS中获得更多的随机元组.PAA算法的特色在于:1)如何在不知道IPS包含的每个分片满足谓词的元组数量情况下,从IPS中获得需要的随机元组;2)如何有效减少阶段2中的随机I/O费用.实验表明,相对于现有方法,PAA算法可以获得两个数量级的加速比. 展开更多
关键词 海量数据 PAA算法 近似聚集 划分 随机样本
在线阅读 下载PDF
分段抽样模型中抽中目标的概率分析 被引量:1
6
作者 杨观赐 李少波 钟勇 《计算机应用》 CSCD 北大核心 2012年第8期2209-2211,共3页
为了增大基于种群操作的搜索技术在有限时间内捕捉到决策空间中的特定目标的概率,基于古典概率模型建立不划分的随机抽样模型和划分成多个子区域的随机抽样模型(简称划分模型),分析比较了两个模型分别进行多次独立随机抽样至少抽中1次... 为了增大基于种群操作的搜索技术在有限时间内捕捉到决策空间中的特定目标的概率,基于古典概率模型建立不划分的随机抽样模型和划分成多个子区域的随机抽样模型(简称划分模型),分析比较了两个模型分别进行多次独立随机抽样至少抽中1次特定目标的概率,并证明:当总体中特定目标的数量为1或2时,划分模型抽中特定目标的概率恒大于不划分模型的概率。 展开更多
关键词 决策空间划分模型 古典概率模型 随机抽样 分段抽样 均匀分布
在线阅读 下载PDF
并行随机抽样贪心算法分区的MapReduce负载均衡研究 被引量:3
7
作者 黄伟建 贾孟玉 黄亮 《现代电子技术》 北大核心 2020年第16期170-173,共4页
针对传统MapReduce环境下Hash分区处理偏差数据时存在效率低下负载不均衡问题,采用两阶段分区,即基于并行相似随机抽样贪心算法分区。该抽样是基于Hadoop随机抽样在给定样本比率或特定置信度下的误差范围内快速且低错误率的预测key分布... 针对传统MapReduce环境下Hash分区处理偏差数据时存在效率低下负载不均衡问题,采用两阶段分区,即基于并行相似随机抽样贪心算法分区。该抽样是基于Hadoop随机抽样在给定样本比率或特定置信度下的误差范围内快速且低错误率的预测key分布结果。优点在于利用MapReduce框架的并行性减少抽样开销成本,并采用一种评估模型来确定合适的抽样率,达到减少抽样开销成本和提高抽样准确性的目的。结合贪心算法分区代替Hadoop平台默认的Hash分区算法来划分中间数据,实现MapReduce负载均衡。Matlab实验仿真结果表明,并行随机抽样贪心算法分区无论从负载均衡还是执行时间上都优于原生Hadoop中Hash分区算法。 展开更多
关键词 MAPREDUCE 负载均衡 贪心算法分区 并行随机抽样 分区建模 对比验证
在线阅读 下载PDF
大数据随机样本划分模型及相关分析计算技术 被引量:17
8
作者 黄哲学 何玉林 +1 位作者 魏丞昊 张晓亮 《数据采集与处理》 CSCD 北大核心 2019年第3期373-385,共13页
设计了一种新的适用于大数据的管理和分析模型大数据随机样本划分(Random samplepartition,RSP)模型,它是将大数据文件表达成一系列RSP数据块文件的集合,分布存储在集群节点上。RSP的生成操作使每个RSP数据块的分布与大数据的分布保持... 设计了一种新的适用于大数据的管理和分析模型大数据随机样本划分(Random samplepartition,RSP)模型,它是将大数据文件表达成一系列RSP数据块文件的集合,分布存储在集群节点上。RSP的生成操作使每个RSP数据块的分布与大数据的分布保持统计意义上的一致,因此,每个RSP数据块是大数据的一个随机样本数据,可以用来估计大数据的统计特征,或建立大数据的分类和回归模型。基于RSP模型,大数据的分析任务可以通过对RSP数据块的分析来完成,不需要对整个大数据进行计算,极大地减少了计算量,降低了对计算资源的要求,提高了集群系统的计算能力和扩展能力。本文首先给出RSP模型的定义、理论基础和生成方法;然后介绍基于RSP数据块的渐近式集成学习Alpha计算框架;之后讨论基于RSP模型和Alpha框架的大数据分析相关计算技术,包括:数据探索与清洗、概率密度函数估计、有监督子空间学习、半监督集成学习、聚类集成和异常点检测;最后讨论RSP模型在分而治之大数据分析和抽样方法上的创新,以及RSP模型和Alpha计算框架实现大规模数据分析的优势。 展开更多
关键词 大数据 随机样本划分 渐近式集成学习 人工智能
在线阅读 下载PDF
基于PS-RRT算法的机械臂避障路径规划 被引量:8
9
作者 王红莉 向国菲 +1 位作者 朱雨琪 佃松宜 《计算机应用研究》 CSCD 北大核心 2023年第1期42-46,共5页
针对应用快速搜索随机树(RRT)算法进行机械臂路径规划时,存在采样区域大、有效区域小、路径冗余节点多、剪枝时间长等问题,提出一种基于分区动态采样策略和重复区域节点拒绝机制的高效RRT路径规划算法PS-RRT(partitioned sampling RRT)... 针对应用快速搜索随机树(RRT)算法进行机械臂路径规划时,存在采样区域大、有效区域小、路径冗余节点多、剪枝时间长等问题,提出一种基于分区动态采样策略和重复区域节点拒绝机制的高效RRT路径规划算法PS-RRT(partitioned sampling RRT)。首先,通过PS-RRT快速规划机械臂末端初始路径;其次,分段检测机械臂跟随该路径时的连杆碰撞情况,对碰撞路段进行带臂形约束的第二次规划;最后,将初始路径和第二次规划的路径拼接后进行路径裁剪。将所提方法在多种场景中进行仿真验证,结果表明:基于PS-RRT算法的机械臂避障路径规划策略使得无效节点数大幅减少,可高效规划出机械臂的无碰路径,验证了算法的可行性。 展开更多
关键词 机械臂 路径规划 快速搜索随机树 分区动态采样 节点拒绝 路径裁剪
在线阅读 下载PDF
结合分区和改进ICP的三维颅骨自动配准算法 被引量:4
10
作者 史重阳 刘晓宁 +2 位作者 罗星海 胡晓静 耿国华 《小型微型计算机系统》 CSCD 北大核心 2018年第4期631-637,共7页
颅骨配准是统计颅面复原过程的重要步骤之一.在建立颅骨数据库以及后续的相似性颅骨检索中,都需要进行颅骨配准.针对现有的颅骨配准方法准确度和效率不高造成复原效果不理想的问题,本文提出一种结合分区和改进迭代最近点算法(ICP)的三... 颅骨配准是统计颅面复原过程的重要步骤之一.在建立颅骨数据库以及后续的相似性颅骨检索中,都需要进行颅骨配准.针对现有的颅骨配准方法准确度和效率不高造成复原效果不理想的问题,本文提出一种结合分区和改进迭代最近点算法(ICP)的三维颅骨自动配准算法.首先根据Voronoi图对颅骨进行区域划分,计算得到每个区域的质心,并作为区域配准的基本单位,根据Euclidean距离和k近邻(KNN)算法实现区域匹配;然后对每对匹配区域运用随机抽样一致算法(RANSAC)选出四对共面的匹配点对,并进行变换矩阵和最大化公共点集(LCP)的求解,根据LCP值得到最优变换矩阵,组合所有区域对的最优变换矩阵求得全局最优变换矩阵,完成初始配准;最后,在ICP算法中设置动态估计(Destimation)来有效剔除误匹配点对,以均方根误差(RMSE)作为配准误差,完成精确配准.实验结果表明,本文算法与基于区域中稀疏ICP算法和基于曲率图中的经典ICP算法对比,迭代收敛性更好,配准准确度有明显的提高,配准的时间复杂度显著降低. 展开更多
关键词 颅骨配准 随机抽样一致算法 颅骨分区 动态估计 迭代最近点算法
在线阅读 下载PDF
基于本地差分隐私的空间数据自适应划分算法 被引量:2
11
作者 金媛媛 倪志伟 +2 位作者 朱旭辉 陈恒恒 陈千 《计算机工程》 CAS CSCD 北大核心 2022年第5期136-144,共9页
空间位置数据分布通常具有不均匀性,不同位置区域的密度差异较大,在本地差分隐私模型中无法直接获取用户真实的位置数据,使得空间位置划分方法受到限制以及数据发布存在查询精度低、通信代价大等问题。为在本地差分隐私模型下的大规模... 空间位置数据分布通常具有不均匀性,不同位置区域的密度差异较大,在本地差分隐私模型中无法直接获取用户真实的位置数据,使得空间位置划分方法受到限制以及数据发布存在查询精度低、通信代价大等问题。为在本地差分隐私模型下的大规模空间数据采集和发布过程中进行空间划分,提出一种空间数据分层自适应划分算法KDG-HT。通过收集部分用户的数据来初步获取区域的分布情况,采用KD-树的思想划分区域,并利用抽样技术对用户进行分组,根据分组用户统计结果所提供的先验知识来完成多层细粒度划分。在此基础上,结合差分隐私模型的并行组合特性分层扰动用户数据,从总体上实现发布数据的ε-差分隐私保护。实验结果表明,KDG-HT算法适用于具有不同数据分布情况的大规模空间数据集,查询精度及运行效率优于RAPPOR、UG、GT-R等算法,其中与GT-R算法相比,KDG-HT算法发布数据的查询精度最高提升3倍,运行效率提高17%。 展开更多
关键词 本地差分隐私 空间自适应划分 用户随机采样 空间范围查询 随机响应
在线阅读 下载PDF
混合属性数据集分布一致性度量的新方法 被引量:3
12
作者 何玉林 金一 +2 位作者 戴德鑫 黄柏皓 黄家杰 《深圳大学学报(理工版)》 EI CAS CSCD 北大核心 2021年第2期170-179,共10页
数据分布一致性的度量是大数据随机样本划分生成过程中的一个关键问题,如何针对混合属性的数据集进行合理有效的分布一致性度量是目前随机样本划分技术研究的重点.提出一种新的基于深度编码和最大平均差异的混合属性数据集分布一致性度... 数据分布一致性的度量是大数据随机样本划分生成过程中的一个关键问题,如何针对混合属性的数据集进行合理有效的分布一致性度量是目前随机样本划分技术研究的重点.提出一种新的基于深度编码和最大平均差异的混合属性数据集分布一致性度量方法,不直接对两个不同的原始数据集进行分布一致性的度量,而是首先对混合属性中的离散属性进行独热编码,得到独热编码数据集;之后对独热编码数据集进行自编码处理,得到深度编码数据集;最后基于最大均值差异指标对两个不同的深度编码数据集进行分布一致性的度量.在Adult、Australian、CRX和German标准混合属性数据集上对所提方法进行性能实验验证,结果表明,与基于离散属性独热编码的最大平均差异方法和基于连续属性二进制化的相似性度量方法相比,新方法能够更加准确地对混合属性数据进行分布一致性的度量. 展开更多
关键词 人工智能 随机样本划分 分布一致性 最大均值差异 混合属性数据 独热编码 深度编码
在线阅读 下载PDF
基于改进谱聚类的合成孔径雷达溢油图像分割算法 被引量:2
13
作者 张君 薄华 王晓峰 《上海海事大学学报》 北大核心 2011年第3期68-73,共6页
为了解决传统谱聚类算法对大尺寸海洋图像难以进行有效计算的问题,提出一种改进的谱聚类算法.采用分块方法将原始图像分割成多个子图,同时结合随机采样算法利用采集的样本估计全局样本,在保证分割精度基础上大大降低计算复杂度,有效地... 为了解决传统谱聚类算法对大尺寸海洋图像难以进行有效计算的问题,提出一种改进的谱聚类算法.采用分块方法将原始图像分割成多个子图,同时结合随机采样算法利用采集的样本估计全局样本,在保证分割精度基础上大大降低计算复杂度,有效地处理高维图像.针对随机采样的不稳定性,采用多次采样聚类并结合大多数投票的方法,得出最终的分割结果.仿真结果显示,改进算法可以有效降低计算复杂度,并保证聚类算法计算复杂度的减少与图像大小成正比,分块方法和多次聚类结果的融合可以大大提高溢油目标分割的精度. 展开更多
关键词 合成孔径雷达 溢油 图像分割 计算复杂度 分块方法 随机采样算法 聚类标签统一 大多数投票
在线阅读 下载PDF
改进随机Hough变换的中心检测 被引量:6
14
作者 侯建成 刘国海 +1 位作者 何坚强 汪志成 《中国测试》 CAS 北大核心 2020年第1期124-128,共5页
针对复杂背景下干扰因素多,圆的形态不规则,传统随机Hough变换圆检测速度慢,检测精度低的问题,提出一种复杂背景下的不规则圆检测方法。该方法首先通过连通区域标记算法,获得目标圆的感兴趣区域(region of interest,ROI),然后对圆的边... 针对复杂背景下干扰因素多,圆的形态不规则,传统随机Hough变换圆检测速度慢,检测精度低的问题,提出一种复杂背景下的不规则圆检测方法。该方法首先通过连通区域标记算法,获得目标圆的感兴趣区域(region of interest,ROI),然后对圆的边缘点进行分区采样,提高随机采样的有效性;确定圆心位置后,取圆心的8邻域像素为圆心分别做圆,从而提高不规则圆的检测精度。通过对热保护器校准点的中心检测结果表明,提出的方法可在复杂背景下实现圆的精确检出,检测速度更快,检测精度更高。 展开更多
关键词 复杂背景 随机HOUGH变换 分区采样 圆检测 中心检测
在线阅读 下载PDF
Spark下基于PCA和分层选择的随机森林算法 被引量:1
15
作者 雷晨 毛伊敏 《计算机工程与应用》 CSCD 北大核心 2022年第6期118-127,共10页
针对大数据背景下随机森林算法中存在协方差矩阵规模较大、子空间特征信息覆盖不足和节点通信开销大的问题,提出了基于PCA和子空间分层选择的并行随机森林算法PLA-PRF(PCA and subspace layer sampling on parallel random forest algor... 针对大数据背景下随机森林算法中存在协方差矩阵规模较大、子空间特征信息覆盖不足和节点通信开销大的问题,提出了基于PCA和子空间分层选择的并行随机森林算法PLA-PRF(PCA and subspace layer sampling on parallel random forest algorithm)。对初始特征集,提出了基于PCA的矩阵分解策略(matrix factorization strategy,MFS),压缩原始特征集,提取主成分特征,解决特征变换过程中协方差矩阵规模较大的问题;基于主成分特征,提出基于误差约束的分层子空间构造算法(error-constrained hierarchical subspace construction algorithm,EHSCA),分层选取信息素特征,构建特征子空间,解决子空间特征信息覆盖不足的问题;在Spark环境下并行化训练决策树的过程中,设计了一种数据复用策略(data reuse strategy,DRS),通过垂直划分RDD数据并结合索引表,实现特征复用,解决了节点通信开销大的问题。实验结果表明PLA-PRF算法分类效果更佳,并行化效率更高。 展开更多
关键词 随机森林 SPARK 主成分分析(PCA) 分层抽样 误差约束 数据划分 数据复用
在线阅读 下载PDF
基于统计感知的大数据处理与分析课程设计研究 被引量:1
16
作者 何玉林 尹剑飞 黄哲学 《现代计算机》 2021年第17期158-161,170,共5页
随着国内高校相继成立针对本科生的、以大数据技术与应用专业人才培养为目的的大数据特色班,对专业核心课程《大数据处理与分析》教学内容的设计变得非常迫切。本文提出一种以大数据统计感知思想为切入点、以大数据随机样本划分模型为... 随着国内高校相继成立针对本科生的、以大数据技术与应用专业人才培养为目的的大数据特色班,对专业核心课程《大数据处理与分析》教学内容的设计变得非常迫切。本文提出一种以大数据统计感知思想为切入点、以大数据随机样本划分模型为基础的课程设计方案,主要包括大数据存储处理、大数据预处理、大数据切分处理、大数据降维处理、大数据统计分析、大数据分类分析和大数据聚类分析七部分教学内容。同时,结合有针对性的应用案例将课程知识点与实际应用有机结合,在重视课程设计的理论性基础上,增强教学内容的实用性。 展开更多
关键词 大数据处理 大数据分析 课程设计 统计感知 随机样本划分
在线阅读 下载PDF
基于改进SRS-RANSAC图像配准算法 被引量:3
17
作者 陈勇 党淑雯 +1 位作者 凌晨飞 张诚毅 《智能计算机与应用》 2021年第11期26-30,共5页
针对目前图像配准算法存在的配准时间较长、配准正确率低等问题,本文提出一种基于改进分层随机选择一致性(Stratified Random Selection Random Sample Consensus,SRS-RANSA)的图像配准算法。首先,通过ORB(Oriented FAST and Rotated BR... 针对目前图像配准算法存在的配准时间较长、配准正确率低等问题,本文提出一种基于改进分层随机选择一致性(Stratified Random Selection Random Sample Consensus,SRS-RANSA)的图像配准算法。首先,通过ORB(Oriented FAST and Rotated BRIEF)算法对参考图像进行特征点提取;其次,采用最小距离法初步过滤匹配中存在的误匹配数量;最后,随机抽样一致性(RANSAC)框架中通过分层随机选择(SRS)提取分布相对分散且均匀的特征点,进一步过滤掉初始匹配中存在的不匹配特征点,实现提高配准正确率的同时缩短运行时间。通过本文算法与其他算法在Oxford标准图集和现实中拍摄的图像进行实验对比,结果表明,本文算法在匹配正确率与运行效率上有所提高。 展开更多
关键词 图像配准 最小距离法 分层随机选择 随机抽样一致性
在线阅读 下载PDF
基于统计感知的大数据系统计算框架 被引量:5
18
作者 魏丞昊 黄哲学 何玉林 《深圳大学学报(理工版)》 EI CAS CSCD 北大核心 2018年第5期441-443,共3页
为在一定计算资源条件下实现大数据可计算化,本研究提出一种基于统计感知思想的Tbyte级大数据系统计算框架Bigdata-α,该框架的核心为大数据随机样本划分模型和逼近式集成学习模型.前者保证了划分后每个子数据块所包含的样本与大数据总... 为在一定计算资源条件下实现大数据可计算化,本研究提出一种基于统计感知思想的Tbyte级大数据系统计算框架Bigdata-α,该框架的核心为大数据随机样本划分模型和逼近式集成学习模型.前者保证了划分后每个子数据块所包含的样本与大数据总体概率分布的一致性.后者通过分析若干个随机样本数据块替代了Tbyte级全量数据分析.使用1 Tbyte模拟数据集验证随机样本划分模型的有效性,通过逐渐增加随机样本块的个数,提升了Higgs数据集基分类器的分类准确度,证明该方法能克服大数据分析中计算资源的限制瓶颈. 展开更多
关键词 计算机系统结构 大数据 随机样本划分 逼近式集成学习 并行分布式计算 分布式处理系统
在线阅读 下载PDF
分布式子空间局部链接随机向量函数链接网络
19
作者 于万国 袁镇濠 +1 位作者 陈佳琪 何玉林 《深圳大学学报(理工版)》 CAS CSCD 北大核心 2022年第6期675-683,共9页
为解决随机向量函数链接(random vector functional link,RVFL)网络处理大规模数据分类时表现出的泛化能力差和计算复杂度高的问题,基于Spark框架设计与实现一种分布式子空间局部链接的RVFL(distributed RVFL with subspace-based local... 为解决随机向量函数链接(random vector functional link,RVFL)网络处理大规模数据分类时表现出的泛化能力差和计算复杂度高的问题,基于Spark框架设计与实现一种分布式子空间局部链接的RVFL(distributed RVFL with subspace-based local connections,DRVFL-SLC)网络.利用弹性分布式数据集(resilient distributed dataset,RDD)的分区并行性,对存于Hadoop分布式文件系统(Hadoop distributed file system,HDFS)的大规模数据集进行随机样本划分(random sample partition,RSP)操作,保证每个RSP数据块对应RDD的1个分区.其中,RSP数据块是在给定的显著性水平下与大数据保持概率分布一致性的数据子集.在分布式环境下对包含多个分区的RDD调用mapPartitions转换算子并行高效地训练对应的最优RVFL-SLC网络.利用collect执行算子将RDD每个分区对应的最优RVFL-SLC网络进行高效率地渐近融合获得DRVFLSLC网络以实现对大数据分类问题的近似求解.在部署了6个计算节点的Spark集群上,基于8个百万条记录的大规模数据集对DRVFL-SLC网络的可行性和有效性进行了验证.结果表明,DRVFL-SLC网络拥有很好的加速比、可扩展性以及规模增长性,同时能够获得比在单机上利用全量数据训练的RVFL-SLC网络更好的泛化表现. 展开更多
关键词 人工智能 随机向量函数链接网络 子空间局部链接 随机样本划分 HADOOP分布式文件系统
在线阅读 下载PDF
针对大规模数据的分布一致缺失值插补算法 被引量:5
20
作者 余嘉茵 何玉林 +1 位作者 崔来中 黄哲学 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第5期740-753,共14页
缺失值插补(missing value imputation,MVI)作为数据挖掘领域的重要研究分支,旨在为机器学习算法的训练提供高质量的数据支持。不同于现有的以算法性能提升为导向的MVI算法,为对大规模数据的缺失值进行有效插补,该文提出一种以数据结构... 缺失值插补(missing value imputation,MVI)作为数据挖掘领域的重要研究分支,旨在为机器学习算法的训练提供高质量的数据支持。不同于现有的以算法性能提升为导向的MVI算法,为对大规模数据的缺失值进行有效插补,该文提出一种以数据结构还原为导向的数据分布一致MVI(distribution consistency-based MVI, DC-MVI)算法。首先,DC-MVI算法基于概率分布一致性原则构建了用于确定最优插补值的目标函数;其次,利用推导出的可行缺失值优化规则获取与原始完整值保持最大分布一致性且方差最为接近的插补值;最后,在分布式环境下,针对大数据的随机样本划分(random sample partition, RSP)数据块并行训练DC-MVI算法,获得大规模数据缺失值对应的插补值。实验结果表明:DC-MVI算法不仅能生成与原始完整值保持给定显著性水平下概率分布一致的插补值,还具有比另外5种经典的和3种最新的MVI算法更快的插补速度和更好的插补效果,进而证实DC-MVI算法是一种可行的大规模数据MVI算法。 展开更多
关键词 文字信息处理 缺失值插补 分布一致性 最大均值差异 大规模数据 随机样本划分 分布式计算
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部