期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
异构并行计算下高维混合型数据聚类算法研究 被引量:2
1
作者 祝鹏 《现代电子技术》 北大核心 2024年第9期139-142,共4页
高维数据维度增加,数据空间的体积呈指数增长,容易陷入“维数灾难”,导致聚类算法执行效率低,为此,提出异构并行计算下高维混合型数据聚类算法。构建高维混合型数据相异度矩阵,提取高维混合型数据的统计序列特征值,利用时间窗口进行特... 高维数据维度增加,数据空间的体积呈指数增长,容易陷入“维数灾难”,导致聚类算法执行效率低,为此,提出异构并行计算下高维混合型数据聚类算法。构建高维混合型数据相异度矩阵,提取高维混合型数据的统计序列特征值,利用时间窗口进行特征优化。采用K⁃Prototypes聚类算法提取高维混合型数据的统计序列特征,评估数据与类中心的相异性,计算数据与类中心的欧氏距离,实现高维混合型数据聚类。采用异构并行计算技术进行高维混合型数据K⁃Prototypes聚类的并行化处理,合理分配CPU与GPU工作,达到CPU与GPU的工作负载平衡,提高K⁃Prototypes的聚类效率。实验结果表明,此算法对于高维混合型数据的聚类效果好、运行时间短、性能稳定。 展开更多
关键词 异构并行计算 高维混合型数据 K⁃Prototypes聚类算法 欧氏距离 统计序列特征 负载平衡
在线阅读 下载PDF
城市洪涝模型及CPU-GPU异构并行计算技术研究进展 被引量:8
2
作者 黄国如 陈志威 曾博威 《水利学报》 EI CSCD 北大核心 2023年第6期654-665,共12页
在全球气候变暖和城市化背景下,城市洪涝问题日益严峻。为尽可能减少城市洪涝灾害造成的损失,提高城市对突发性强降雨事件的应急处理水平,开展城市洪涝数值模拟技术研究具有十分重要的意义。本文从城市洪涝精细化和高效模拟角度出发,综... 在全球气候变暖和城市化背景下,城市洪涝问题日益严峻。为尽可能减少城市洪涝灾害造成的损失,提高城市对突发性强降雨事件的应急处理水平,开展城市洪涝数值模拟技术研究具有十分重要的意义。本文从城市洪涝精细化和高效模拟角度出发,综述了城市洪涝模型、CPU-GPU异构并行计算的研究进展,系统总结了产汇流模型、一维河道管网模型、二维地表模型、耦合模型、快速城市洪涝模型的构建方法和CPU-GPU异构并行计算的关键技术。针对当前城市洪涝模型研究中的不足之处,需要开展城市洪涝过程全物理机制模拟研究,深入分析全水动力城市洪涝模型的适用性、模拟精度和计算效率;还需基于异构并行计算技术,实现城市洪涝模型一维河道管网、二维地表淹没的快速模拟,为城市暴雨洪涝精细化与高效模拟奠定基础。 展开更多
关键词 城市洪涝 产汇流模型 河道管网模型 地表模型 耦合模型 异构并行计算
在线阅读 下载PDF
异构并行计算及其调度策略 被引量:1
3
作者 陆鑫达 郑飞 《计算机工程》 CAS CSCD 北大核心 1997年第S1期37-39,共3页
文章叙述能获取持续高性能计算能力的异构并行计算的主要特征及有关关键问题:异构调度(包括匹配和调度)。讨论如何用遗传算法来获得异构调度的全局优化解。给出了有关异构并行计算和异构调度的实验结果。
关键词 异构并行计算 持续高性能 异构调度 遗传算法
在线阅读 下载PDF
基于SYCL的多相流LBM模拟跨平台异构并行计算研究 被引量:1
4
作者 丁越 徐传福 +4 位作者 邱昊中 戴未希 汪青松 林拥真 王正华 《计算机科学》 CSCD 北大核心 2023年第11期32-40,共9页
异构并行体系结构是当前高性能计算的重要技术趋势。由于各种异构平台通常支持不同的编程模型,跨平台性能可移植异构并行应用开发非常困难。SYCL是一个基于C++语言的单源跨平台并行编程开放标准。目前针对SYCL的研究主要集中于与其他并... 异构并行体系结构是当前高性能计算的重要技术趋势。由于各种异构平台通常支持不同的编程模型,跨平台性能可移植异构并行应用开发非常困难。SYCL是一个基于C++语言的单源跨平台并行编程开放标准。目前针对SYCL的研究主要集中于与其他并行编程模型的性能比较,对SYCL中提供的不同并行内核实现及其性能优化研究得较少。针对这一现状,基于SYCL编程模型对开源多相流数值模拟软件openLBMmflow实现跨平台异构并行模拟,通过对比基础并行版本、细粒度调优的ND-range并行版本以及计算到工作项多对一映射方法,系统总结了SYCL并行应用的性能优化方法。测试结果表明,在Intel Xeon Platinum 9242 CPU以及NVIDIA Tesla V100 GPU上,相比优化后的OpenMP并行实现,在不需要额外调优的情况下,基础并行版本在CPU上获得了2.91的加速比,表明了SYCL的开箱即用性能具备一定优势。以基础并行版本为基准,ND-range并行版本通过改变工作组大小及形状,在CPU与GPU上分别取得了最高1.45以及2.23的加速比。通过优化计算到工作项的多对一映射改变每个工作项处理的格子数量以及形状,与基础并行版本相比,在CPU与GPU上分别取得了最高1.57以及1.34的加速比。结果表明,SYCL并行应用在CPU上更适合采用计算到工作项多对一映射的优化方法,在GPU上更适合采用ND-range并行内核,以提高性能。 展开更多
关键词 SYCL 格子玻尔兹曼方法 多相流模拟 异构并行计算 跨平台并行编程模型
在线阅读 下载PDF
SMB协议在异构网络并行FDTD计算中的应用研究 被引量:1
5
作者 刘瑜 袁宏春 梁正 《计算机应用》 CSCD 北大核心 2008年第2期279-282,共4页
在多系统异构局域网中,由于不同操作环境的消息传递接口(MPI)程序缺乏互操作性,使得并行时域有限差分运算(FDTD)难以充分利用局域网内的计算资源。对此,提出利用应用层服务消息块(SMB)协议实现异构FDTD计算,并通过内存文件存取、内存映... 在多系统异构局域网中,由于不同操作环境的消息传递接口(MPI)程序缺乏互操作性,使得并行时域有限差分运算(FDTD)难以充分利用局域网内的计算资源。对此,提出利用应用层服务消息块(SMB)协议实现异构FDTD计算,并通过内存文件存取、内存映射数组以及引入冗余计算等方法来缓解与克服SMB通信延迟对并行性能的影响。数值模拟实例验证了新方法的可行性与正确性,所得加速比、并行效率等性能指标参数与常规同构MPI消息传递方法基本相当。 展开更多
关键词 异构并行计算 内存文件存取 内存映射数组 冗余计算 并行性能
在线阅读 下载PDF
基于异构系统的多级并行稀疏张量向量乘算法 被引量:1
6
作者 陈玥丹 肖国庆 +3 位作者 阳王东 金纪勇 龙军 李肯立 《计算机学报》 EI CSCD 北大核心 2024年第2期441-455,共15页
张量在许多实际应用中被用来表示大规模、多源、高维、多模态的数据.稀疏张量分解作为挖掘数据中隐藏信息的有效方法之一,已被广泛应用于机器学习、文本分析、生物医疗等研究领域中.稀疏张量向量乘(Sparse Tensor-VectorMultiplication,... 张量在许多实际应用中被用来表示大规模、多源、高维、多模态的数据.稀疏张量分解作为挖掘数据中隐藏信息的有效方法之一,已被广泛应用于机器学习、文本分析、生物医疗等研究领域中.稀疏张量向量乘(Sparse Tensor-VectorMultiplication,SpTV)是张量分解中最基础、耗时最多的运算之一.为加速大数据和人工智能相关应用的运行效率,本文提出了基于CPU-GPU异构结构的多级并行SpTV加速算法.首先,为了将SpTV运算映射到混合、多级并行的分布式CPU-GPU异构多/众核构架,本文设计了一种多维并行SpTV划分方法,采用面向节点级并行的N-1维张量划分和面向GPU线程级并行的矩阵划分,充分利用计算节点间和节点内的多级并行计算能力.其次,设计了一种基于稀疏张量纤维的压缩存储格式,压缩稀疏张量的内存占用,优化SpTV运算的计算和访存模式.最后,提出了基于多流并行的异构高效SpTV算法,进一步设计了稀疏张量的细粒度划分方法、多流并行运行机制和基于张量块排序的多流并行优化技术,实现了SpTV运算中通信开销和计算开销的相互重叠与隐藏.实验结果表明,与相关工作aeSpTV相比,所提出的SpTV算法在所有测试数据集上最高能够获得3.28倍的加速比. 展开更多
关键词 CPU-GPU 异构并行计算 多级并行 稀疏张量 张量运算
在线阅读 下载PDF
面向国产异构DCU平台的大规模并行矩量法研究
7
作者 贾瑞鹏 林中朝 +2 位作者 左胜 张玉 杨美红 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2024年第2期76-83,共8页
面向国产异构众核处理器超级计算机发展趋势,实现了基于CPU+DCU国产异构并行系统的大规模并行高阶矩量法。在同构并行矩量法负载均衡策略的基础上,提出了一种“MPI+openMP+DCU”的高效异构并行编程框架,解决了计算任务与计算能力不匹配... 面向国产异构众核处理器超级计算机发展趋势,实现了基于CPU+DCU国产异构并行系统的大规模并行高阶矩量法。在同构并行矩量法负载均衡策略的基础上,提出了一种“MPI+openMP+DCU”的高效异构并行编程框架,解决了计算任务与计算能力不匹配的问题,实现了矩量法异构并行计算过程的负载均衡。采用细粒度任务划分策略与异步通信技术,对深度计算处理器计算过程进行了流水线优化设计,实现了计算与通信重叠,提升了矩量法异构协同计算的效率。通过与有限元法的仿真结果对比,验证了CPU+DCU异构并行矩量法的准确性。基于国产深度计算处理器异构平台的可扩展性分析结果表明,与单纯CPU计算相比,所实现的CPU+DCU异构协同计算方法能够获得5.5~7.0倍的加速效果,且在国家超级计算西安中心能够实现全系统运行,并行规模从360节点扩展到3 600节点(共1 036 800个处理器核心),并行效率可以达到约73.5%。 展开更多
关键词 高阶矩量法 国产异构并行系统 深度计算处理器 异构协同并行计算
在线阅读 下载PDF
基于移动平台的异构并行字符串匹配算法 被引量:2
8
作者 刘磊 李广力 +2 位作者 徐玥 张桐搏 吕帅 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2017年第1期82-88,共7页
针对信息处理中常见的字符串匹配问题,通过对经典的Brute Force算法和KnuthMorris-Pratt算法进行分析,根据GPU异构并行计算任务的分配特性,设计一种针对Knuth-Morris-Pratt算法的数据重叠划分并行方案,并提出一种基于移动平台的异构并... 针对信息处理中常见的字符串匹配问题,通过对经典的Brute Force算法和KnuthMorris-Pratt算法进行分析,根据GPU异构并行计算任务的分配特性,设计一种针对Knuth-Morris-Pratt算法的数据重叠划分并行方案,并提出一种基于移动平台的异构并行字符串匹配算法KMP_MOP.在PowerVR移动平台环境下使用千万级长度的字符串数据对算法的性能进行测试,同时对算法在其他平台的执行情况进行比较,验证了并行算法的性能可移植性.实验结果表明,KMP_MOP算法能充分利用移动平台中的GPU性能,有效提高具有GPU的移动平台设备的字符串匹配效率. 展开更多
关键词 字符串匹配 重叠划分 移动平台 异构并行计算
在线阅读 下载PDF
面向异构并行架构的大规模原型学习算法
9
作者 苏统华 李松泽 +2 位作者 邓胜春 于洋 白薇 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2016年第11期53-60,共8页
为解决当前原型学习算法在大规模、大类别机器学习和模式识别领域的计算密集瓶颈问题,提出一种采用GPU和CPU异构并行计算架构的可扩展原型学习算法框架.一是通过分解和重组算法的计算任务,将密集的计算负载转移到GPU上,而CPU只需进行少... 为解决当前原型学习算法在大规模、大类别机器学习和模式识别领域的计算密集瓶颈问题,提出一种采用GPU和CPU异构并行计算架构的可扩展原型学习算法框架.一是通过分解和重组算法的计算任务,将密集的计算负载转移到GPU上,而CPU只需进行少量的流程控制.二是根据任务类型自适应地决定是采用分块策略还是并行归约策略来实现.采用大规模手写汉字样本库验证本框架,在消费级显卡GTX680上使用小批量处理模式进行模型学习时,最高可得到194倍的加速比,升级到GTX980显卡,加速比可提升到638倍;算法甚至在更难以加速的随机梯度下降模式下,也至少能获得30倍的加速比.该算法框架在保证识别精度的前提下具有很高的可扩展性,能够有效解决原有原型学习的计算瓶颈问题. 展开更多
关键词 原型学习 学习矢量量化 手写汉字识别 并行归约 异构并行计算
在线阅读 下载PDF
高分辨率滑动聚束SAR BP成像及其异构并行实现 被引量:5
10
作者 唐江文 邓云凯 +2 位作者 王宇 赵硕 李宁 《雷达学报(中英文)》 CSCD 2017年第4期368-375,共8页
当前高分辨率合成孔径雷达对成像算法以及计算能力都提出了巨大挑战,滑动聚束是实现高分辨率的一种重要模式,它能够同时兼顾高分辨率和方位向宽测绘带。在滑动聚束模式下,受轨道弯曲、调频率时变等影响,传统的频域成像算法的聚焦性能会... 当前高分辨率合成孔径雷达对成像算法以及计算能力都提出了巨大挑战,滑动聚束是实现高分辨率的一种重要模式,它能够同时兼顾高分辨率和方位向宽测绘带。在滑动聚束模式下,受轨道弯曲、调频率时变等影响,传统的频域成像算法的聚焦性能会下降,为突破这种局限性,该文采用BP(Back-Projection)算法进行精确成像,并针对BP算法O()的高计算复杂度提出了一种基于CPU/GPU异构计算平台的高效并行算法,充分利用了计算机的计算资源,提高了成像效率,其中调度线程的设计,也提高了成像的灵活性。 展开更多
关键词 合成孔径雷达 滑动聚束 后向投影算法 异构并行计算
在线阅读 下载PDF
MIC异构直线加速器束流动力学模拟并行软件开发
11
作者 董晓彤 杜克伟 +1 位作者 赵瑞峰 徐进 《计算机系统应用》 2016年第9期124-130,共7页
现代高能物理研究需要使用高能量的粒子加速器,加速器束流动力学模拟软件具有重要的实用意义.介绍了一个3维基于MIC的异构直线加速器并行束流动力学模拟软件NEWBEAM-MIC的开发进展.目的是使用最新的超级异构计算机提高束流动力学模拟软... 现代高能物理研究需要使用高能量的粒子加速器,加速器束流动力学模拟软件具有重要的实用意义.介绍了一个3维基于MIC的异构直线加速器并行束流动力学模拟软件NEWBEAM-MIC的开发进展.目的是使用最新的超级异构计算机提高束流动力学模拟软件的性能,更好地完成加速器的设计和优化工作.这个软件模拟了DTL和SOLENOID加速器装置中粒子的运动过程.NEWBEAM-MIC是在NEWBEAM-CPU软件基础上,将粒子推进部分分配到MIC卡上运行,从而利用MIC多线程的优势使计算加速的.通过实际测试,这个软件在天河二号上使用100 CPUs和100 MICs可以模拟109个粒子,其中DTL场力计算、SOLENOID场力计算和粒子推进三个部分均可以比仅使用100 CPUs的NEWBEAM软件有100倍以上的加速效果.再考虑MIC卡上的多线程,对同样规模的粒子,使用100 CPUs和100 MICs,当MIC线程数开到最大(224)时,NEWBEAM-MIC可以比单线程串行计算方式加速10000倍以上.这表明本文开发的基于MIC的异构软件可以很好地加速原有的CPU软件,发挥现有MIC异构超级计算机的潜在性能. 展开更多
关键词 粒子追踪 异构并行计算 直线加速器 集成众核 FFTW
在线阅读 下载PDF
GPU集群加速近似逆预条件CG并行求解器 被引量:1
12
作者 赵莲 赵永华 +1 位作者 陈尧 赵慰 《计算机科学与探索》 CSCD 北大核心 2015年第9期1084-1092,共9页
针对GPU集群系统,研究了分解近似逆(approximate inverse,AINV)和对称逐次超松弛-近似逆(symmetric successive over relaxation approximate inverse,SSOR-AI)两类近似逆预条件的并行算法。采用多级k-路图划分方法,通过子图的内点和边... 针对GPU集群系统,研究了分解近似逆(approximate inverse,AINV)和对称逐次超松弛-近似逆(symmetric successive over relaxation approximate inverse,SSOR-AI)两类近似逆预条件的并行算法。采用多级k-路图划分方法,通过子图的内点和边界点识别方法以及稀疏矩阵的置换技术,提出了将稀疏矩阵转换为分块箭形矩阵的并行方法。基于所形成的分块箭形矩阵,结合块内稀疏矩阵近似逆串行、块间并行的策略给出了近似逆预条件的并行方法,实现了AINV和SSOR-AI并行算法,解决了AINV预条件难以并行的问题。基于CPU与GPU协同计算、主机端页锁定内存和设备端计算与通信重叠的优化技术,实现了并行近似逆预条件与共轭梯度(conjugate gradient,CG)算法相结合的线性方程组混合并行求解器。数值实验表明,所提方法对AINV和SSOR-AI两类近似逆预条件,在多GPU上获得了很好的可扩展性和加速效果。 展开更多
关键词 近似逆 预条件 迭代法 异构并行计算 GPU集群
在线阅读 下载PDF
基于混沌和比特级置乱的并行图像加密算法 被引量:2
13
作者 温万里 游林 《信息网络安全》 2014年第4期40-45,共6页
文章提出一种基于混沌和比特级置乱的并行图像加密算法——CBLP算法。该算法主要包含3种基本运算:像素位置置换、比特旋转(BR)以及像素值异或(XOR)运算,其中位置置换用于置乱像素位置,BR和XOR运算用于扩散图像的像素值。另外,为充分利... 文章提出一种基于混沌和比特级置乱的并行图像加密算法——CBLP算法。该算法主要包含3种基本运算:像素位置置换、比特旋转(BR)以及像素值异或(XOR)运算,其中位置置换用于置乱像素位置,BR和XOR运算用于扩散图像的像素值。另外,为充分利用当前异构处理平台的计算资源以大幅提升算法的执行效率,文章在NIVIDIA GeForce GTX 580 GPU上使用OpenCL技术并行实现了该算法。实验结果和数值分析表明,CBLP算法具有较高的加密效率和良好的安全性,可以有效地应用于实际加密当中,具有较高的应用价值。 展开更多
关键词 图像加密 异构并行计算 OPENCL 混沌映射
在线阅读 下载PDF
基于Intel MIC协处理器的PIC粒子模拟并行化加速及与CPU/GPU对比研究
14
作者 罗跃剑 陈哲 +3 位作者 唐荣欣 刘志伟 钟志宏 周猛 《中国科技论文》 CAS 北大核心 2018年第8期961-966,共6页
基于Intel Many-Integerated-Core(MIC)协处理器平台实现了二维particle-in-cell(PIC)粒子模拟,并根据MIC的特性进行了指令集层面上的向量化优化。为体现MIC平台下的并行加速效果,采用英伟达的GPU计算卡和英特尔Ivy-Bridge架构CPU处理... 基于Intel Many-Integerated-Core(MIC)协处理器平台实现了二维particle-in-cell(PIC)粒子模拟,并根据MIC的特性进行了指令集层面上的向量化优化。为体现MIC平台下的并行加速效果,采用英伟达的GPU计算卡和英特尔Ivy-Bridge架构CPU处理器进行针对性模拟,对3者的计算性能进行比较,当PIC模拟网格较小时,GPU架构具有更好的适用性和计算加速;随着模拟网格逐渐增大,MIC平台的计算加速比逐渐超过GPU平台。研究表明,针对PIC模拟应用,MIC平台具有良好的计算性能、较好的可扩展性和可编程性,利用MIC异构众核对大数据量并行计算程序优化将极大地促进高性能计算的应用和发展。 展开更多
关键词 PIC等离子体模拟 MIC异构并行计算 SIMD指令集向量化优化
在线阅读 下载PDF
基于异构平台的通量分裂格式性能研究
15
作者 梁正虹 黄俊 +2 位作者 刘志勤 陈波 杨茂 《计算机测量与控制》 2021年第2期144-149,共6页
通量分裂是在方程组条件下实现迎风特性的主要手段,为了实现典型通量分裂格式在CPU/GPU异构平台的性能分析。在NVIDIA GTX1660super上,使用统一设备计算架构(CUDA)编程模型实现一维欧拉求解器;以激波管Riemann问题为算例,对矢通量分裂格... 通量分裂是在方程组条件下实现迎风特性的主要手段,为了实现典型通量分裂格式在CPU/GPU异构平台的性能分析。在NVIDIA GTX1660super上,使用统一设备计算架构(CUDA)编程模型实现一维欧拉求解器;以激波管Riemann问题为算例,对矢通量分裂格式van leer、通量差分分裂格式Roe以及混合通量分裂AUSMPW+进行计算分析;数值结果表明,三种格式在异构计算体系能够得到合理且可用的计算结果;Roe格式激波分辨率最高且在CPU/GPU体系加速效果最好;Van Leer激波分辨率较低于Roe和AUSMPW+,计算效率高但其格式构造中存在大量判断分支,影响了加速性能;AUSMPW+格式激波分辨率与Roe相当,加速性能略好于Van Leer。 展开更多
关键词 通量分裂格式 GPU 统一设备计算架构 异构并行计算
在线阅读 下载PDF
雷达电子战信号级并行仿真系统设计与实现 被引量:5
16
作者 安红 杨莉 +1 位作者 张朔 张雁平 《航天电子对抗》 2021年第3期1-5,共5页
分析了雷达电子战信号级仿真系统存在的运算瓶颈问题,提出一种基于前后台架构的并行仿真系统设计思路,通过前台仿真显控与后台仿真运算在物理上的分离,解决模型显控与模型运算的资源争夺及人机界面显示耗时问题,而后台的集中式仿真运算... 分析了雷达电子战信号级仿真系统存在的运算瓶颈问题,提出一种基于前后台架构的并行仿真系统设计思路,通过前台仿真显控与后台仿真运算在物理上的分离,解决模型显控与模型运算的资源争夺及人机界面显示耗时问题,而后台的集中式仿真运算,既能通过共享内存的数据交互方式,解决网络数据通信传输耗时问题,也能充分利用高性能计算资源优势,通过并行计算技术,解决信号级装备模型运算耗时长的问题。针对仿真系统构建中需要重点关注的2个技术问题,给出了具体的解决思路,并在此基础上构建了仿真原型系统,针对不同硬件资源进行了仿真运算速度测试,测试结果表明该并行仿真系统架构对仿真运行效率有大幅度提升。 展开更多
关键词 雷达 电子战 信号级仿真 架构设计 并行仿真 异构并行计算
在线阅读 下载PDF
基于OpenCL的并行图像加密算法研究
17
作者 温万里 游林 《南阳理工学院学报》 2015年第2期51-57,共7页
利用混沌映射所具有的遍历性、类随机性以及对初始状态的敏感依赖性等基本特性,同时利用二维Logistic映射具有的多参数、高随机性等优点,构造了一种新的图像加密算法。另外,为充分利用当前异构处理平台的计算资源以大幅提升算法的执行效... 利用混沌映射所具有的遍历性、类随机性以及对初始状态的敏感依赖性等基本特性,同时利用二维Logistic映射具有的多参数、高随机性等优点,构造了一种新的图像加密算法。另外,为充分利用当前异构处理平台的计算资源以大幅提升算法的执行效率,在NIVIDIA Ge Force GTX 580 GPU上使用Open CL技术并行实现了该算法。实验结果和数值分析表明该并行加密算法具有较高的加密效率和良好的安全性,具有一定的应用价值。 展开更多
关键词 图像加密 异构并行计算 OPENCL 混沌映射
在线阅读 下载PDF
Accelerating Hartree-Fock Self-consistent Field Calculation on C86/DCU Heterogenous Computing Platform
18
作者 Ji Qi Huimin Zhang +1 位作者 Dezun Shan Minghui Yang 《Chinese Journal of Chemical Physics》 2025年第1期81-94,I0056,共15页
In this study,we investigate the ef-ficacy of a hybrid parallel algo-rithm aiming at enhancing the speed of evaluation of two-electron repulsion integrals(ERI)and Fock matrix generation on the Hygon C86/DCU(deep compu... In this study,we investigate the ef-ficacy of a hybrid parallel algo-rithm aiming at enhancing the speed of evaluation of two-electron repulsion integrals(ERI)and Fock matrix generation on the Hygon C86/DCU(deep computing unit)heterogeneous computing platform.Multiple hybrid parallel schemes are assessed using a range of model systems,including those with up to 1200 atoms and 10000 basis func-tions.The findings of our research reveal that,during Hartree-Fock(HF)calculations,a single DCU ex-hibits 33.6 speedups over 32 C86 CPU cores.Compared with the efficiency of Wuhan Electronic Structure Package on Intel X86 and NVIDIA A100 computing platform,the Hygon platform exhibits good cost-effective-ness,showing great potential in quantum chemistry calculation and other high-performance scientific computations. 展开更多
关键词 Quantum chemistry Self-consistent field HARTREE-FOCK Electron repulsion inte-grals Heterogenous parallel computing C86/deep computing unit
在线阅读 下载PDF
异构加速绝对平面检测
19
作者 李雨杭 韩森 +2 位作者 李雪园 徐春凤 龚晨曦 《光学仪器》 2025年第1期32-40,共9页
光学干涉检测领域的不断发展要求检测仪器具备更高的横向分辨率。高分辨率意味着处理时间变长,测试效率变低。为提高测试效率,提出了一种利用CPU/GPU异构计算并行加速的Zernike多项式绝对平面检测方法。该方法使用CPU进行流程控制,利用... 光学干涉检测领域的不断发展要求检测仪器具备更高的横向分辨率。高分辨率意味着处理时间变长,测试效率变低。为提高测试效率,提出了一种利用CPU/GPU异构计算并行加速的Zernike多项式绝对平面检测方法。该方法使用CPU进行流程控制,利用GPU多核优势将检测平面中的元素离散并行求解,并在Zernike系数求解中使用混合精度,在峰谷值和均方根值求解中使用线程束原语指令进一步优化性能。结果显示,使用RTX3070-Laptop,在512×512、1024×1024、2048×2048和4096×4096分辨率的光学平面检测中,该方法整体处理速度比CPU处理速度分别提高了近47、56、58和70倍。 展开更多
关键词 绝对平面检测 异构并行计算 Zernike多项式拟合
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部