期刊文献+
共找到72篇文章
< 1 2 4 >
每页显示 20 50 100
时域有限差分法的图形处理单元的加速
1
作者 潘东旭 《山东工业技术》 2014年第24期225-226,238,共3页
时域有限差分法,即FDTD(Finite Difference Time Domain),是计算电磁学的一种重要方法。作为一种天然的并行算法,它的计算过程可以划分为多个同时进行相似计算的子计算。这个方法主要是把麦克斯韦方程在时间上和空间上进行差分化,并且... 时域有限差分法,即FDTD(Finite Difference Time Domain),是计算电磁学的一种重要方法。作为一种天然的并行算法,它的计算过程可以划分为多个同时进行相似计算的子计算。这个方法主要是把麦克斯韦方程在时间上和空间上进行差分化,并且通过时间领域上的更新来模仿电磁场的变化来计算问题,因而有利于解决很多电磁场问题。而图形处理单元即GPU(Graphic Processing Unit)相对于CPU的高性能计算速度以及NVIDA公司生产的GPU特有的高并行结构,为时域有限差分的加速提供了可能。 展开更多
关键词 时域有限差分法 图形处理单元 麦克斯韦方程 并行算法
在线阅读 下载PDF
图形处理器(GPU)加速时域有限元的二维辐射计算 被引量:5
2
作者 刘昆 王晓斌 廖成 《电波科学学报》 EI CSCD 北大核心 2008年第1期111-114,共4页
时域有限元方法是在电磁场与微波工程领域广泛应用的方法之一。然而,时域有限元在大型机上运行时都是相当缓慢的。对时域有限元计算的硬件加速的研究已经开始进行。与同一代技术的CPU比较,目前一般用户的图形加速卡(GPU)对时域有限元的... 时域有限元方法是在电磁场与微波工程领域广泛应用的方法之一。然而,时域有限元在大型机上运行时都是相当缓慢的。对时域有限元计算的硬件加速的研究已经开始进行。与同一代技术的CPU比较,目前一般用户的图形加速卡(GPU)对时域有限元的加速可以达到CPU的近4倍左右。以OpenGL作为应用编程接口(API),使用一个标准的商业图形卡编程解决二维时域有限元的辐射问题。 展开更多
关键词 图形加速卡(GPU) 时域有限元(TD-FEM) 通用计算图形处理单元 (GPGPU)
在线阅读 下载PDF
并行绘制系统中基于网络处理单元的图像合成及显示
3
作者 李瑞瑞 张一天 +1 位作者 秦桂明 秦开怀 《计算机应用》 CSCD 北大核心 2011年第1期11-15,32,共6页
随着绘制任务复杂度和绘制数据规模不断增长,使用PC集群进行分布式并行绘制是一个常用的解决方案。sort-last分布式并行绘制方法具有好的扩展性和负载平衡,但由于图像合成瓶颈的限制,绘制速度不能满足实时需求。提出一个使用网络处理单... 随着绘制任务复杂度和绘制数据规模不断增长,使用PC集群进行分布式并行绘制是一个常用的解决方案。sort-last分布式并行绘制方法具有好的扩展性和负载平衡,但由于图像合成瓶颈的限制,绘制速度不能满足实时需求。提出一个使用网络处理单元(NPU)来进行快速硬件图像合成的方法,开发了一个sort-last并行绘制系统NPUPR。实验表明,针对4个绘制节点,基于NPU的硬件图像合成方法与direct send的合成算法相比,绘制速度有了4倍的提高。也给出通过增加网络处理单元来扩展系统支持更多绘制节点的方案,分析表明,系统图像合成性能不会随节点个数的增加而明显降低。 展开更多
关键词 并行绘制 图像合成 分布式集群 硬件加速 网络处理单元
在线阅读 下载PDF
单元级别并行有限元法求解工程涡流场的关键问题研究 被引量:7
4
作者 唐任远 吴东阳 谢德馨 《电工技术学报》 EI CSCD 北大核心 2014年第5期1-8,共8页
单元级别并行有限元方法(EBE-PFEM)目前尚未在工程涡流场求解中得到应用。由于含有不同导电媒质的工程涡流问题经有限元离散化得到的方程组呈现病态性质,给EBE-PFEM这一有效方法的应用造成了困难。本文从数学模型选择与算法实施两方面... 单元级别并行有限元方法(EBE-PFEM)目前尚未在工程涡流场求解中得到应用。由于含有不同导电媒质的工程涡流问题经有限元离散化得到的方程组呈现病态性质,给EBE-PFEM这一有效方法的应用造成了困难。本文从数学模型选择与算法实施两方面出发对此提出了解决方案。将修正矢量磁位法及二阶矢量位法应用于涡流问题的数学模型中,能够简化问题的数学模型并改善涡流场离散化方程组的性质;而采用EBE-PFEM法求解该方程组,可以解决工程涡流场分析的存储规模庞大、求解困难的问题。文中并给出了EBE-PFEM法在GPU(图形处理单元)上的实现过程。 展开更多
关键词 单元级别并行有限元法 图形处理单元 三维涡流场 二阶矢量位 并行计算
在线阅读 下载PDF
压缩感知A*OMP重构算法的并行化与GPU加速实现 被引量:1
5
作者 熊承义 张静 +1 位作者 高志荣 雷梦 《中南民族大学学报(自然科学版)》 CAS 北大核心 2016年第2期79-84,共6页
针对压缩感知系统实时应用的需要,探讨了A*OMP算法的并行设计及基于GPU的加速方法.将耗时长的矩阵逆运算转化为可并行的矩阵/向量操作,并结合算法本身的关联特性,进一步采用迭代法实现以降低其计算复杂度.利用GPU高效的并行运算能力,将... 针对压缩感知系统实时应用的需要,探讨了A*OMP算法的并行设计及基于GPU的加速方法.将耗时长的矩阵逆运算转化为可并行的矩阵/向量操作,并结合算法本身的关联特性,进一步采用迭代法实现以降低其计算复杂度.利用GPU高效的并行运算能力,将算法中可并行的矩阵/向量计算映射到GPU上并行执行,在面向Matlab的Jacket软件平台上对整体串行算法进行了并行化的设计与实现.在NVIDIA Tesla K20Xm GPU和Intel(R)E5-2650 CPU上进行了测试,实验结果表明:对比CPU平台的串行实现,基于GPU的A*OMP算法整体上可获得约40倍的加速,实现了在保持系统较高重构质量的同时能有效降低计算时间,较好地满足了系统实时性的需要. 展开更多
关键词 A*OMP算法 并行 加速 图形处理单元
在线阅读 下载PDF
遥感影像的高性能并行处理技术研究 被引量:6
6
作者 赵颖辉 蒋从锋 《计算机技术与发展》 2014年第7期201-205,共5页
随着空间遥感技术和对地观测技术的不断发展,光学、热红外和微波等不同技术手段可以获取同一地区的多种遥感影像数据(多时相、多光谱、多传感器、多平台和多分辨率等),每天获取的遥感数据量越来越大。同时,大量的遥感应用需要快速地对... 随着空间遥感技术和对地观测技术的不断发展,光学、热红外和微波等不同技术手段可以获取同一地区的多种遥感影像数据(多时相、多光谱、多传感器、多平台和多分辨率等),每天获取的遥感数据量越来越大。同时,大量的遥感应用需要快速地对这些遥感数据进行处理与分析,提供辅助决策信息。因此,如果不能及时进行数据处理,这些数据就会失去时效性,甚至失去数据本身的价值。高性能计算与并行处理技术,加速了遥感影像数据处理与信息提取的进度,如大规模多处理系统、网格与云计算技术、通用图形处理器(GPGPU)等。文中综述了高性能计算、并行处理及云计算技术应用于遥感领域的最新进展,给出了一些研究与应用范例,并提出了当前高性能遥感影像处理所面临的一些挑战。 展开更多
关键词 遥感 图像处理 高性能计算 并行处理 通用图形处理单元
在线阅读 下载PDF
图形加速技术的发展 被引量:1
7
作者 张晓云 蔡俊辉 《电脑知识与技术》 2007年第7期125-125,176,共2页
图形/图像技术应用日臻广泛,图形/图像技术涉及的巨量信息处理是CPU一个瓶颈问题,通常会导致图形/图像处理的质量无法满足用户需求,特别是计算机游戏开发对图形处理的要求更高,图形加速技术发展随之诞生,经历了从2维加速到3维加速,从数... 图形/图像技术应用日臻广泛,图形/图像技术涉及的巨量信息处理是CPU一个瓶颈问题,通常会导致图形/图像处理的质量无法满足用户需求,特别是计算机游戏开发对图形处理的要求更高,图形加速技术发展随之诞生,经历了从2维加速到3维加速,从数据复制到物理模拟等技术发展,逐渐弥补了CPU处理能力的不足,提高了图形/图像处理能力,拓展了计算机图形/图像处理的应用范围。 展开更多
关键词 图形加速 图形处理单元(GPU) 物理模拟加速单元(PPU) 图形加速技术发展
在线阅读 下载PDF
一种基于GPU的移动对象并行处理框架 被引量:2
8
作者 韦春丹 龚奕利 李文海 《计算机应用与软件》 CSCD 2016年第10期223-229,共7页
PGrid是一个基于格网索引的移动对象并行处理框架。通过分析PGrid框架不利于在GPU上并行的因素,提出基于GPU的无锁并行处理G-LFPP(GPU Based Lock Free Parallel Processing)框架。采用基于操作分解/聚类的无锁更新策略,消除更新过程中... PGrid是一个基于格网索引的移动对象并行处理框架。通过分析PGrid框架不利于在GPU上并行的因素,提出基于GPU的无锁并行处理G-LFPP(GPU Based Lock Free Parallel Processing)框架。采用基于操作分解/聚类的无锁更新策略,消除更新过程中并发控制对更新性能的影响;为了实现细粒度并行查询,提出基于候选集映射表和查询确认表的快速查询索引。实验表明,该方法更新和查询策略有利于大规模线程并发处理更新和查询。当移动对象的数量达到千万级时,更新速率和查询速率仍然可以超过每秒1100万次和110万次。与PGrid相比,并发处理更新和查询的速度提高了6.61倍。 展开更多
关键词 并行计算 图形处理单元 异构计算 格网索引 移动对象数据库
在线阅读 下载PDF
基于图形处理单元的数字全息图加速再现算法研究 被引量:1
9
作者 丁鹤平 朱竹青 +2 位作者 孙敏 王晓雷 周延怀 《中国激光》 EI CAS CSCD 北大核心 2010年第11期2901-2905,共5页
研究了一种利用图形处理单元(GPU)加速数字全息图再现的算法。该算法充分利用GPU强大的并行计算能力,有效地缩短了数字全息图再现时间。比较了GPU加速运算和中央处理器(CPU)独立运算两种模式下,两种不同尺寸的数字全息图再现时间。结果... 研究了一种利用图形处理单元(GPU)加速数字全息图再现的算法。该算法充分利用GPU强大的并行计算能力,有效地缩短了数字全息图再现时间。比较了GPU加速运算和中央处理器(CPU)独立运算两种模式下,两种不同尺寸的数字全息图再现时间。结果表明,对于大小为2048 pixel×2048 pixel的数字全息图,GPU算法的再现时间可缩短至约1/15。利用该算法编写了易操作的通用软件。在高配置主机和高性能GPU硬件环境下,该软件不仅能够满足诸如数字全息显示、数字全息显微等系统实时功能的要求,还能够指导数字全息实验系统的快速搭建。 展开更多
关键词 全息 再现算法 向量化循环 图形处理单元 并行计算
原文传递
选择性重排FDK算法及其GPU加速优化 被引量:2
10
作者 张文昆 闫镔 +3 位作者 蔡爱龙 魏峰 邓林 李磊 《CT理论与应用研究(中英文)》 2015年第3期383-392,共10页
FDK算法是目前三维图像重建的主流算法,但是传统重排FDK算法存在占用内存量较大、重建效率不高的问题,本文提出一种选择性重排FDK算法。根据重排前后投影数据的结构关系,计算出一轮重排所加载的最少锥形束投影,并使用循环队列对有限帧... FDK算法是目前三维图像重建的主流算法,但是传统重排FDK算法存在占用内存量较大、重建效率不高的问题,本文提出一种选择性重排FDK算法。根据重排前后投影数据的结构关系,计算出一轮重排所加载的最少锥形束投影,并使用循环队列对有限帧数的投影进行选择性加载,显著降低了重建对内存的消耗。此外,利用新算法较好的并行性,借助图形处理单元(GPU)对算法进行了硬件加速,大大提升算法的执行效率。为验证算法有效性,对5123规模的仿真数据和实际数据进行重建,在不损失重建精度的前提下,新算法占用内存约为传统算法的1/3或1/5。本文算法对传统重排FDK算法进行了改进,有效降低了计算机内存占用,较好地解决了大规模投影数据重建问题。 展开更多
关键词 FDK算法 选择性重排 循环队列 图形处理单元并行加速
在线阅读 下载PDF
视点相关的层次采样:一种硬件加速体光线投射算法(英文) 被引量:9
11
作者 陈为 彭群生 鲍虎军 《软件学报》 EI CSCD 北大核心 2006年第3期587-601,共15页
光线投射是一种高质量的体绘制方法.它以图像空间为序,逐根光线遍历和采样体数据.因此,传统上,它只能在CPU上实现,因而速度慢,交互性不好.提出了一个新的视点相关的层次采样VDLS(viewdependentlayersampling)结构,VDLS将光线上的所有采... 光线投射是一种高质量的体绘制方法.它以图像空间为序,逐根光线遍历和采样体数据.因此,传统上,它只能在CPU上实现,因而速度慢,交互性不好.提出了一个新的视点相关的层次采样VDLS(viewdependentlayersampling)结构,VDLS将光线上的所有采样点重新组织成一系列层,并简化为两个视点相关的几何缓冲器,进而在GPU(graphicsprocessingunit)中用两个动态纹理表示.利用GPU的可编程性,光线投射算法的6个步骤(光线生成、光线遍历、插值、分类、着色和颜色合成)得以完全在GPU中实现.在此基础上,提出两个基于体空间和图像空间连贯性的加速技巧,快速剔除无效的光线.结合其他与渲染和颜色合成有关的技巧,VDLS将面向多边形绘制的图形引擎转化为体光线投射算法引擎,在透视投影方式下,每秒能处理1.5亿个插值、后分类与着色的光线采样点.实验结果表明,提出的方法能用于医学可视化、真实物理现象模拟、材质检测中灰度体数据快速交互的可视化与漫游. 展开更多
关键词 直接体绘制 光线投射 视点相关层次采样 硬件加速 图形处理单元
在线阅读 下载PDF
基于GPU的高光谱遥感MNF并行方法研究 被引量:6
12
作者 罗耀华 郭科 赵仕波 《四川师范大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第3期476-479,共4页
最小噪声分离变换(MNF)是高光谱遥感影像分类中特征提取和去除噪声的有效方法.MNF算法涉及大量的矩阵运算,在实际工程的海量数据处理中存在计算时间长的问题.在分析MNF算法原理的基础上,运用图形处理单元(GPU)并行框架对该算法进行优化... 最小噪声分离变换(MNF)是高光谱遥感影像分类中特征提取和去除噪声的有效方法.MNF算法涉及大量的矩阵运算,在实际工程的海量数据处理中存在计算时间长的问题.在分析MNF算法原理的基础上,运用图形处理单元(GPU)并行框架对该算法进行优化,并通过不同大小的高光谱遥感数据进行计算和分析.结果表明,随着影像数据量的递增,采用并行计算方式的提速比呈明显上升趋势,说明GPU并行方式对于计算密集型的大数据量处理具有良好的提速效果,为解决海量高光谱遥感数据处理速度慢的问题提供了思路. 展开更多
关键词 高光谱遥感 MNF变换 图形处理单元 并行计算
在线阅读 下载PDF
采用向量内积的并行相关算法 被引量:2
13
作者 牟卫华 倪少杰 +2 位作者 白洋 孙广富 欧钢 《国防科技大学学报》 EI CAS CSCD 北大核心 2017年第5期50-55,共6页
针对软件接收机相关器计算的实时性问题,通过分析扩频信号的接收过程,建立一种基于向量内积的并行相关信号接收模型。利用图形处理单元中大量的浮点运算单元进行矩阵与向量运算,并行计算各通道相关值,提高了信号相关运算的实时性。仿真... 针对软件接收机相关器计算的实时性问题,通过分析扩频信号的接收过程,建立一种基于向量内积的并行相关信号接收模型。利用图形处理单元中大量的浮点运算单元进行矩阵与向量运算,并行计算各通道相关值,提高了信号相关运算的实时性。仿真验证结果表明,利用基于GPU的向量内积软件并行相关算法计算25 MHz采样率时长1 ms的信号相关值,25个通道共150个相关运算耗时967μs,与CPU上基于数学核心函数库的实现相比速度约提高了61.4倍,能够实现宽带扩频信号软件实时相关接收。 展开更多
关键词 相关器 向量内积 软件接收机 并行计算 图形处理单元
在线阅读 下载PDF
Particle-Mesh Ewald(PME)算法的GPU加速 被引量:5
14
作者 徐骥 葛蔚 +1 位作者 任瑛 李静海 《计算物理》 EI CSCD 北大核心 2010年第4期548-554,共7页
讨论在NVIDIACUDA开发环境下,用GPU加速分子动力学模拟中静电作用的长程受力计算部分.采用Particle-Mesh Ewald(PME)方法,将其分解为参数确定、点电荷网格离散、离散网格的傅立叶变换、静电热能求解与静电力求解5个部分,并分别分析各部... 讨论在NVIDIACUDA开发环境下,用GPU加速分子动力学模拟中静电作用的长程受力计算部分.采用Particle-Mesh Ewald(PME)方法,将其分解为参数确定、点电荷网格离散、离散网格的傅立叶变换、静电热能求解与静电力求解5个部分,并分别分析各部分的GPU实现.此方法已成功用于7个不同大小的生物分子体系的模拟计算,达到了7倍左右的加速.该程序可耦合到现有分子动力学模拟软件中,或作为进一步开发的GPU分子动力学程序的一部分,显著加速传统分子动力学程序. 展开更多
关键词 PME(Particle-Mesh Ewald)加速 GPU(Graphic Processing Unit图形处理单元) CUDA(Compute Unified Device Architecture计算统一设备架构)
在线阅读 下载PDF
基于CUDA的热传导GPU并行算法研究 被引量:3
15
作者 孟小华 黄丛珊 朱丽莎 《计算机工程》 CAS CSCD 2014年第5期41-44,48,共5页
在热传导算法中,使用传统的CPU串行算法或MPI并行算法处理大批量粒子时,存在执行效率低、处理时间长的问题。而图形处理单元(GPU)具有大数据量并行运算的优势,为此,在统一计算设备架构(CUDA)并行编程环境下,采用CPU和GPU协同合作的模式... 在热传导算法中,使用传统的CPU串行算法或MPI并行算法处理大批量粒子时,存在执行效率低、处理时间长的问题。而图形处理单元(GPU)具有大数据量并行运算的优势,为此,在统一计算设备架构(CUDA)并行编程环境下,采用CPU和GPU协同合作的模式,提出并实现一个基于CUDA的热传导GPU并行算法。根据GPU硬件配置设定Block和Grid的大小,将粒子划分为若干个block,粒子输入到GPU显卡中并行计算,每一个线程执行一个粒子计算,并将结果传回CPU主存,由CPU计算出每个粒子的平均热流。实验结果表明,与CPU串行算法在时间效率方面进行对比,该算法在粒子数到达16 000时,加速比提高近900倍,并且加速比随着粒子数的增加而加速提高。 展开更多
关键词 热传导算法 图形处理单元 统一计算设备架构 并行计算 时间效率 加速
在线阅读 下载PDF
基于GPU的Landsat8实时解压缩处理技术 被引量:2
16
作者 杨仁忠 张洁 +1 位作者 韦宏卫 石璐 《计算机工程》 CAS CSCD 北大核心 2016年第3期301-307,共7页
根据Landsat8卫星下行数据的特点,结合RICE无损数据压缩算法和CUDA编程技术,提出一种基于图像处理单元(GPU)的实时解压缩处理系统方案,采用统一计算设备架构和流水线式解压缩结构进行任务分解及CUDA优化。测试结果表明,与基于CPU的解压... 根据Landsat8卫星下行数据的特点,结合RICE无损数据压缩算法和CUDA编程技术,提出一种基于图像处理单元(GPU)的实时解压缩处理系统方案,采用统一计算设备架构和流水线式解压缩结构进行任务分解及CUDA优化。测试结果表明,与基于CPU的解压缩方案相比,基于GPU的解压缩系统获得7.45倍的加速比,能够达到Landsat8卫星下行数据实时解压缩处理速度要求的1.8倍以上,解压缩的图像数据正确率高且成本较低。 展开更多
关键词 无损数据压缩算法 实时解压缩 图形处理单元 卫星下行数据 并行计算
在线阅读 下载PDF
基于BRDF和GPU并行计算的全局光照实时渲染 被引量:7
17
作者 王芳 秦磊华 《图学学报》 CSCD 北大核心 2016年第5期583-591,共9页
基于光线追踪,将屏幕图像像素分解为投射光线与场景对象交点面片辐射亮度和纹理贴图的合成,每个面片的辐射亮度计算基于双向反射分布函数(BRDF)基的线性组合,并通过图形处理器(GPU)处理核心并行绘制进行加速,最后与并行计算的纹理映射... 基于光线追踪,将屏幕图像像素分解为投射光线与场景对象交点面片辐射亮度和纹理贴图的合成,每个面片的辐射亮度计算基于双向反射分布函数(BRDF)基的线性组合,并通过图形处理器(GPU)处理核心并行绘制进行加速,最后与并行计算的纹理映射结果进行合成。提出了一种基于BRDF和GPU并行计算的全局光照实时渲染算法,利用GPU并行加速,在提高绘制效率的前提下,实现动态交互材质的全局光照实时渲染。重点研究:对象表面对光线的多次反射用BRDF基的线性组合来表示,将非线性问题转换为线性问题,从而提高绘制效率;利用GPU并行加速,分别计算对象表面光辐射能量和纹理映射及其线性组合,进一步提高计算效率满足实时绘制需求。 展开更多
关键词 全局光照 图形处理单元 双向反射分布函数 渲染方程 并行计算
在线阅读 下载PDF
多视匹配方法的计算任务分析及其GPU并行实现 被引量:3
18
作者 张丽 汤晓涛 +2 位作者 戴晨光 纪松 胡国军 《测绘科学技术学报》 CSCD 北大核心 2013年第5期480-483,488,共5页
构建了多视匹配过程的总计算量模型,根据模拟参数赋值结果,分析得到了其中的密集计算任务,探讨了其GPU并行加速的必要性;针对单立体影像匹配技术细粒度GPU并行计算方案的不足,研究并设计了一种多视匹配密集计算任务的GPU粗粒度并行计算... 构建了多视匹配过程的总计算量模型,根据模拟参数赋值结果,分析得到了其中的密集计算任务,探讨了其GPU并行加速的必要性;针对单立体影像匹配技术细粒度GPU并行计算方案的不足,研究并设计了一种多视匹配密集计算任务的GPU粗粒度并行计算方案;利用专业级的GPU并行计算平台,对GPU粗粒度并行计算方案进行了实验验证,结果表明,该方案对于多视匹配过程中密集计算任务的并行加速效果十分显著。 展开更多
关键词 多视匹配 计算任务 图像处理单元 并行计算 加速
在线阅读 下载PDF
基于GPU的加锁并行化非结构网格生成方法研究 被引量:1
19
作者 蔡云龙 肖素梅 齐龙 《计算机工程与应用》 CSCD 2014年第6期56-60,共5页
非结构网格的生成在时间和内存上有一定的缺陷,这里提出了一种新的方法,命名为GPU-PDMG,是基于CUDA架构的GPU并行非结构网格生成技术。该技术结合了GPU的高速并行计算能力与Delaunay三角化的优点,在英伟达GPU模块下采用CUDA程序模型,开... 非结构网格的生成在时间和内存上有一定的缺陷,这里提出了一种新的方法,命名为GPU-PDMG,是基于CUDA架构的GPU并行非结构网格生成技术。该技术结合了GPU的高速并行计算能力与Delaunay三角化的优点,在英伟达GPU模块下采用CUDA程序模型,开发出了加锁并行区划分技术,通过对NACA0012翼型、多段翼型等算例进行测试,分析此方法的加速比和效率,对其计算性能展开评估。实验结果表明,GPU-PDMG优于现存在的CPU算法的速度,在保证网格质量的同时,提高了效率。 展开更多
关键词 非结构网格 并行 加锁 图形处理单元(GPU) 加速
在线阅读 下载PDF
GPU加速窦房结计算机仿真的实现及优化 被引量:1
20
作者 张虹 郑霄 赵丹 《西安交通大学学报》 EI CAS CSCD 北大核心 2014年第7期60-64,共5页
针对窦房结电生理计算机仿真运算量巨大、耗时长的问题,提出了基于高性能图形处理单元(GPU)实现并行计算及优化的方法。首先考虑窦房结细胞中央和边缘的差异,构建了一维非匀质窦房结组织模型;利用算子分裂方法使模型的解算任务具备并行... 针对窦房结电生理计算机仿真运算量巨大、耗时长的问题,提出了基于高性能图形处理单元(GPU)实现并行计算及优化的方法。首先考虑窦房结细胞中央和边缘的差异,构建了一维非匀质窦房结组织模型;利用算子分裂方法使模型的解算任务具备并行性。根据具体解算过程提出了三种并行化策略,并对其中耗时最短的策略从线程块设置、数据交换频率以及存储模式等方面进行了进一步优化。结果表明:对于500个细胞的仿真,CUDA程序较串行程序的执行时间下降了60%,进一步优化后,CUDA程序的执行时间可下降84%;窦房结组织越大,GPU的加速效果越明显。结果验证了GPU加速解算方法可显著提高窦房结模型的解算速度,降低实际执行时间。 展开更多
关键词 图形处理单元 并行计算 窦房结 计算机仿真
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部