基于CUDA的高速FFT计算被引量：22

High performance FFT computation based on CUDA

在线阅读下载PDF

导出

摘要针对快速傅里叶算法FFT在图形图像处理和科学计算领域的重要作用,提出了一种基于CUDA的高速FFT计算方法,在分析GPU硬件平台执行模式及FFT算法并行性特征的基础上,采用多线程并行的映射方法实现算法,并从存储层次优化算法。实验结果表明了该算法的高效性,且优化后的FFT加速比能达到CUFFT库加速比的2～6倍。 The Fourier transform is essential for many image processing and scientific computing techniques.This paper presented an implementation to accelerate FFT computation based on CUDA.Based on the analysis of the GPU architecture and algorithm parallelism feature,brought a mapping strategy used multithread,and explored the optimization in memory hierarchy.The results on CUDA show an improvement,the average speedup reaches 2~6X compared with CUFFT supplied by NVIDIA library.

作者赵丽丽张盛兵张萌姚涛

机构地区西北工业大学计算机学院

出处《计算机应用研究》 CSCD 北大核心 2011年第4期1556-1559,共4页 Application Research of Computers

基金国家"863"计划资助项目(2009AA01Z110) 西北工业大学研究生创新资助项目(09024)

关键词图形处理器统一计算架构映射策略存储层次 GPU（graphics processor units） CUDA（compute unified device architecture） mapping strategy memory hie-rarchy

分类号 TP312 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1JAMES W C, JOHN W T. An algorithm for the machine calculation of complex Fourier series[J]. Mathematics of Computation,1965, 19(2) :297-301.
2HPC challenge benchmark[ EB/OL]. [2010- 11-01 ]. http://icl. cs. utk. edu./hpcc/.
3NAS parallel benchmarks [ EB/OL ]. [ 2010- 05- 23 ]. http ://www. nas. nasa. gov/Resources/Soflware/npb, html.
4General-purpose computation using graphics hardware [ EB/OL 1. [2010-05-23 ]. http ://www. gpgpu, org/.
5KENNETH M, EDWARD A. The FFT on a GPU[ C]//Proc of the ACM SIGGRAPH/EUROGRAPHICS Conference on Graphics Hardware, San Diego, California: Eurographies Association, 2003: 112- 119.
6CUDA programming guide version 3.0 [ K]. [ S.L ] : NVIDIA Corp, 2009.
7CUDA CUFFr Library[R]. [S.L]: NVIDIA Corp, 2007.
8FFTWE EB/OL]. [2010-05-23]. http://www, fftw. org/.
9MUTHU M B, RAJESH B. Optimizing sparse matrix-vector multiplication on GPUs[ R]. [S.L ]: IBM,2008.

同被引文献192

1张培珍,杨根源,平殿发,徐圣良.一种改进的小波变换图像压缩方法[J].舰船电子工程,2008,28(10):86-89. 被引量：2
2吴焰斌.CUDA编程模型[J].科技风,2009(3):63-64. 被引量：3
3金印彬,杨琳,张虹,阔永红,黄诒焯,蒋大宗.二维心室肌中动作电位传导的数值算法研究[J].西安交通大学学报,2004,38(8):851-854. 被引量：7
4吴恩华,柳有权.基于图形处理器(GPU)的通用计算[J].计算机辅助设计与图形学学报,2004,16(5):601-612. 被引量：227
5吴恩华.图形处理器用于通用计算的技术、现状及其挑战[J].软件学报,2004,15(10):1493-1504. 被引量：141
6许树楷,谢小荣,辛耀中.基于同步相量测量技术的广域测量系统应用现状及发展前景[J].电网技术,2005,29(2):44-49. 被引量：208
7JINYi,HEHuacan,AILirong.Lane of parallel through carry in ternary optical adder[J].Science in China(Series F),2005,48(1):107-116. 被引量：32
8王文义,邱涌.一种新的并行归并排序算法[J].计算机工程与应用,2005,41(5):71-72. 被引量：10
9杨丽娟,张白桦,叶旭桢.快速傅里叶变换FFT及其应用[J].光电工程,2004,31(B12):1-3. 被引量：99
10于秀敏.快速傅立叶变换并行算法概述[J].中国科技信息,2005(9):52-52. 被引量：3

引证文献22

1岳俊,邹进贵,何豫航.基于CPU与GPU/CUDA的数字图像处理程序的性能比较[J].地理空间信息,2012,10(4):45-47. 被引量：4
2詹云,赵新灿,谭同德.基于OpenCL的异构系统并行编程[J].计算机工程与设计,2012,33(11):4191-4195. 被引量：23
3林茂,董玉敏,蒋立,许涛,刘新军.利用GPU技术使去噪方法并行化[J].计算机与应用化学,2012,29(11):1379-1383. 被引量：1
4潘峥嵘,李伟池.基于GPU的Gabor人脸图像特征提取算法的研究[J].计算机与数字工程,2013,41(4):649-653.
5许亮,王震.基于CUDA的快速大整数乘法[J].计算机工程与应用,2013,49(16):221-224. 被引量：3
6董亚清.基于GPU的线性调频信号脉冲压缩算法实现[J].电子科技,2013,26(12):12-16. 被引量：4
7佟宏伟,钟何平,唐劲松,吴浩然.基于GPU的SAS成像算法并行实现研究[J].舰船电子工程,2014,34(3):137-140. 被引量：3
8张虹,郑霄,赵丹.GPU加速窦房结计算机仿真的实现及优化[J].西安交通大学学报,2014,48(7):60-64. 被引量：1
9田元锁,凌云志,刘司伟,王嘉嘉.LTE物理层PBCH并行计算的实现[J].信息技术,2014,38(10):53-55.
10曹建伟,徐翔,王友年.基于GPU求解椭圆型偏微分方程的并行算法[J].计算物理,2015,32(4):475-481. 被引量：4

二级引证文献77

1武玉国,韩贝贝.基于地理坐标系的电磁环境快速仿真与体绘制[J].系统仿真学报,2020,32(3):362-370. 被引量：2
2温万里,游林.基于混沌和比特级置乱的并行图像加密算法[J].信息网络安全,2014(4):40-45. 被引量：2
3李细霞,王丽,戴海燕,李长玉.基于拓展分离变量法的非傅里叶传热研究[J].计算物理,2018,35(6):685-692. 被引量：2
4赵玉文,刘芳芳,蒋丽娟,杨超.大整数乘法Sch?nhage-Strassen算法的多核并行化研究[J].软件学报,2018,29(12):3604-3613. 被引量：2
5高薇,曾健民.基于卷积神经网络算法的图像识别应用研究[J].西安文理学院学报（自然科学版）,2019,22(1):10-14. 被引量：8
6刘璐,聂敏.基于子空间匹配追踪的LFM信号的DOA估计[J].电子科技,2014,27(7):43-46. 被引量：1
7俞经龙,赵曙光,王祥.可逆逻辑门进化设计方法的CUDA实现[J].电子科技,2015,28(1):12-15. 被引量：1
8赵成龙,施慧彬,俞忻峰.基于OpenCL的双GPU基数排序算法[J].计算机与现代化,2015(1):27-30. 被引量：1
9张硕,金同标,杨阳,曾玮妮.基于多任务管理系统的高清视频处理[J].计算机测量与控制,2015,23(12):4102-4105.
10李欢,卢罡,郭俊霞.基于GPU的大尺度网络零模型分组生成并行算法[J].计算机工程与设计,2016,37(1):93-99. 被引量：3

1董蕾,黄方,卜栓栓,冯杰,周纪.基于CUDA的压缩感知重构算法并行化研究[J].信息技术,2016,40(4):32-36. 被引量：1
2黄开长,刘和平,邓力,江渝.同步数据采集技术在电力系统中的应用[J].仪器仪表学报,2002,23(z2):494-496. 被引量：13
3陈彬,陈和平,李晓卉.基于GPU的高效图像协方差矩阵算法与实现[J].计算机工程与设计,2014,35(12):4238-4242. 被引量：2
4骆岩红,万国峰,王建华.基于CUDA架构的FFT并行计算研究[J].自动化与仪器仪表,2014(12):25-28. 被引量：4
5黄飞虎,兰时勇,吴健,刘东辉.基于CUDA平台的实时去雾[J].计算机应用,2013,33(A02):183-186. 被引量：3
6蔡勇,李胜.差分进化算法的细粒度并行计算方法及其应用[J].计算机仿真,2016,33(10):249-253. 被引量：1
7江虹,钱江波,陈叶芳.基于GPU的不确定数据流窗口连接运算[J].计算机应用研究,2014,31(5):1428-1432.
8魏洪昌,朱正东,董小社,宁洁.面向CPU-GPU源到源编译系统的渐近拟合优化方法[J].计算机工程与应用,2016,52(21):30-35. 被引量：1
9李秋实,姚铮,陆明泉.改进的软件GNSS中频信号模拟器设计[J].计算机仿真,2013,30(1):120-123. 被引量：4
10韩斌,孙文赟,周飞,王士同.快速不变矩算法基于CUDA的并行实现[J].计算机应用,2010,30(7):1983-1986.

计算机应用研究

2011年第4期

浏览历史

内容加载中请稍等...

基于CUDA的高速FFT计算被引量：22

参考文献9

同被引文献192

引证文献22

二级引证文献77

相关作者

相关机构

相关主题

浏览历史

基于CUDA的高速FFT计算 被引量：22

参考文献9

同被引文献192

引证文献22

二级引证文献77

相关作者

相关机构

相关主题

浏览历史

基于CUDA的高速FFT计算被引量：22