-
题名基于FPGA的高精度科学计算加速器研究
被引量:10
- 1
-
-
作者
雷元武
窦勇
郭松
-
机构
国防科学技术大学计算机学院
-
出处
《计算机学报》
EI
CSCD
北大核心
2012年第1期112-122,共11页
-
基金
国家"八六三"高技术研究发展计划项目基金(2008AA01A201)
国家自然科学基金重点项目(60833004
61125201)资助~~
-
文摘
探索了FPGA平台加速高精度科学计算应用的能力和灵活性.首先,研究科学计算中最常用的操作——向量内积,提出基于定点操作的精确向量内积算法.以IEEE 754-2008标准的四精度(Quadruple Precision)浮点算术为例,在FPGA平台上设计了一个基于全展开方法的全流水四精度浮点乘累加单元(QPMAC):提出两级存储策略精确存储乘累加和;采用保留进位累加策略减少定点加法器位宽、简化进位处理、优化关键路径;引入累加和划分策略,实现流水吞吐率.最后,在XC5VLX330FPGA芯片上设计一个LU分解和MGS-QR分解加速器原型来验证QPMAC的性能.实验结果表明,与运行在Intel四核处理器上的基于OpenMP的并行算法相比,集成4个QP-MAC单元的加速器能获得42倍到97倍的性能提升,并且能获得更高结果精度和更低能量消耗.
-
关键词
四精度浮点算术
LU分解
MGS-QR分解
FPGA
硬件加速器
E量级计算
-
Keywords
quadruple precision floating-point arithmetic
LU decomposition
MGS-QR decomposition
FPGA
hardware accelerator
ExeScale computation
-
分类号
TP302
[自动化与计算机技术—计算机系统结构]
-
-
题名定制VLIW结构实现四精度浮点基本函数
被引量:1
- 2
-
-
作者
雷元武
窦勇
倪时策
周杰
-
机构
国防科学技术大学计算机学院
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2012年第9期1715-1722,共8页
-
基金
国家自然科学基金(No.61125201)
-
文摘
本文针对科学应用中基本函数种类多、实现复杂、使用频率低的特点,提出一种定制VLIW结构四精度浮点基本函数协处理器(QPC-Processor).该结构通过显示并行技术挖掘基本函数实现算法的并行性,在同一硬件平台上通过元操作的不同组合来计算多种基本函数.同时,本文还提出基本函数元操作序列到定制VLIW指令的映射算法,指导基本函数的设计.最后,在FPGA平台上进行验证.实验结果表明,相对软件实现,单个QPC-Processor能够取得6倍以上的加速比,而且,QFC-Processor在同一硬件平台上实现多种类型的算法,弥补单一算法的不足,获得较高的硬件资源利用率.
-
关键词
四精度浮点算术
超长指令字
基本函数
CORDIC算法
-
Keywords
quadruple precision floating-point arithmetic
very long instruction word(VLIW)
elementary function
CORDIC algorithm
-
分类号
TN302
[电子电信—物理电子学]
-
-
题名一种高性能四倍精度浮点乘加器的设计与实现
被引量:1
- 3
-
-
作者
何军
黄永勤
朱英
-
机构
上海高性能集成电路设计中心
-
出处
《计算机工程》
CAS
CSCD
2014年第2期294-299,共6页
-
文摘
高精度、高性能浮点运算部件是高性能微处理器设计的重要部分。通过对传统双精度浮点乘加运算算法的研究,结合四倍精度浮点数据格式特点,设计并实现一种高性能的四倍精度浮点乘加器(QPFMA),该乘加器支持多种浮点运算,运算延迟为7拍,全流水结构。采用双路加法器改进算法结构,优化头零预测和规格化移位逻辑,减小运算延迟和硬件开销。通过参数化设计验证方法,实现高效的正确性验证。逻辑综合结果表明,基于65 nm工艺,该QPFMA频率可达1.2 GHz,比现有的QPFMA设计运算延迟减少3拍,频率提高约11.63%。
-
关键词
浮点运算
乘加
四倍精度
高精度
参数化
-
Keywords
floating-point arithmetic
multiply-add
quadruple precision(QP)
high precision
parameterization
-
分类号
TP368.1
[自动化与计算机技术—计算机系统结构]
-