期刊文献+
共找到110篇文章
< 1 2 6 >
每页显示 20 50 100
基于“存算一体”的卷积神经网络加速器
1
作者 卢莹莹 孙翔宇 +1 位作者 计炜梁 邢占强 《太赫兹科学与电子信息学报》 2025年第2期170-174,共5页
基于冯·诺伊曼架构的卷积神经网络(CNN)实现方案难以满足高性能与低功耗的要求,本文设计了一种基于“存算一体”架构的卷积神经网络加速器。利用可变电阻式存储器(RRAM)阵列实现“存算一体”架构,采用高效的数据输入管道及硬件处... 基于冯·诺伊曼架构的卷积神经网络(CNN)实现方案难以满足高性能与低功耗的要求,本文设计了一种基于“存算一体”架构的卷积神经网络加速器。利用可变电阻式存储器(RRAM)阵列实现“存算一体”架构,采用高效的数据输入管道及硬件处理单元进行大批量图像数据的处理,实现了高性能的数字图像识别。仿真结果表明,该卷积神经网络加速器有着更快的计算能力,其时钟频率可达100 MHz;此外,该结构综合得到的面积为300742μm^(2),为常规设计方法的56.6%。本文设计的加速模块在很大程度上提高了CNN加速器的速率并降低了能耗,仿真结果对高性能神经网络加速器设计有指导意义和参考作用。 展开更多
关键词 存算一体 卷积神经网络(CNN) 加速器 输入管道 处理单元
在线阅读 下载PDF
轻量化卷积神经网络硬件加速设计及FPGA实现
2
作者 李珍琪 王强 +4 位作者 齐星云 赖明澈 赵言亢 陆亿行 黎渊 《计算机工程与科学》 北大核心 2025年第4期582-591,共10页
近年来,卷积神经网络CNN在计算机视觉等领域取得了显著的成效。然而,通常CNN的网络结构复杂,计算量庞大,难以在计算资源和功耗受限的便携式设备上实现。而FPGA具有较高的并行度、能效比和可重构性,已成为在便携式设备上加速CNN推理最有... 近年来,卷积神经网络CNN在计算机视觉等领域取得了显著的成效。然而,通常CNN的网络结构复杂,计算量庞大,难以在计算资源和功耗受限的便携式设备上实现。而FPGA具有较高的并行度、能效比和可重构性,已成为在便携式设备上加速CNN推理最有效的计算平台之一。设计了一种可配置为不同网络结构的卷积神经网络加速器,并从数据复用、基于行缓存的流水线优化和基于加法树的低延迟卷积技术3个方面对加速器的延迟和功耗进行了优化。以轻量化神经网络YOLOv2-tiny为例,在领航者ZYNQ-7020开发板上构建了一个实时目标检测系统。实验结果表明,整个设计的资源消耗占用为88%,功耗消耗为2.959 W,满足便携设备低硬件消耗及低功耗设计要求,在416×256的图像分辨率下,实现了3.91 fps的检测速度。 展开更多
关键词 卷积神经网络 FPGA加速 加速器 便携设备
在线阅读 下载PDF
基于片上系统的可配置卷积神经网络加速器的设计与实现 被引量:1
3
作者 张立国 杨红光 +1 位作者 金梅 申前 《高技术通讯》 CAS 北大核心 2024年第7期744-754,共11页
针对现阶段卷积神经网络(CNN)加速器的设计只能部署在单一现场可编程门阵列(FPGA)平台、不支持硬件平台升级迭代的问题,设计了一种基于片上系统(SoC)的可配置CNN加速器。该加速器具备以下2个特点:(1)在电路设计中将数据位宽、中间缓存... 针对现阶段卷积神经网络(CNN)加速器的设计只能部署在单一现场可编程门阵列(FPGA)平台、不支持硬件平台升级迭代的问题,设计了一种基于片上系统(SoC)的可配置CNN加速器。该加速器具备以下2个特点:(1)在电路设计中将数据位宽、中间缓存空间大小、乘法器阵列(MAC)并行度作为一种可选配置参数,通过调整资源使用量,使得该加速器能够适配不同FPGA硬件;(2)提出了动态数据复用的策略,通过对比数据传输过程中不同复用方式下的总参数量差异,动态地选择复用方法,以减少数据传输的等待时间,提高乘法器阵列利用率。该方案在ZCU104板卡上进行了实验,实验结果表明,当数据位宽选择8、乘法器阵列并行度选择1024、核心运算模块工作在180 MHz时,卷积运算阵列峰值吞吐量为180 GOPs,功耗为3.75 W,能效比达到47.97 GOPs·W^(-1),对于VGG16网络,其卷积层的平均乘法器阵列利用率达到84.37%。 展开更多
关键词 卷积神经网络(CNN) 现场可编程门阵列(FPGA) CNN加速器 可配置 异构加速
在线阅读 下载PDF
面向微控制器的卷积神经网络加速器设计
4
作者 乔建华 吴言 +1 位作者 栗亚宁 雷光政 《电子器件》 CAS 2024年第1期48-54,共7页
针对目前嵌入式微控制器的性能难以满足实时图像识别任务的问题,提出一种适用于微控制器的卷积神经网络加速器。该加速器在卷积层设计了无阻塞的行并行乘法-加法树结构,获得了更高的硬件利用率;为了满足行并行的数据吞吐量,设计了卷积专... 针对目前嵌入式微控制器的性能难以满足实时图像识别任务的问题,提出一种适用于微控制器的卷积神经网络加速器。该加速器在卷积层设计了无阻塞的行并行乘法-加法树结构,获得了更高的硬件利用率;为了满足行并行的数据吞吐量,设计了卷积专用SRAM存储器。加速器将池化和激活单元融入数据通路,有效减少数据重复存取带来的时间开销。FPGA原型验证表明加速器的性能达到92.2 GOPS@100 MHz;基于TSMC 130 nm工艺节点进行逻辑综合,加速器的动态功耗为33 mW,面积为90 764.2μm^(2),能效比高达2 793 GOPS/W,比FPGA加速器方案提高了约100倍。该加速器低功耗、低成本的特性,有利于实现嵌入式系统在目标检测、人脸识别等机器视觉领域的广泛应用。 展开更多
关键词 卷积神经网络 并行计算 流水线 硬件加速器 专用集成电路
在线阅读 下载PDF
面向多核向量加速器的卷积神经网络推理和训练向量化方法 被引量:1
5
作者 陈杰 李程 刘仲 《计算机工程与科学》 CSCD 北大核心 2024年第4期580-589,共10页
随着以卷积神经网络为代表的深度学习得到广泛应用,神经网络模型中的计算量也急速增长,推动了深度学习加速器的发展。如何针对加速器硬件的体系结构特性进行加速和优化神经网络模型的性能成为研究热点。针对自主设计的多核向量加速器FT-... 随着以卷积神经网络为代表的深度学习得到广泛应用,神经网络模型中的计算量也急速增长,推动了深度学习加速器的发展。如何针对加速器硬件的体系结构特性进行加速和优化神经网络模型的性能成为研究热点。针对自主设计的多核向量加速器FT-M7004上的VGG网络模型推理和训练算法,分别提出了卷积、池化和全连接等核心算子的向量化映射方法,采用SIMD向量化、DMA双缓冲传输和权值共享等优化策略,充分发挥了向量加速器的体系结构优势,取得了较高的计算效率。实验结果表明,在FT-M7004平台上,卷积层推理和训练的平均计算效率分别达到了86.62%和69.63%;全连接层推理和训练的平均计算效率分别达到了93.17%和81.98%;VGG网络模型在FT-M7004上的推理计算效率超过GPU平台20%以上。 展开更多
关键词 多核向量加速器 卷积神经网络 推理算法 训练算法
在线阅读 下载PDF
基于FPGA的卷积神经网络和视觉Transformer通用加速器
6
作者 李天阳 张帆 +2 位作者 王松 曹伟 陈立 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第6期2663-2672,共10页
针对计算机视觉领域中基于现场可编程逻辑门阵列(FPGA)的传统卷积神经网(CNN)络加速器不适配视觉Transformer网络的问题,该文提出一种面向卷积神经网络和Transformer的通用FPGA加速器。首先,根据卷积和注意力机制的计算特征,提出一种面... 针对计算机视觉领域中基于现场可编程逻辑门阵列(FPGA)的传统卷积神经网(CNN)络加速器不适配视觉Transformer网络的问题,该文提出一种面向卷积神经网络和Transformer的通用FPGA加速器。首先,根据卷积和注意力机制的计算特征,提出一种面向FPGA的通用计算映射方法;其次,提出一种非线性与归一化加速单元,为计算机视觉神经网络模型中的多种非线性和归一化操作提供加速支持;然后,在Xilinx XCVU37P FPGA上实现了加速器设计。实验结果表明,所提出的非线性与归一化加速单元在提高吞吐量的同时仅造成很小的精度损失,ResNet-50和ViT-B/16在所提FPGA加速器上的性能分别达到了589.94 GOPS和564.76 GOPS。与GPU实现相比,能效比分别提高了5.19倍和7.17倍;与其他基于FPGA的大规模加速器设计相比,能效比有明显提高,同时计算效率较对比FPGA加速器提高了8.02%~177.53%。 展开更多
关键词 计算机视觉 卷积神经网络 TRANSFORMER FPGA 硬件加速器
在线阅读 下载PDF
基于FPGA的卷积神经网络加速器现状研究
7
作者 张坤 高博 +3 位作者 冀亚玮 谢宗甫 高飞 李宇东 《太赫兹科学与电子信息学报》 2024年第10期1142-1153,1167,共13页
近年来,得益于计算机运算能力的提升和互联网所产生的大量数据,深度学习(DL)技术取得了快速发展,其中最显著的卷积神经网络(CNN)在图像识别、目标检测、自然语言处理等领域已经成功实现商用。然而随着网络层数越来越深,对计算能力和内... 近年来,得益于计算机运算能力的提升和互联网所产生的大量数据,深度学习(DL)技术取得了快速发展,其中最显著的卷积神经网络(CNN)在图像识别、目标检测、自然语言处理等领域已经成功实现商用。然而随着网络层数越来越深,对计算能力和内存需求急剧上升,如何对卷积神经网络进行加速并在硬件加速器上部署的问题逐渐成为学术界研究的热点。从现场可编程门阵列(FPGA)开发神经网络的优势出发,介绍了FPGA的多种开发方式,详细论述了部署和加速卷积神经网络的各种优化策略,以及采用不同优化策略的FPGA卷积神经网络加速器的性能表现。最后,展望了FPGA卷积神经网络加速器的未来发展方向。 展开更多
关键词 卷积神经网络 FPGA加速器 网络压缩 卷积算法 脉动阵列
在线阅读 下载PDF
相变材料辅助的光子卷积神经网络加速器 被引量:2
8
作者 郭鹏星 刘志远 +1 位作者 侯维刚 郭磊 《光学学报》 EI CAS CSCD 北大核心 2023年第4期128-137,共10页
由于卷积神经网络(CNN)识别精度与人类接近,故其在计算机视觉、图像和语音处理等方面取得了巨大的成功,但这种成功离不开硬件加速器的支撑。受到电子器件功率与速率的限制,当前的电加速器难以满足未来大规模卷积运算对硬件算力和能耗的... 由于卷积神经网络(CNN)识别精度与人类接近,故其在计算机视觉、图像和语音处理等方面取得了巨大的成功,但这种成功离不开硬件加速器的支撑。受到电子器件功率与速率的限制,当前的电加速器难以满足未来大规模卷积运算对硬件算力和能耗的需求。作为一种替代方案,提出了一种低能耗存算一体光子CNN加速器结构。该结构采用微环谐振器和非易失性相变材料Ge_(2)Sb_(2)Te_(5)构成无源光学矩阵乘法器来实现存内计算,从而减小了权重数据读取的能耗。利用Ansys Lumerical仿真平台验证了10 Gb/s与20 Gb/s速率下4×4规模的光学矩阵乘法的运算。与传统的基于电光微环谐振器的光子CNN加速器数字电子与模拟光子(DEAP)相比,所提加速器结构在保持原运算速率的情况下减少了48.75%的功耗,并且在矩阵运算处的面积能够减少49.75%。此外,基于MNIST与notMNIST数据集对所提加速器的推理效果进行了仿真验证,识别精度分别为97.80%和92.45%。 展开更多
关键词 机器视觉 光子卷积神经网络加速器 微环谐振器 相变材料 存算一体
原文传递
基于FPGA的稀疏卷积神经网络加速器设计
9
作者 李宁 肖昊 《电子测量技术》 北大核心 2024年第5期1-8,共8页
剪枝是一种减少卷积神经网络权重和计算量的有效方法,为CNN的高效部署提供了解决方案。但是,剪枝后的稀疏CNN中权重的不规则分布使硬件计算单元之间的计算负载各不相同,降低了硬件的计算效率。文章提出一种细粒度的CNN模型剪枝方法,该... 剪枝是一种减少卷积神经网络权重和计算量的有效方法,为CNN的高效部署提供了解决方案。但是,剪枝后的稀疏CNN中权重的不规则分布使硬件计算单元之间的计算负载各不相同,降低了硬件的计算效率。文章提出一种细粒度的CNN模型剪枝方法,该方法根据硬件加速器的架构将整体权重分成若干个局部权重组,并分别对每一组局部权重进行独立剪枝,得到的稀疏CNN在加速器上实现了计算负载平衡。此外,设计一种具有高效PE结构和稀疏度可配置的稀疏CNN加速器并在FPGA上实现,该加速器的高效PE结构提升了乘法器的吞吐率,同时可配置性使其可灵活地适应不同稀疏度的CNN计算。实验结果表明,提出的剪枝算法可将CNN的权重参数减少50%~70%,同时精度损失不到3%。相比于密集型加速器,提出的加速器最高可实现3.65倍的加速比;与其他的稀疏型加速器研究相比,本研究的加速器在硬件效率上提升28%~167%。 展开更多
关键词 卷积神经网络 硬件加速器 稀疏计算 FPGA
在线阅读 下载PDF
机载超轻量化卷积神经网络加速器设计
10
作者 石添介 刘飞阳 张晓 《航空工程进展》 CSCD 2024年第2期188-194,共7页
卷积神经网络庞大的权重参数和复杂的网络层结构,使其计算复杂度过高,所需的计算资源和存储资源也随着网络层数的增加而快速增长,难以在资源和功耗有严苛要求的机载嵌入式计算系统中部署,制约了机载嵌入式计算系统朝着高智能化发展。针... 卷积神经网络庞大的权重参数和复杂的网络层结构,使其计算复杂度过高,所需的计算资源和存储资源也随着网络层数的增加而快速增长,难以在资源和功耗有严苛要求的机载嵌入式计算系统中部署,制约了机载嵌入式计算系统朝着高智能化发展。针对资源受限的机载嵌入式计算系统对超轻量化智能计算的需求,提出一套全流程的卷积神经网络模型优化加速方法,在对算法模型进行超轻量化处理后,通过组合加速算子搭建卷积神经网络加速器,并基于FPGA开展网络模型推理过程的功能验证。结果证明:本文搭建的加速器能够显著降低硬件资源占用率,获得良好的算法加速比,对机载嵌入式智能计算系统设计具有重要意义。 展开更多
关键词 嵌入式计算系统 卷积神经网络 轻量化 硬件加速器 FPGA验证
在线阅读 下载PDF
基于数据局部相似性的卷积神经网络加速器
11
作者 蔡元鹏 孙文浩 陈松 《微电子学与计算机》 2024年第4期104-111,共8页
为提高卷积神经网络的处理速度,使用零梯度近似处理的卷积方法(梯度卷积)来提高数据的复用率,减少计算量。以卷积核为单位对数据进行梯度计算,针对不同网络的不同层次采用灵活的梯度阈值计算策略,以合理复用相邻窗口的卷积结果。将其中... 为提高卷积神经网络的处理速度,使用零梯度近似处理的卷积方法(梯度卷积)来提高数据的复用率,减少计算量。以卷积核为单位对数据进行梯度计算,针对不同网络的不同层次采用灵活的梯度阈值计算策略,以合理复用相邻窗口的卷积结果。将其中关键的梯度处理模块和卷积计算部分在现场可编程门阵列(Field-Programmable Gate Array,FPGA)上进行实现,与脉动阵列相结合以提高资源利用率,并针对负载不均衡的问题设计出适合梯度卷积的数据流。基于YOLOv3模型和Pascal VOC数据集的目标检测实验中,在付出较小精度损失的前提下,软件端减少约23.2%的计算量,结合硬件加速比约为17.8%。 展开更多
关键词 加速器 数据局部相似性 卷积神经网络 梯度卷积 现场可编程门阵列
在线阅读 下载PDF
基于一维卷积神经网络构建医用直线加速器高价值零件故障预测模型的应用效果
12
作者 傅世楣 《医疗装备》 2024年第14期25-27,共3页
目的构建医用直线加速器高价值零件故障预测模型,以实现对高价值零件故障的预判。方法选取2013年1月至2017年12月医院在用医科达Synergy医用直线加速器的60组共381个维修记录数据,按照7:3比例随机分配为训练集(42组)和测试集(18组),采... 目的构建医用直线加速器高价值零件故障预测模型,以实现对高价值零件故障的预判。方法选取2013年1月至2017年12月医院在用医科达Synergy医用直线加速器的60组共381个维修记录数据,按照7:3比例随机分配为训练集(42组)和测试集(18组),采用一维卷积神经网络进行二分类建模,随机选取30组数据作为验证集评估模型性能,并采用测试集数据检测模型预测效果。结果设定最大训练学习次数为120次,实际训练次数超过80次时数据趋于稳定,训练集和验证集的准确率均稳定于90%左右,测试集数据准确率均在96%以上,表明模型收敛较好。结论该模型预测医用直线加速器高价值零件的故障次数与实际情况接近,为预防性维修和保修服务采购提供了可靠的数据支持。 展开更多
关键词 一维卷积神经网络 医用直线加速器 高价值零件 故障预测模型
在线阅读 下载PDF
基于FPGA的卷积神经网络加速器 被引量:36
13
作者 余子健 马德 +1 位作者 严晓浪 沈君成 《计算机工程》 CAS CSCD 北大核心 2017年第1期109-114,119,共7页
现有软件实现方案难以满足卷积神经网络对运算性能与功耗的要求。为此,设计一种基于现场可编程门阵列(FPGA)的卷积神经网络加速器。在粗粒度并行层面对卷积运算单元进行并行化加速,并使用流水线实现完整单层运算过程,使单个时钟周期能... 现有软件实现方案难以满足卷积神经网络对运算性能与功耗的要求。为此,设计一种基于现场可编程门阵列(FPGA)的卷积神经网络加速器。在粗粒度并行层面对卷积运算单元进行并行化加速,并使用流水线实现完整单层运算过程,使单个时钟周期能够完成20次乘累加,从而提升运算效率。针对MNIST手写数字字符识别的实验结果表明,在75 MHz的工作频率下,该加速器可使FPGA峰值运算速度达到0.676 GMAC/s,相较通用CPU平台实现4倍加速,而功耗仅为其2.68%。 展开更多
关键词 卷积神经网络 现场可编程门阵列 加速器 流水线 并行化
在线阅读 下载PDF
FPGA平台上动态硬件重构的Winograd神经网络加速器
14
作者 梅冰笑 滕文彬 +3 位作者 张弛 王文浩 李富强 苑福利 《计算机工程与应用》 CSCD 北大核心 2024年第22期323-334,共12页
为解决卷积神经网络在FPGA平台上进行硬件加速时存在的资源利用率低和资源受限问题,提出了一种基于FPGA动态部分重构技术和Winograd快速卷积的卷积神经网络加速器。该加速器通过运行时硬件重构对FPGA片上资源进行时分复用,采用流水线方... 为解决卷积神经网络在FPGA平台上进行硬件加速时存在的资源利用率低和资源受限问题,提出了一种基于FPGA动态部分重构技术和Winograd快速卷积的卷积神经网络加速器。该加速器通过运行时硬件重构对FPGA片上资源进行时分复用,采用流水线方式动态地将各个计算流水段配置到FPGA,各个流水段所对应的卷积计算核心使用Winograd算法进行定制优化,以在解决资源受限问题的同时最大程度地提升计算资源利用效率。针对该加速器架构,进一步构建了组合优化模型,用于搜索在特定FPGA硬件平台上部署特定网络模型的最优并行策略,并使用遗传算法进行设计空间求解。基于Xilinx VC709 FPGA平台对VGG-16网络模型进行部署和分析,综合仿真结果表明,所提出的设计方法能够在资源有限的FPGA上自适应地实现大型神经网络模型,加速器整体性能可以达到1078.3 GOPS,较以往加速器的性能和计算资源利用效率可以分别提升2.2倍和3.62倍。 展开更多
关键词 卷积神经网络 动态部分硬件重构 现场可编程门阵列(FPGA) 硬件加速器 Winograd快速卷积
在线阅读 下载PDF
面向云端FPGA的卷积神经网络加速器的设计及其调度 被引量:2
15
作者 蔡瑞初 余洋 +2 位作者 钟椿荣 卢冶 陈瑶 《计算机应用研究》 CSCD 北大核心 2020年第1期172-177,182,共7页
卷积神经网络的高计算复杂性阻碍其广泛用于实时和低功耗应用,现有软件实现方案难以满足其对运算性能与功耗的要求,传统面向FPGA的卷积神经网络构造方式具有流程复杂、周期较长和优化空间较小等问题。针对该问题,根据卷积神经网络计算... 卷积神经网络的高计算复杂性阻碍其广泛用于实时和低功耗应用,现有软件实现方案难以满足其对运算性能与功耗的要求,传统面向FPGA的卷积神经网络构造方式具有流程复杂、周期较长和优化空间较小等问题。针对该问题,根据卷积神经网络计算模式的特点,提出一种面向云端FPGA的卷积神经网络加速器的设计及其调度机制。通过借鉴基于HLS技术、引入循环切割参数和对卷积层循环重排的设计,采用模块化方式构造网络,并进行参数拓展以进一步优化加速器处理过程;通过分析系统任务和资源的特性总结调度方案,且从控制流和数据流两方面对其进行优化设计。与其他已有工作相比,提出的设计提供了一种同时具有灵活性、低能耗、高能效和高性能的解决方案,并且探讨了加速器的高效通用调度方案。实验结果表明,该加速器可在有效提高运算整速度的同时减少功耗。 展开更多
关键词 卷积神经网络 现场可编程门阵列 高层次综合 加速器 调度
在线阅读 下载PDF
基于软件定义片上可编程系统的卷积神经网络加速器设计 被引量:1
16
作者 苗凤娟 王一鸣 陶佰睿 《科学技术与工程》 北大核心 2019年第34期267-271,共5页
针对图像识别领域卷积神经网络(convolutional neural network,CNN)的计算需求,根据CNN的结构特点,设计出一种基于软件定义片上可编程系统(software defined system on chip,SDSoC)的加速器。首先通过修改CNN网络结构文件,选用修正线性... 针对图像识别领域卷积神经网络(convolutional neural network,CNN)的计算需求,根据CNN的结构特点,设计出一种基于软件定义片上可编程系统(software defined system on chip,SDSoC)的加速器。首先通过修改CNN网络结构文件,选用修正线性单元(rectified linear unit,ReLU)作为激励函数,在虚拟机上训练出卷积神经网络的参数。最终完成一种占用硬件资源少,图像识别时间短和精度高的CNN硬件加速器。实验结果表明,与传统的CPU对比其识别精度提高至80%以上,消耗仅占其4.16%,识别时间从通用CPU的十几秒缩短至毫秒。资源消耗与识别时间都得到了很大程度的降低,为进一步加速提供了参考价值。 展开更多
关键词 图像识别 网络结构 卷积神经网络 软件定义片上可编程系统 加速器 精度
在线阅读 下载PDF
FPGA实现卷积神经网络加速器
17
作者 张立国 黄文汉 金梅 《高技术通讯》 CAS 2023年第10期1060-1067,共8页
卷积神经网络传统的应用平台是中央处理器(CPU)和图形处理器(GPU),其体积和功耗不能适应轻量化的行业,轻量化的专用集成电路(ASIC)平台专用加速器的开发成本又不能适应愈发复杂和深层次的网络结构。针对上述问题,设计一种基于现场可编... 卷积神经网络传统的应用平台是中央处理器(CPU)和图形处理器(GPU),其体积和功耗不能适应轻量化的行业,轻量化的专用集成电路(ASIC)平台专用加速器的开发成本又不能适应愈发复杂和深层次的网络结构。针对上述问题,设计一种基于现场可编程门阵列(FPGA)的卷积神经网络(CNN)加速器,既满足轻量化应用场景,又有低开发成本的特性。设计浮点加法器和浮点乘法器组合成卷积运算的基本运算单元,完成16 bits浮点数乘累加操作只需要消耗一个数字信号处理器(DSP)资源;针对FPGA运算特性设计了基于ReLU函数的激活层模块;设计可调节并行度的各层模块,可根据平台资源在性能、功耗和面积上取得平衡;设计用比较器简化的SoftMax模块。实验结果表明,在100 MHz工作频率下,峰值算力可达44.8 GFLOPS,功率仅为4.51 W。 展开更多
关键词 现场可编程门阵列(FPGA) 卷积神经网络(CNN) 硬件加速器 并行度
在线阅读 下载PDF
面向卷积神经网络加速器吞吐量优化的FPGA自动化设计方法 被引量:8
18
作者 陆维娜 胡瑜 +1 位作者 叶靖 李晓维 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2018年第11期2164-2173,共10页
针对卷积神经网络FPGA加速器的资源分配与频率设置欠佳导致吞吐量受限的问题,提出一种面向吞吐量优化的自动化设计方法.首先将加速器的设计分为并行策略和频率设计,提出总体设计流程;然后将设计空间探索建模为线段分割问题,采用遗传算... 针对卷积神经网络FPGA加速器的资源分配与频率设置欠佳导致吞吐量受限的问题,提出一种面向吞吐量优化的自动化设计方法.首先将加速器的设计分为并行策略和频率设计,提出总体设计流程;然后将设计空间探索建模为线段分割问题,采用遗传算法及贪心算法求解;最后根据求解出的并行策略完成加速器的结构设计,根据求解出的预期运行频率对加速器的布局布线优化,使实际频率可以达到预期.对AlexNet及VGG-16模型在目标器件AlteraDE5a-Net的设计实验结果表明,文中方法能有效地提升资源使用效率并给出合理频率设置;相比于其他卷积神经网络FPGA加速器设计方法,该方法可提升AlexNet和VGG-16的吞吐量82.95%和66.19%. 展开更多
关键词 FPGA 卷积神经网络 加速器吞吐量 自动化并行设计
在线阅读 下载PDF
面向卷积神经网络的高并行度FPGA加速器设计 被引量:7
19
作者 王晓峰 蒋彭龙 +1 位作者 周辉 赵雄波 《计算机应用》 CSCD 北大核心 2021年第3期812-819,共8页
大多数基于卷积神经网络(CNN)的算法都是计算密集型和存储密集型的,很难应用于具有低功耗要求的航天、移动机器人、智能手机等嵌入式领域。针对这一问题,提出一种面向CNN的高并行度现场可编程逻辑门阵列(FPGA)加速器。首先,比较研究CNN... 大多数基于卷积神经网络(CNN)的算法都是计算密集型和存储密集型的,很难应用于具有低功耗要求的航天、移动机器人、智能手机等嵌入式领域。针对这一问题,提出一种面向CNN的高并行度现场可编程逻辑门阵列(FPGA)加速器。首先,比较研究CNN算法中可用于FPGA加速的4类并行度;然后,提出多通道卷积旋转寄存流水(MCRP)结构,简洁有效地利用了CNN算法的卷积核内并行;最后,采用输入输出通道并行+卷积核内并行的方案提出一种基于MCRP结构的高并行度CNN加速器架构,并将其部署到XILINX的XCZU9EG芯片上,在充分利用片上数字信号处理器(DPS)资源的情况下,峰值算力达到2 304 GOPS。以SSD-300算法为测试对象,该CNN加速器的实际算力为1 830.33 GOPS,硬件利用率达79.44%。实验结果表明,MCRP结构可有效提高CNN加速器的算力,基于MCRP结构的CNN加速器可基本满足嵌入式领域大部分应用的算力需求。 展开更多
关键词 卷积神经网络 高性能 硬件加速器 并行度 现场可编程逻辑门阵列
在线阅读 下载PDF
基于Winograd稀疏算法的卷积神经网络加速器设计与研究 被引量:1
20
作者 徐睿 马胜 +2 位作者 郭阳 黄友 李艺煌 《计算机工程与科学》 CSCD 北大核心 2019年第9期1557-1566,共10页
随着卷积神经网络得到愈加广泛的应用,针对其复杂运算的定制硬件加速器得到越来越多的重视与研究。但是,目前定制硬件加速器多采用传统的卷积算法,并且缺乏对神经网络稀疏性的支持,从而丧失了进一步改进硬件,提升硬件性能的空间。重新... 随着卷积神经网络得到愈加广泛的应用,针对其复杂运算的定制硬件加速器得到越来越多的重视与研究。但是,目前定制硬件加速器多采用传统的卷积算法,并且缺乏对神经网络稀疏性的支持,从而丧失了进一步改进硬件,提升硬件性能的空间。重新设计一款卷积神经网络加速器,该加速器基于Winograd稀疏算法,该算法被证明有效降低了卷积神经网络的计算复杂性,并可以很好地适应稀疏神经网络。通过硬件实现该算法,本文的设计可以在减少硬件资源的同时,获得相当大的计算效率。实验表明,相比于传统算法,该加速器设计方案将运算速度提升了近4.15倍;从乘法器利用率的角度出发,相比现有的其他方案,该方案将利用率最多提高了近9倍。 展开更多
关键词 卷积神经网络 加速器 Winograd算法 稀疏网络
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部