期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
针对实时目标检测的多维度并行FPGA加速器设计 被引量:2
1
作者 谢帅 蒋力 叶瑶瑶 《微电子学与计算机》 2021年第8期13-19,共7页
目标检测任务对于检测任务精度和实时性都有很高要求,YOLOv3-tiny网络在这两点有很好的表现.但是其复杂的网络结构,使得实际应用需要从软件和硬件方面都进行针对性的优化.为了达到实时要求,综合使用三种优化技术:在软件层面,通过融合批... 目标检测任务对于检测任务精度和实时性都有很高要求,YOLOv3-tiny网络在这两点有很好的表现.但是其复杂的网络结构,使得实际应用需要从软件和硬件方面都进行针对性的优化.为了达到实时要求,综合使用三种优化技术:在软件层面,通过融合批归一层降低计算量,低位宽增大资源利用率;设计多维度并行FPGA计算核心匹配多个卷积层,提高整体吞吐率;细粒度层间流水和pingpong缓存设计,降低数据传输时间.在ZCU104型号的FPGA上,实现了418×418图片的21ms检测延时,超过同类加速器设计,并在DSP效率上有2.86倍或者8.81倍的提升. 展开更多
关键词 YOLOv3-tiny fpga加速器 多维度并行 低延时 高DSP效率
在线阅读 下载PDF
基于FPGA的卷积神经网络加速器现状研究
2
作者 张坤 高博 +3 位作者 冀亚玮 谢宗甫 高飞 李宇东 《太赫兹科学与电子信息学报》 2024年第10期1142-1153,1167,共13页
近年来,得益于计算机运算能力的提升和互联网所产生的大量数据,深度学习(DL)技术取得了快速发展,其中最显著的卷积神经网络(CNN)在图像识别、目标检测、自然语言处理等领域已经成功实现商用。然而随着网络层数越来越深,对计算能力和内... 近年来,得益于计算机运算能力的提升和互联网所产生的大量数据,深度学习(DL)技术取得了快速发展,其中最显著的卷积神经网络(CNN)在图像识别、目标检测、自然语言处理等领域已经成功实现商用。然而随着网络层数越来越深,对计算能力和内存需求急剧上升,如何对卷积神经网络进行加速并在硬件加速器上部署的问题逐渐成为学术界研究的热点。从现场可编程门阵列(FPGA)开发神经网络的优势出发,介绍了FPGA的多种开发方式,详细论述了部署和加速卷积神经网络的各种优化策略,以及采用不同优化策略的FPGA卷积神经网络加速器的性能表现。最后,展望了FPGA卷积神经网络加速器的未来发展方向。 展开更多
关键词 卷积神经网络 fpga加速器 网络压缩 卷积算法 脉动阵列
在线阅读 下载PDF
面向图卷积神经网络的FPGA部署及加速研究 被引量:2
3
作者 高强 邵春霖 +1 位作者 李京润 沈宗凯 《现代电子技术》 北大核心 2024年第10期39-46,共8页
图卷积神经网络(GCN)算法在处理图结构数据任务中取得了突破性的成功,然而训练图卷积神经网络需要大量的内存空间及多次的随机内存访问等,这限制该算法的进一步部署应用。现有图卷积神经网络的部署及加速方案大多基于VitisHLS工具,该工... 图卷积神经网络(GCN)算法在处理图结构数据任务中取得了突破性的成功,然而训练图卷积神经网络需要大量的内存空间及多次的随机内存访问等,这限制该算法的进一步部署应用。现有图卷积神经网络的部署及加速方案大多基于VitisHLS工具,该工具利用C/C++进行开发,几乎没有采用硬件描述语言的方案,存在软硬件加速不彻底问题。针对上述问题,设计一种面向GCN的FPGA部署及加速架构。该架构主要由计算模块和存储模块构成,两者都是利用硬件描述语言实现。计算模块主要是用硬件描述语言来实现图卷积神经网络的关键算法,即将图卷积神经网络的关键算法映射到现场可编程门阵列中以实现硬件加速;缓存模块主要是调用ROM IP核以及定义二维寄存器组,对输入节点特征、归一化后的邻接矩阵、各个层的量化参数以及中间变量进行存储,从而提高GCN算法的并行度。首先在Pycharm平台上进行模型训练并提取参数进行量化,然后在Vivado平台上对图卷积神经网络进行设计和仿真测试,对比CPU、GPU的运算性能。实验结果表明,所设计的图卷积神经网络加速架构提升了模型的推理速度。 展开更多
关键词 图卷积神经网络 fpga加速器 硬件描述语言 计算模块 存储模块 参数量化
在线阅读 下载PDF
用于实时目标检测的FPGA神经网络加速器设计 被引量:5
4
作者 李岑 贺光辉 《微电子学与计算机》 北大核心 2020年第7期6-11,共6页
在FPGA上实现YOLO等目标检测算法,需要从模型量化到硬件优化等多种优化方法.为了缩短硬件延时,使用了三种技术:(1)利用层融合和位宽量化策略来降低计算复杂度;(2)利用具有padding跳过技术的基于列的流水线架构来减少启动时间;(3)利用设... 在FPGA上实现YOLO等目标检测算法,需要从模型量化到硬件优化等多种优化方法.为了缩短硬件延时,使用了三种技术:(1)利用层融合和位宽量化策略来降低计算复杂度;(2)利用具有padding跳过技术的基于列的流水线架构来减少启动时间;(3)利用设计空间探索算法来平衡流水线时间,提高DSP使用效率.为了验证提出的神经网络加速器架构,在ZC706 FPGA上实现了具有1280×384输入的YOLO网络.与传统加速器相比,取得了1.97倍的延迟缩减或者1.54倍的DSP效率提升. 展开更多
关键词 YOLO fpga加速器 基于列的流水线架构 低延时 高DSP效率
在线阅读 下载PDF
基于FPGA的红外目标识别神经网络加速器设计 被引量:2
5
作者 黄家明 陈寰 +1 位作者 史庆杰 陈海宝 《飞控与探测》 2020年第6期66-75,共10页
在红外目标识别领域,基于卷积神经网络的深度学习算法的识别精度已远远超过了传统模式识别算法,但神经网络的实现需要依赖庞大的计算和存储能力,难以在无人机等嵌入式平台上进行部署。针对此问题,将通道级量化策略和梯度的近似优化训练... 在红外目标识别领域,基于卷积神经网络的深度学习算法的识别精度已远远超过了传统模式识别算法,但神经网络的实现需要依赖庞大的计算和存储能力,难以在无人机等嵌入式平台上进行部署。针对此问题,将通道级量化策略和梯度的近似优化训练引入到了低比特神经网络模型的建立中,并提出了一种可充分利用硬件计算资源的FPGA加速器,其整体平均性能为65.6GOPS。与其他相关工作的对比表明,低比特量化方法及其FPGA加速器的实现,可以为嵌入式红外目标识别系统提供一种能效高、识别精度高的解决方案。 展开更多
关键词 红外目标识别 卷积神经网络 fpga加速器 高能效
在线阅读 下载PDF
面向低延时目标检测的FPGA神经网络加速器设计
6
作者 郑思杰 李杰 贺光辉 《现代计算机》 2021年第18期38-43,共6页
目标检测网络算法具有更高的检测精度,但庞大的计算复杂度使得传统硬件难以满足实时计算需求。为此,一种面向低延时目标检测的FPGA神经网络加速器被设计研究。该加速器能够支持高并行卷积稀疏计算,进而优化计算延时;同时设计了集中式存... 目标检测网络算法具有更高的检测精度,但庞大的计算复杂度使得传统硬件难以满足实时计算需求。为此,一种面向低延时目标检测的FPGA神经网络加速器被设计研究。该加速器能够支持高并行卷积稀疏计算,进而优化计算延时;同时设计了集中式存储阵列结构,能够实现存储阵列和计算阵列非一一对应的数据交互。基于Xilinx VCU118开发板和YOLOv3深度神经网络的测试结果显示,加速器单帧延时只有24.36 ms,并具有2704 GOPS的吞吐性能和更高的面积效率。 展开更多
关键词 fpga加速器 目标检测 卷积神经网络 低延时 稀疏计算
在线阅读 下载PDF
图像欧拉数计算的FPGA加速设计 被引量:1
7
作者 史永胜 洪鑫扬 +3 位作者 段青亚 马毅超 陶亚凡 何立风 《微电子学与计算机》 北大核心 2019年第8期6-9,共4页
欧拉数是二值图像重要特征之一,为进一步提高现有二值图像欧拉数算法的效率,根据图论中的欧拉定理,在GRAY提出的基于四方块类型的欧拉数算法的基础上,提出一种欧拉数计算的FPGA加速设计.充分利用FPGA的并行处理能力,采用三级流水线的设... 欧拉数是二值图像重要特征之一,为进一步提高现有二值图像欧拉数算法的效率,根据图论中的欧拉定理,在GRAY提出的基于四方块类型的欧拉数算法的基础上,提出一种欧拉数计算的FPGA加速设计.充分利用FPGA的并行处理能力,采用三级流水线的设计进行处理,使得计算欧拉数的时间几乎等于从RAM中读取一幅图的时间,极大提高了欧拉数计算的速度.最后使用41张随机二值噪声图像进行测试,结果表明,PC上的先进算法的处理时间随目标像素的密度的改变有很大的变化,最慢时间为最快时间的5倍左右,而本文设计的FPGA加速设计中,处理一幅图像的时间与目标像素无关仅与图片大小有关,且与理论上读取一幅图片的时间非常接近,速度比PC上先进的算法的平均速度快了20多倍,且成本功耗均远低于PC. 展开更多
关键词 欧拉数 二值图像 fpga加速器 图像处理
在线阅读 下载PDF
二值VGG卷积神经网络加速器优化设计 被引量:5
8
作者 张旭欣 张嘉 +1 位作者 李新增 金婕 《电子技术应用》 2021年第2期20-23,共4页
基于FPGA的二值卷积神经网络加速器研究大多是针对小尺度的图像输入,而实际应用主要以YOLO、VGG等大尺度的卷积神经网络作为骨干网络。通过从网络拓扑、流水线等层面对卷积神经网络硬件进行优化设计,从而解决逻辑资源以及性能瓶颈,实现... 基于FPGA的二值卷积神经网络加速器研究大多是针对小尺度的图像输入,而实际应用主要以YOLO、VGG等大尺度的卷积神经网络作为骨干网络。通过从网络拓扑、流水线等层面对卷积神经网络硬件进行优化设计,从而解决逻辑资源以及性能瓶颈,实现输入尺度更大、网络层次更深的二值VGG神经网络加速器。采用CIFAR-10数据集对基于FPGA的VGG卷积神经网络加速器优化设计进行验证,实验结果表明系统实现了81%的识别准确率以及219.9 FPS的识别速度,验证了优化方法的有效性。 展开更多
关键词 优化设计 二值卷积神经网络 fpga加速器
在线阅读 下载PDF
基于FPGA的手写蒙文字体转换系统设计及实现
9
作者 李永辉 颜世威 +2 位作者 施展 王立国 冯冲 《计算机测量与控制》 2024年第10期180-186,200,共8页
蒙文字体转换在促进蒙文应用和推广、丰富中国文化多样性以及促进蒙古族地区经济繁荣方面具有关键作用;针对蒙文字体转换的效率和准确率低的问题,提出一种基于轻量化卷积神经网络(CNN)和FPGA硬件加速器的方法;即使用CNN进行手写蒙文识别... 蒙文字体转换在促进蒙文应用和推广、丰富中国文化多样性以及促进蒙古族地区经济繁荣方面具有关键作用;针对蒙文字体转换的效率和准确率低的问题,提出一种基于轻量化卷积神经网络(CNN)和FPGA硬件加速器的方法;即使用CNN进行手写蒙文识别,并结合字体转换库,通过识别结果和字体的映射关系实现了简单高效的蒙文字体转换;相比于其他方法,该方法结合了高效的CNN和FPGA硬件加速器的优势,既提高了转换效率,又满足了设备成本、功耗和便携性的需求;使用Xilinx公司的XC7Z020CLG400-2完成网络模型电路的设计和优化工作,在此基础上实现了手写蒙文字体转换系统,测试结果表明,手写体蒙文转换为目标字体的准确率为95.62%,转换时间为1.43 ms,功耗为0.341 W,加速器峰值吞吐量为6.64 Gops;研究成果对于促进蒙古族文化传承和经济发展具有重要意义。 展开更多
关键词 蒙文字体转换 fpga加速器 低功耗系统
在线阅读 下载PDF
Research and Design of MP3 Player Decoder based on FPGA
10
作者 Hang Xu 《International Journal of Technology Management》 2013年第1期121-123,共3页
The paper takes a method of a low speed processer based on FPGA hardware accelerator SOC units to realize the MP3 player, and include some peripheral devices. The experimental results show that the system has implemen... The paper takes a method of a low speed processer based on FPGA hardware accelerator SOC units to realize the MP3 player, and include some peripheral devices. The experimental results show that the system has implemented the basic functions of the MP3 player, having its own advantages on increasing the decoding speed and reducing the system consumption. The system is convenient to redesign for more function in the future. In conclusion, it has a wide application prospect. 展开更多
关键词 Mp3 player DECODER fpga Huffman decoding principle
在线阅读 下载PDF
浅谈数字系统设计的一般结构和基本要素
11
作者 张利达 《广播电视信息》 2012年第7期75-78,共4页
本文结合一些经典数字系统理论以及在实际工作中积累的设计经验,从方法论的角度对数字系统设计的一般结构框架、基本电路和编程语言进行了简要地介绍。这些基础性的内容在一个具体应用中会占据超过80%的设计工作,因此全面了解和掌握这... 本文结合一些经典数字系统理论以及在实际工作中积累的设计经验,从方法论的角度对数字系统设计的一般结构框架、基本电路和编程语言进行了简要地介绍。这些基础性的内容在一个具体应用中会占据超过80%的设计工作,因此全面了解和掌握这些内容,不论是对于刚刚涉入本行业,对本行业有一个整体的了解,还是要在开发设计领域有一个质上的提高都是非常重要的。 展开更多
关键词 DSP fpga总线桥嵌入式处理器硬件加速器上下文切换
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部