基于改进动态配置的FPGA卷积神经网络加速器的优化方法被引量：5

Optimization method of FPGA convolutional neural network accelerator based on improved dynamic configuration

在线阅读下载PDF

导出

摘要卷积神经网络(CNN)已广泛应用于各种计算机视觉任务,基于GPU的卷积神经网络加速器往往存在功耗较高、体积较大和成本较高的问题。针对上述问题,文中提出一种基于改进动态配置的现场可编程门阵列(FPGA)卷积神经网络加速器的优化方法。使用高层次综合工具,在引入分割参数的基础上,通过在资源约束情况下基于流水线结构的层间模块复用,采用8-16位动态定点设计方案,以有限的硬件资源实现性能优化的卷积神经网络硬件结构,提升计算效率的同时缩短了开发周期。利用该方法在ZCU102平台上构建实现了AlexNet网络和VGG网络。在最大精度损失0.63%的条件下,将加速器性能分别从46.3fps和37.2fps提高到290.7fps和54.4fps,计算能效分别达到了TITAN-X的1.78倍和3.89倍。实验数据充分说明,采用改进动态配置的优化方法,利用高层次综合工具进行开发的FPGA卷积加速器,既满足了计算实时性的要求,同时也解决了功耗和体积问题,验证了本方法的有效性。 Convolutional neural network(CNN)has been widely employed for various computer vision tasks.GPU-based convolutional neural network accelerators often have problems of high-power consumption,large size and high cost.Aiming at the above problems,this paper proposes an optimization method of field programmable gate array(FPGA)convolutional neural network accelerator based on improved dynamic configuration.High-level synthesis tools are used to achieve performance optimization with limited hardware resources and the 8-16 bit dynamic fixed-point,and utilizes the pipeline structure-based inter-layer module multiplexing under resource constraints,which improves the computational efficiency and shortens the development cycle.This method is used to build and implement the AlexNet network and VGG network on the ZCU102 platform.With 0.63%accuracy loss,the accelerator performance is improved from 46.3fps and 37.2fps to 290.7fps and 54.4fps respectively,and the calculation energy efficiency reaches 1.78 times and 3.89 times compared to TITAN-X respectively.The experimental data fully demonstrates that the FPGA convolution accelerator developed by the high-level synthesis tool adopts the improved dynamic configuration optimization method,which not only satisfies the requirements of real-time calculation,but also solves the power consumption and volume problem,and verifies the effectiveness of the proposed method.

作者陈朋陈庆清王海霞张怡龙刘义鹏梁荣华 Chen Peng;Chen Qingqing;Wang Haixia;Zhang Yilong;Liu Yipeng;Liang Ronghua(College of Computer Science and Technology,Zhejiang University of Technology,Hangzhou 310000;College of Information Engineering,Zhejiang University of Technology,Hangzhou 310000)

机构地区浙江工业大学计算机科学与技术学院浙江工业大学信息工程学院

出处《高技术通讯》 EI CAS 北大核心 2020年第3期240-247,共8页 Chinese High Technology Letters

基金国家自然科学基金(U1909203,61527808) 浙江省属高校基本科研业务费专项资金(RF-C2019001) 浙江省重点研发计划(2019C01007)资助项目。

关键词卷积神经网络(CNN) 现场可编程门阵列(FPGA) 模块复用流水线动态定点 convolution neural network(CNN) field programmable gate array(FPGA) module multiplexing pipeline dynamic fixed

分类号 TP183 [自动化与计算机技术—控制理论与控制工程] TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1林军,倪宏,孙鹏,张辉.嵌入式系统流水线资源管理模型[J].高技术通讯,2013,23(9):914-920. 被引量：1
2卢冶,陈瑶,李涛,蔡瑞初,宫晓利.面向边缘计算的嵌入式FPGA卷积神经网络构建方法[J].计算机研究与发展,2018,55(3):551-562. 被引量：47
3胡硕,赵银妹,孙翔.基于卷积神经网络的目标跟踪算法综述[J].高技术通讯,2018,28(3):207-213. 被引量：20
4郭晓丹,孟桥,梁勇.基于Σ-Δ调制的单比特非线性BP人工神经网络的硬件实现[J].高技术通讯,2013,23(12):1316-1322. 被引量：1
5冯煜晶,欧焱,叶笑春,范东睿,谭旭,唐志敏.基于网络负载特征感知的数据流指令调度机制研究[J].高技术通讯,2018,28(11):885-898. 被引量：2
6原魁,路鹏,邹伟.自主移动机器人视觉信息处理技术研究发展现状[J].高技术通讯,2008,18(1):104-110. 被引量：6
7刘勤让,刘崇阳.利用参数稀疏性的卷积神经网络计算优化及其FPGA加速器设计[J].电子与信息学报,2018,40(6):1368-1374. 被引量：23
8吴艳霞,梁楷,刘颖,崔慧敏.深度学习FPGA加速器的进展与趋势[J].计算机学报,2019,42(11):2461-2480. 被引量：63

二级参考文献66

1段勇,徐心和.自主足球机器人视觉系统结构及关键技术[J].东北大学学报（自然科学版）,2006,27(1):9-12. 被引量：8
2Guilherme N D,Avinash C K.Vision for mobile robot navigation:a survey.IEEE Trans on Pattern Analysis and Machine Intelligence,2002,24(2):237-267
3Moravec H.DARPA MARS program research pmgress:Robust navigation by probabilistic volumetric sensing.Carnegie Mellon University Tech Rep,2002
4Bertozzi M,Broggi A,Faseioli A.Vision-based intelligent vehides:State of the art and perspectives.Robotics and Autonomous Systems,2000,32(1):1-16
5Zehang S,Bebis G,Miller R.On-road vehicle detection:a review.IEEE Trans on Pattern Analysis and Machine InteUigence,2006,28(5):694-711
6Campbell J,Sukthankar R,Nourbakhsh I,et al.A robust visual odometry and precipice detection system using consumer-grade monocular vision.In:IEEE International Conference on Robotics and Automation,Barcelona,2005.3421-3427
7Barnes N,Liu ZQ.Kncwledge-based Vision-Guided robots.Berlin:Physica-Verlag,2002
8Malamas E N,Petrakis E G M,Zervakis M,et al.A survey on industrial vision systems,applications and tools.Image and Vision Computing,2003,21(2):171-188
9Treptow A,Cielniak G,Duckett T.Active people recognition using thermal and grey images on a mobile security robot.In:International Conference on Intelligent Robots and Systems,Alberta,2005.2103-2108
10Rowe A,Rosenberg C,Noarbakhsh I.A second generation low cost embedded color vision system.In:IEEE Conference on Computer Vision and Patterm Recognition,San Diego,2005.136-136

共引文献143

1丁祥海,王志会.边缘计算在计算机科学方向的进展研究[J].信息与管理研究,2019,0(6):73-83.
2付兴武,杨哲,姜文涛.因式分解卷积运算的多尺度目标跟踪算法[J].辽宁工程技术大学学报（自然科学版）,2019,38(5):463-471.
3杜忠文,李庚霖,蒋菡,褚江恒,伍俊.基于次级缓存的SDRAM调度策略的研究[J].电子测量技术,2023,46(14):37-42. 被引量：1
4陈峰,卞丽琴.仿盲人摸巷机理的机器人导航方法分析[J].系统仿真技术,2009,5(3):156-160. 被引量：3
5张舰.父亲(外一首)[J].岁月,2000(7):60-60.
6贾松敏,王爽,王丽佳,李秀智.基于双层协作定位机制的移动机器人目标跟踪[J].高技术通讯,2013,23(11):1154-1160. 被引量：3
7谢煌生,刘周林.基于形状匹配的装配定位方法[J].制造技术与机床,2015(5):97-100. 被引量：4
8邓向武,齐龙,马旭,蒋郁,陈学深,刘海云,陈伟烽.基于多特征融合和深度置信网络的稻田苗期杂草识别[J].农业工程学报,2018,34(14):165-172. 被引量：58
9张庭略.基于硬件的神经网络加速[J].通讯世界,2018,0(8):77-79. 被引量：1
10任卫欣.基于FPGA的硬件加速系统[J].电子制作,2018,26(23):73-76. 被引量：1

同被引文献22

1张远洋,罗明愿.一种基于波束输出方位变化特性的信号检测方法[J].声学与电子工程,2014(4):14-17. 被引量：1
2范展,梁国龙,付进,王燕.基于信号子空间重构的鲁棒子区域Frost波束形成[J].物理学报,2015,64(5):234-242. 被引量：3
3李艳红,李自成,孙仕琪.基于STM32单片机的金属物体探测定位器系统的设计与实现[J].仪表技术与传感器,2016(4):63-66. 被引量：19
4赵家敏.一种用于无线传感网中节点供电的系统设计[J].电源技术,2016,40(10):2071-2073. 被引量：4
5刘波.概率计算在通信信号处理系统实现中的运用探讨[J].通讯世界,2017,23(13):61-62. 被引量：2
6刘永永,李国平,左国坤,李雅楠.基于STM32的力传感器信号采集与处理系统设计[J].传感器与微系统,2017,36(7):112-115. 被引量：26
7余子健,马德,严晓浪,沈君成.基于FPGA的卷积神经网络加速器[J].计算机工程,2017,43(1):109-114. 被引量：36
8方敏,周书粤,陈永梅,王红春,邱征,张振冬,肖晨光.故障树结构调整的多值决策图变量排序方法[J].西安电子科技大学学报,2017,44(6):20-25. 被引量：3
9景晨凯,宋涛,庄雷,刘刚,王乐,刘凯伦.基于深度卷积神经网络的人脸识别技术综述[J].计算机应用与软件,2018,35(1):223-231. 被引量：98
10许龙飞,罗丹,周渭,白丽娜,李智奇,苗苗.一种全面响应时间的频率稳定度测量[J].西安电子科技大学学报,2018,45(1):72-75. 被引量：7

引证文献5

1管兆康,张志伟.基于NVDLA与FPGA结合的神经网络加速器平台设计[J].高技术通讯,2021,31(5):479-488. 被引量：1
2屈宝丽.基于低功耗单片机的事件驱动信号处理方法[J].电子设计工程,2021,29(23):175-180. 被引量：2
3张志超,王剑,章隆兵,肖俊华.面向目标检测的卷积神经网络优化方法[J].高技术通讯,2022,32(3):227-238. 被引量：3
4谭会生,肖鑫凯,卿翔.高性能YOLOv3-tiny嵌入式硬件加速器的混合优化设计[J].半导体技术,2025,50(1):55-63.
5谢志豪,李国刚.软硬件协同设计的异构CNN加速器[J].华侨大学学报(自然科学版),2025,46(2):209-216.

二级引证文献6

1姬冠妮.单片机开发应用技巧探讨[J].信息记录材料,2022,23(2):209-211. 被引量：2
2雷鸣,姜罕盛,勾志竟,郭阳.多云架构下的人工智能开发平台设计[J].单片机与嵌入式系统应用,2022,22(7):14-16. 被引量：2
3黄国兵,王淇苇,黄凯,张文星.油罐车阀门状态监测单元设计[J].电子设计工程,2023,31(21):56-59.
4张立国,杨红光,金梅,申前.基于片上系统的可配置卷积神经网络加速器的设计与实现[J].高技术通讯,2024,34(7):744-754. 被引量：1
5特木尔朝鲁,张亚萍.基于卷积神经网络的无线传感器网络链路异常检测算法[J].吉林大学学报（工学版）,2024,54(8):2295-2300. 被引量：1
6刘晨,陆杰,李炼.深度学习程序内存预测方法[J].高技术通讯,2024,34(10):1036-1045.

1房海松,司伟建.基于FPGA的二维谱峰搜索算法硬件架构设计[J].空天防御,2020,3(1):58-64. 被引量：3
2李鹏飞.论高职艺术设计专业项目化课程体系建设[J].新丝路,2019(12):64-64.
3朱德文.电梯群控动态配置的强化学习简化算法[J].中国电梯,2020,31(2):44-49. 被引量：1
4曹建芳,崔红艳,张琦.特征融合AlexNet模型的古代壁画分类[J].中国图象图形学报,2020,25(1):92-101. 被引量：5
5黄华,戴江鹏,王毅,闪鑫,翟明玉,刘广一.基于图数据库的电网CIM/E模型构建及网络拓扑[J].电力系统自动化,2019,43(22):122-129. 被引量：26
6高小全,刘宏君,俞伟国,潘军军.一种应用于线路保护装置的嵌入式行波测距方法[J].浙江电力,2020,39(3):1-7. 被引量：6
7王猛,张新长,王家耀,孙颖,箭鸽,潘翠红.结合随机森林面向对象的森林资源分类[J].测绘学报,2020,49(2):235-244. 被引量：47
8刘金丽,陈钊.高分影像树种分类的最优分割尺度确定方法[J].林业科学,2019,55(11):95-104. 被引量：16
9程晓悦,赵龙章,胡穹,史家鹏.基于密集层和注意力机制的快速语义分割[J].计算机工程,2020,46(4):247-252. 被引量：10
10段宁贵.基于CCQPSO算法的医学图像分割研究[J].信息技术,2020,44(2):15-21. 被引量：2

高技术通讯

2020年第3期

浏览历史

内容加载中请稍等...

基于改进动态配置的FPGA卷积神经网络加速器的优化方法被引量：5

参考文献8

二级参考文献66

共引文献143

同被引文献22

引证文献5

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于改进动态配置的FPGA卷积神经网络加速器的优化方法 被引量：5

参考文献8

二级参考文献66

共引文献143

同被引文献22

引证文献5

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于改进动态配置的FPGA卷积神经网络加速器的优化方法被引量：5