一种基于PYNQ的神经网络模型加速设计

A neural network model acceleration design based on PYNQ

在线阅读下载PDF

导出

摘要针对卷积神经网络存在运算量大、资源要求高的问题,本文提出一种易于在移动端低功耗嵌入式设备上布置的二值化神经网络(Binary Neural Network,BNN)图像分类模型,并提供了其在ARM(Advanced RISC Machines)+FPGA(Field Programmable Gate Array)异构系统上的硬件加速设计。通过将卷积的累乘加运算转化为简单的同或运算(Exclusive NOR,XNOR)和位计数运算(population count,popcount),降低了运算复杂度和片上资源要求;利用数据复用、流水线设计和并行计算提升整体运算速度;针对CIFAR-10数据集进行图像分类识别,利用Vivado HLS工具在FPGA平台上完成该网络模型的部署。在PYNQ-Z2平台上进行测试的实验结果显示,在100 MHz工作频率下,部署在FPGA端的网络模型对任意尺寸的图像输入经过PS(Processing System)端裁剪后整体处理速度可达约631 FPS,运行总时间仅约1.58 ms。 Aiming at the problems of large computational complexity,time-consuming,and high resource requirements of convolutional neural network(CNN),this paper proposes a design scheme of binary neural network(BNN) image classification model running on embedded platforms with limited resources and power consumption in mobile terminals and designs a hardware acceleration design for its implementation on an ARM + FPGA platform.By converting the convolution multiply-accumulate operation into XNOR logic and popcount operations,the computational complexity and on-chip resource requirements are reduced.Data multiplexing,pipeline design,and parallel calculation were utilized to increase overall computation speed.Taking image recognition under the CIFAR-10 data set as an example,We use VIVADO HLS tool to complete the deployment of convolutional neural network model on FPGA platform.The test results on the PYNQ-Z2 platform show that the network model deployed on the FPGA side achieves a processing speed of approximately 631 FPS at a working frequency of 100 MHz,total runtime is only about 1.58 ms for image inputs of any size,after cropping on the processing system(PS) side.

作者魏行健孙泽宇王正斌 WEI Xingjian;SUN Zeyu;WANG Zhengbin(College of Electronic and Optical Engineering,College of Flexible Electronics(Future Technology),Nanjing University of Posts and Telecommunications,Nanjing 210023,China;National Joint Engineering Laboratory of RF Integration and Microassembly Technology,Nanjing 210023,China)

机构地区南京邮电大学电子与光学工程学院、柔性电子(未来技术学院) 射频集成与微组装技术国家地方联合工程实验室

出处《智能计算机与应用》 2025年第1期69-74,共6页 Intelligent Computer and Applications

关键词 FPGA 图像分类神经网络硬件加速设计 FPGA Image classification neural network hard-ware accelerator

分类号 TP274.2 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献5

1易啸,马胜,肖侬.深度学习加速器在不同剪枝策略下的运行优化[J].计算机工程与科学,2023,45(7):1141-1148. 被引量：3
2刘卫明,罗全成,毛伊敏,彭喆.基于Spark和AMPSO的并行深度卷积神经网络优化算法[J].计算机应用研究,2023,40(10):2957-2966. 被引量：3
3李钦祚,肖灯军.基于FPGA的低功耗YOLO加速器设计[J].电子设计工程,2022,30(20):6-12. 被引量：3
4王玉雷,谢凯亮,陈思贇,胡杰,常胜.卷积神经网络硬件加速的通用性设计[J].计算机工程与科学,2023,45(4):577-581. 被引量：1
5许杰,张子恒,王新宇,佟诚,梅青,肖建.一种基于Zynq的CNN加速器设计与实现[J].计算机技术与发展,2021,31(11):108-113. 被引量：5

二级参考文献15

1张兵.遥感大数据时代与智能信息提取[J].武汉大学学报（信息科学版）,2018,43(12):1861-1871. 被引量：104
2杜晓昕,张剑飞,郭媛,金梅.基于柯西-高斯动态消减变异的果蝇优化算法研究[J].计算机工程与科学,2016,38(6):1171-1176. 被引量：17
3张榜,来金梅.一种基于FPGA的卷积神经网络加速器的设计与实现[J].复旦学报（自然科学版）,2018,57(2):236-242. 被引量：15
4刘勤让,刘崇阳.利用参数稀疏性的卷积神经网络计算优化及其FPGA加速器设计[J].电子与信息学报,2018,40(6):1368-1374. 被引量：23
5仇越,马文涛,柴志雷.一种基于FPGA的卷积神经网络加速器设计与实现[J].微电子学与计算机,2018,35(8):68-72. 被引量：11
6窦阳,卿粼波,何小海,廖海鹏.基于FPGA的CNN加速器设计与实现[J].信息技术与网络安全,2019,38(11):96-101. 被引量：6
7侯力秩.DSP中的浮点与定点比较[J].通信电源技术,2020,37(1):105-106. 被引量：3
8王炳辉,何小海,卿粼波,熊淑华.基于FPGA的DMA数据传输系统设计[J].电子设计工程,2020,28(8):20-24. 被引量：21
9徐成琪,洪学海.基于功能保持的特征金字塔目标检测网络[J].模式识别与人工智能,2020,33(6):507-517. 被引量：5
10李欣,张童,厚佳琪,张子昊.基于深度学习的多角度人脸检测方法研究[J].计算机技术与发展,2020,30(9):12-17. 被引量：3

共引文献10

1汪静,何乐生,李忠红,李路迟,杨航.物联网轻量级认证加密算法ASCON的软硬件协同设计[J].物联网学报,2022,6(4):139-148. 被引量：3
2张立博,李昌伟,齐伟,王刚,戚鲁凤.神经网络训练处理器的浮点运算优化架构[J].计算机测量与控制,2023,31(6):176-182.
3何增,朱国权,岳克强.面向神经网络池化层的灵活高效硬件设计[J].计算机工程与应用,2023,59(22):315-321. 被引量：1
4王睿轶,王秀青,刘万明,王永吉,叶晓雅.基于FPGA的移动机器人SNNs走廊场景分类器[J].计算机技术与发展,2023,33(12):32-40.
5赵蕾,夏吉安,吴洋,崔辉.基于Spark平台的分类算法性能比较分析[J].计算机与数字工程,2024,52(3):688-691. 被引量：1
6赖嘉伟,魏洪健,孙科学,王艳.一种基于PYNQ的神经网络加速系统[J].电子设计工程,2024,32(17):16-21. 被引量：1
7何婷,周艳秋,辛春花.基于时空位置关注图神经网络的交通流预测方法[J].计算机应用研究,2024,41(10):2932-2938. 被引量：2
8胡胜,王逸风,易文涛,贺岚晴,宋海娜,刘聪.基于FPGA+ARM异构平台的道路交通目标检测设计[J].无线电通信技术,2024,50(5):1008-1015.
9叶亚峰,张宁,寇金桥,王昕.基于FPGA的VPX型智能加速模块的设计与实现[J].计算机技术与发展,2024,34(10):8-15.
10孙涛,王书浩,王伟.边缘计算在病理图像识别方向的应用[J].中国医学物理学杂志,2025,42(3):328-335.

1廖智超.面向微波遥感的人工智能图像识别技术研究[J].中国科技期刊数据库工业A,2024(12):163-166.
2陈新宇,刘胜,苏尚龙,蒋一菲,韩耀琨,邓义光.铝箔基材去膜装填流水线设计[J].机械制造,2024,62(12):63-65.
3郑兴任,袁子厚,杜焱铭,张红伟.基于改进ResNet50和迁移学习的服饰分类识别[J].纺织工程学报,2024,2(5):51-62.
4应欣,张宁,申思.基于Vision Transformer与迁移学习的裤装廓形识别与分类[J].丝绸,2024,61(11):77-83.
5王铎,刘景磊,严明玉,滕亦涵,韩登科,叶笑春,范东睿.面向处理器微架构设计空间探索的加速方法综述[J].计算机研究与发展,2025,62(1):22-57.

智能计算机与应用

2025年第1期

浏览历史

内容加载中请稍等...

一种基于PYNQ的神经网络模型加速设计

参考文献5

二级参考文献15

共引文献10

相关作者

相关机构

相关主题

浏览历史