期刊文献+
共找到130篇文章
< 1 2 7 >
每页显示 20 50 100
基于GPU的zk-SNARK中多标量乘法的并行计算方法 被引量:1
1
作者 王锋 柴志雷 +2 位作者 花鹏程 丁冬 王宁 《计算机应用研究》 CSCD 北大核心 2024年第6期1735-1742,共8页
针对zk-SNARK(zero-knowledge succinct non-interactive argument of knowledge)中计算最为耗时的多标量乘法(multiscalar multiplication,MSM),提出了一种基于GPU的MSM并行计算方案。首先,对MSM进行细粒度任务分解,提升算法本身的计... 针对zk-SNARK(zero-knowledge succinct non-interactive argument of knowledge)中计算最为耗时的多标量乘法(multiscalar multiplication,MSM),提出了一种基于GPU的MSM并行计算方案。首先,对MSM进行细粒度任务分解,提升算法本身的计算并行性,以充分利用GPU的大规模并行计算能力。采用共享内存对同一窗口下的子MSM并行规约减少了数据传输开销。其次,提出了一种基于底层计算模块线程级任务负载搜索最佳标量窗口的窗口划分方法,以最小化MSM子任务的计算开销。最后,对标量形式转换所用数据存储结构进行优化,并通过数据重叠传输和通信时间隐藏,解决了大规模标量形式转换过程的时延问题。该MSM并行计算方法基于CUDA在NVIDIA GPU上进行了实现,并构建了完整的零知识证明异构计算系统。实验结果表明:所提出的方法相比目前业界最优的cuZK的MSM计算模块获得了1.38倍的加速比。基于所改进MSM的整体系统比业界流行的Bellman提升了186倍,同时比业界最优的异构版本Bellperson提升了1.96倍,验证了方法的有效性。 展开更多
关键词 简洁非交互式零知识证明 多标量乘法 CUDA 异构计算系统 并行计算
在线阅读 下载PDF
LightGCNet:基于轻量化卷积网络的深度色域压缩算法
2
作者 杨晨 徐昊 +2 位作者 朱佳伟 吴秦 柴志雷 《计算机科学与探索》 北大核心 2025年第1期196-210,共15页
色域压缩是大色域向小色域进行转换时保持色彩信息的关键技术。经典算法虽计算快速,但处理结果缺乏细节且没有考虑人眼的感知特性,难以满足人们对色彩品质不断提升的要求。迭代算法处理效果更佳,但极其耗时,无法投入实际应用。针对上述... 色域压缩是大色域向小色域进行转换时保持色彩信息的关键技术。经典算法虽计算快速,但处理结果缺乏细节且没有考虑人眼的感知特性,难以满足人们对色彩品质不断提升的要求。迭代算法处理效果更佳,但极其耗时,无法投入实际应用。针对上述问题,提出了轻量化的深度色域压缩方法,该方法可在逼近迭代算法计算效果的同时保持接近经典算法的速度。为色域压缩算法设计了LightGCNet模型,该网络中的双层卷积由DSC与DW卷积组合而成,相比常规U-Net,参数量与计算复杂度急剧降低。为进一步提高模型先验性,将预训练得到的DW卷积中多个核通道进行重聚焦操作以建立联系,最终权重由重聚焦权重和预训练权重组成。针对色相、明度、彩度这三个色彩属性,设计了色域压缩专用的损失函数。该函数不仅考虑了像素级损失,而且融合了图像感知损失,并联合色彩属性的多尺度信息进行加权,解决了深度色域压缩过程中细节丢失的问题。基于迭代算法生成标签以训练网络,联合学习目标色域特征与图像信息,实现了与迭代算法相当的效果。实验结果表明:该方法与业界经典的SGCK算法相比,iCID值降低了17.08%,SSIM值提高了5.30%。相比常规U-Net模型,LightGCNet参数量减少了82.96%,乘加次数从8.5GFLOPs大幅下降至2.2GFLOPs,使改良模型更适于低端设备部署。该模型在CPU上处理单幅512×512图像仅需0.208s,计算时间比迭代类算法减少99.92%。 展开更多
关键词 色域压缩 轻量化 深度学习 色彩管理
在线阅读 下载PDF
基于OpenCL的超低延迟行情加速系统设计与实现
3
作者 冯一飞 丁楠 +1 位作者 叶钧超 柴志雷 《计算机应用与软件》 北大核心 2025年第3期15-21,共7页
针对量化高频交易中对数据处理的低延迟需求,定制一种超低延迟的行情系统,包含网络通信、数据解码和数据分析三部分功能,并在FPGA上进行实现。对各功能模块进行并行优化,构建全流水架构;对内存架构进行优化设计,提高数据传输速率;使用... 针对量化高频交易中对数据处理的低延迟需求,定制一种超低延迟的行情系统,包含网络通信、数据解码和数据分析三部分功能,并在FPGA上进行实现。对各功能模块进行并行优化,构建全流水架构;对内存架构进行优化设计,提高数据传输速率;使用流接口实现模块间数据传输优化,降低数据处理延迟。实验结果表明:在Alveo U50上最大吞吐率可达38.4 Gbit/s,行情处理延迟最低为678 ns,波动稳定在10 ns间,与软件方案相比,性能提升12倍,吞吐率提升1.87倍,且延迟稳定。 展开更多
关键词 VITIS OPENCL 现场可编程门阵列 高频量化交易 超低延迟 系统开发设计
在线阅读 下载PDF
基于上下文信息增强和深度引导的单目3D目标检测
4
作者 于家艺 吴秦 《浙江大学学报(工学版)》 北大核心 2025年第1期89-99,共11页
为了充分利用单目图像提供的特征信息,提出上下文信息增强和深度引导的单目3D目标检测方法.设计高效的上下文信息增强模块,使用多个大核卷积自适应地增强多尺度目标的上下文信息,利用深度可分离卷积和条形卷积操作有效减少大核卷积的参... 为了充分利用单目图像提供的特征信息,提出上下文信息增强和深度引导的单目3D目标检测方法.设计高效的上下文信息增强模块,使用多个大核卷积自适应地增强多尺度目标的上下文信息,利用深度可分离卷积和条形卷积操作有效减少大核卷积的参数量和计算复杂度.统计分析3D目标框各个属性的预测误差,发现3D目标框的长度和深度属性预测不准确是导致预测框偏差大的主要原因.设计深度误差加权损失函数,在训练过程中进行目标的长度和深度预测监督,提高长度和深度属性的预测精度,进而提升3D预测框的准确性.在KITTI数据集上开展实验,结果表明,所提方法在数据集的多个级别上的平均准确度高于现有的单目3D目标检测方法. 展开更多
关键词 单目3D目标检测 大核卷积 深度可分离卷积 条形卷积 多尺度目标
在线阅读 下载PDF
EACNet:Ensemble adversarial co-training neural network for handling missing modalities in MRI images for brain tumor segmentation
5
作者 RAMADHAN Amran Juma CHEN Jing PENG Junlan 《Journal of Measurement Science and Instrumentation》 2025年第1期11-25,共15页
Brain tumor segmentation is critical in clinical diagnosis and treatment planning.Existing methods for brain tumor segmentation with missing modalities often struggle when dealing with multiple missing modalities,a co... Brain tumor segmentation is critical in clinical diagnosis and treatment planning.Existing methods for brain tumor segmentation with missing modalities often struggle when dealing with multiple missing modalities,a common scenario in real-world clinical settings.These methods primarily focus on handling a single missing modality at a time,making them insufficiently robust for the additional complexity encountered with incomplete data containing various missing modality combinations.Additionally,most existing methods rely on single models,which may limit their performance and increase the risk of overfitting the training data.This work proposes a novel method called the ensemble adversarial co-training neural network(EACNet)for accurate brain tumor segmentation from multi-modal magnetic resonance imaging(MRI)scans with multiple missing modalities.The proposed method consists of three key modules:the ensemble of pre-trained models,which captures diverse feature representations from the MRI data by employing an ensemble of pre-trained models;adversarial learning,which leverages a competitive training approach involving two models;a generator model,which creates realistic missing data,while sub-networks acting as discriminators learn to distinguish real data from the generated“fake”data.Co-training framework utilizes the information extracted by the multimodal path(trained on complete scans)to guide the learning process in the path handling missing modalities.The model potentially compensates for missing information through co-training interactions by exploiting the relationships between available modalities and the tumor segmentation task.EACNet was evaluated on the BraTS2018 and BraTS2020 challenge datasets and achieved state-of-the-art and competitive performance respectively.Notably,the segmentation results for the whole tumor(WT)dice similarity coefficient(DSC)reached 89.27%,surpassing the performance of existing methods.The analysis suggests that the ensemble approach offers potential benefits,and the adversarial co-training contributes to the increased robustness and accuracy of EACNet for brain tumor segmentation of MRI scans with missing modalities.The experimental results show that EACNet has promising results for the task of brain tumor segmentation of MRI scans with missing modalities and is a better candidate for real-world clinical applications. 展开更多
关键词 deep learning magnetic resonance imaging(MRI) medical image analysis semantic segmentation segmentation accuracy image synthesis
在线阅读 下载PDF
核协同表示下的多特征融合场景识别 被引量:7
6
作者 宗海燕 吴秦 +1 位作者 王田辰 张淮 《计算机科学与探索》 CSCD 北大核心 2019年第6期1038-1048,共11页
针对复杂场景识别中单一特征提供信息不充分这一问题情况,提出一种多尺度远距离点差值统计变换特征。通过Gabor滤波获得图像的多尺度特征信息,在像素图和滤波图上分别提取改进的远距离点差值统计变换特征,从而生成多尺度描述子,最后将... 针对复杂场景识别中单一特征提供信息不充分这一问题情况,提出一种多尺度远距离点差值统计变换特征。通过Gabor滤波获得图像的多尺度特征信息,在像素图和滤波图上分别提取改进的远距离点差值统计变换特征,从而生成多尺度描述子,最后将多尺度统计变换特征和视觉词袋模型特征通过核协同表示融合后进行场景分类。该方法充分考虑了尺度信息和远距离点信息,解决了单一特征区分度低的问题。算法在两个标准数据集上进行对比实验,结果表明所提算法取得了较好的识别效果。 展开更多
关键词 场景分类 多尺度 统计特征 协同表示
在线阅读 下载PDF
几何显著变化的表情识别特征构造 被引量:1
7
作者 王田辰 吴秦 宗海燕 《计算机科学与探索》 CSCD 北大核心 2019年第7期1227-1238,共12页
人脸表情作为人类情感的重要传达方式,近年来作为情感计算的重要组成部分,人脸表情识别吸引了很多学者的关注。与其他模式识别的问题类似,构造更为有效的统计特征是解决人脸表情识别的关键所在。同时,由于不同种类的特征对于模型性能的... 人脸表情作为人类情感的重要传达方式,近年来作为情感计算的重要组成部分,人脸表情识别吸引了很多学者的关注。与其他模式识别的问题类似,构造更为有效的统计特征是解决人脸表情识别的关键所在。同时,由于不同种类的特征对于模型性能的贡献不同,有效地利用不同特征对于性能的提升也至关重要。根据几何显著变化筛选标注点以形成几何特征,并根据几何特征构造特定的块形成形态特征;后采用多核多特征融合方法进行表情识别。通过在公开数据集(CK+)和自建数据集(JNFE)上的实验,和一些视频序列表情识别方法对比,分别获得了96.90%和92.85%的准确率,证明了所提方法的有效性。 展开更多
关键词 面部表情识别 纹理特征 几何特征 多核融合
在线阅读 下载PDF
融合注意力与时域多尺度卷积的手势识别算法 被引量:4
8
作者 毛力 张艺楠 孙俊 《计算机应用研究》 CSCD 北大核心 2022年第7期2196-2202,共7页
针对基于深度学习的动态手势识别方法网络规模庞大、提取的时空特征尺度单一、有效特征的提取能力不足等问题,提出了一种深度网络框架。首先,使用时域多尺度信息融合的时空卷积模块改进3D残差网络结构,大幅度缩小网络规模,获得多种尺度... 针对基于深度学习的动态手势识别方法网络规模庞大、提取的时空特征尺度单一、有效特征的提取能力不足等问题,提出了一种深度网络框架。首先,使用时域多尺度信息融合的时空卷积模块改进3D残差网络结构,大幅度缩小网络规模,获得多种尺度的时空感受野特征;其次,引入一种全局信息同步的时空特征通道注意力机制,使用极少量参数构建特征图通道之间的全局依赖关系,使模型更加高效地获取动态手势的关键特征。在自建手势数据集SHC和公开手势数据集SKIG上的实验结果显示,提出的手势识别方法参数量更少且多尺度时空特征提取能力强,识别率高于目前的主流算法。 展开更多
关键词 深度学习 动态手势识别 多尺度时空特征 注意力机制
在线阅读 下载PDF
强化类间区分的深度残差表情识别网络 被引量:5
9
作者 黄浩 葛洪伟 《计算机科学与探索》 CSCD 北大核心 2022年第8期1842-1849,共8页
深度人脸表情识别是神经网络应用于模式识别上一项极具挑战性的任务。相对于身份认证和特征点识别等人脸识别任务,表情识别任务中存在着大量的冗余信息,要得到好的效果,需要更精确的分类。多数研究关注点在数据的泛化性和网络结构上,而... 深度人脸表情识别是神经网络应用于模式识别上一项极具挑战性的任务。相对于身份认证和特征点识别等人脸识别任务,表情识别任务中存在着大量的冗余信息,要得到好的效果,需要更精确的分类。多数研究关注点在数据的泛化性和网络结构上,而忽视了数据的类间关系。提出了一种基于类间分析的深度残差表情识别网络RMRnet。首先,将数据通过骨干网络Resnet18得到混淆矩阵,进一步得到召回率矩阵分析类间关系;然后,凭借类间关系设计网络结构分支,进一步区分强联系类,设计补充支路平衡弱联系类;最后,将分支添加到骨干网络的相应位置,得到RMRnet网络模型。在流行的大型数据库上,与基准方法和近年来的先进方法的对比实验结果表明,提出的方法相较于基准方法效果良好,在一众先进方法中也有很强的竞争力。 展开更多
关键词 表情识别 神经网络 混淆矩阵 类间关联
在线阅读 下载PDF
哈希算法异构可重构高能效计算系统研究 被引量:3
10
作者 郑博文 聂一 柴志雷 《应用科学学报》 CAS CSCD 北大核心 2023年第6期1031-1045,共15页
针对应用场景中不同哈希算法乃至多哈希算法组合的高速计算需求,纯软件方式难以满足性能需求,基于FPGA或ASIC的硬件方式又面临灵活性不足的问题,设计了一种异构且加速端硬件可重构的哈希算法高能效计算系统。计算系统由算法硬件加速模... 针对应用场景中不同哈希算法乃至多哈希算法组合的高速计算需求,纯软件方式难以满足性能需求,基于FPGA或ASIC的硬件方式又面临灵活性不足的问题,设计了一种异构且加速端硬件可重构的哈希算法高能效计算系统。计算系统由算法硬件加速模块、数据传输模块、多线程管理模块实现,并且通过硬件的动态可重构设计提升了计算能效。实验结果表明,在Intel Stratix10 FPGA异构计算平台上,针对加解密计算,选择MD5、SHA-1、SHA-256、SHA-512和RIPEMD-160算法作为测试对象,所实现的系统相比Intel Core I7-10700CPU,最高可获得18.7倍的性能提升和34倍的能效提升,相比NVIDIA GTX 1650 SUPER GPU,最高可获得2倍的性能提升和5.6倍的能效提升。 展开更多
关键词 异构计算 哈希算法 SHA-256 硬件加速 现场可编程逻辑门阵列
在线阅读 下载PDF
基于多级别特征感知网络的中文命名实体识别 被引量:2
11
作者 宋威 周俊昊 《中文信息学报》 CSCD 北大核心 2022年第9期84-92,共9页
当前中文命名实体识别方法仅采用字级别或词级别特征方法进行识别,不能兼顾字和词级别的优点,难以获取足够的字形或者词义信息。针对此问题,该文提出一种基于多级别特征感知网络的中文命名实体识别方法。首先提出一种双通道门控卷积神... 当前中文命名实体识别方法仅采用字级别或词级别特征方法进行识别,不能兼顾字和词级别的优点,难以获取足够的字形或者词义信息。针对此问题,该文提出一种基于多级别特征感知网络的中文命名实体识别方法。首先提出一种双通道门控卷积神经网络,通过感知字级别特征,在减少了未登录词的同时,也表示了字的字形信息。同时,为了获取词语的词义信息,该文在词级别的特征中嵌入对应位置信息。为了赋予实体更多的权重,该文利用自注意力机制感知带有位置信息的词级别特征。进一步,将上述得到的字级别和词级别信息融合,全面表示句子的语义信息。由于采用字词结合的方法容易产生冗余信息,该文设计一种门控机制的Highway网络,来过滤冗余信息,减少冗余信息对命名实体识别的影响,再结合条件随机场学习到句子中的约束条件实现中文命名实体的识别。实验结果表明,该文所提出的方法总体上优于目前主流的中文命名实体识别方法。 展开更多
关键词 命名实体识别 双通道门控卷积 自注意力机制 Highway网络
在线阅读 下载PDF
基于FPGA的Izhikevich神经元定制计算方法 被引量:1
12
作者 叶钧超 徐聪 +1 位作者 黄尧 柴志雷 《计算机工程》 CAS CSCD 北大核心 2023年第12期35-45,共11页
脉冲神经网络作为第三代神经网络,其工作机理与生物大脑更接近,层内连接与反向连接的复杂拓扑结构具有解决复杂问题的潜力。神经元和突触是脉冲神经网络中最基本的计算单元,相比于带泄露积分触发神经元模型,Izhikevich神经元模型能通过... 脉冲神经网络作为第三代神经网络,其工作机理与生物大脑更接近,层内连接与反向连接的复杂拓扑结构具有解决复杂问题的潜力。神经元和突触是脉冲神经网络中最基本的计算单元,相比于带泄露积分触发神经元模型,Izhikevich神经元模型能通过模拟出更多的生物脉冲现象来支持更广泛的类脑仿真计算,但Izhikevich神经元模型的计算复杂度更高,基于其搭建的脉冲神经网络存在低性能、高功耗的问题。提出一种基于FPGA的Izhikevich神经元定制计算方法。首先,通过研究脉冲神经网络中Izhikevich神经元各参数的取值范围以及平衡膜电位的相对误差与资源消耗,设计一套混合精度的定点化方案;其次,针对单个神经元,通过平衡神经元更新计算方程的数据路径实现最小化流水;再次,针对整体脉冲神经网络,设计并行度可扩展的计算架构以适应不同规模的FPGA平台;最后,把该定制计算方法用于经典的NEST仿真器加速。实验结果表明,相比于i7-10700 CPU,经典的丘脑外侧膝状核网络模型和液体状态机模型在ZCU102上的性能平均提升2.26和3.02倍,能效比平均提升8.06和10.8倍。 展开更多
关键词 Izhikevich神经元 混合精度 脉冲神经网络 定制计算 FPGA
在线阅读 下载PDF
基于PredRNN的蓝藻时空序列预测实验方案设计 被引量:1
13
作者 罗晓清 王培睿 +1 位作者 张战成 吴小俊 《实验技术与管理》 CAS 北大核心 2023年第8期40-48,共9页
该文采用Pred RNN技术设计了蓝藻时空序列预测综合实验方案,可为湖泊蓝藻治理提供有效参考。实验利用Python语言,在Pred RNN算法基础上,构建蓝藻时空序列预测系统。整个实验方案包括蓝藻NDVI(归一化植被指数)图像数据预处理、蓝藻数据... 该文采用Pred RNN技术设计了蓝藻时空序列预测综合实验方案,可为湖泊蓝藻治理提供有效参考。实验利用Python语言,在Pred RNN算法基础上,构建蓝藻时空序列预测系统。整个实验方案包括蓝藻NDVI(归一化植被指数)图像数据预处理、蓝藻数据集划分、时空序列预测模型训练、预测模型测试与彩色化显示5个模块,并通过对比实验说明了PredRNN算法用于蓝藻时空序列预测的可行性和实用性。该实验方案的设计可帮助学生熟练掌握Python编程技能,有利于提升学生对图像处理与计算机视觉知识的综合应用能力,实现计算机视觉课程教学理论至实践的延伸,强化教学与科研的有机结合,提升学生的科研素养,促进计算机视觉课程的建设。 展开更多
关键词 计算机视觉 时空序列预测 蓝藻预测实验 PredRNN 案例驱动教学
在线阅读 下载PDF
基于Vitis AI的可行驶区域检测定制计算系统设计 被引量:1
14
作者 李慧琳 柴志雷 《现代信息科技》 2022年第1期73-78,共6页
针对基于卷积神经网络的可行驶区域检测方法计算耗时长、实时性差等问题,基于Vitis AI为其设计了一种定制计算系统,并通过采用模型定点化、网络剪枝、硬件定制等优化方法,实现了对可行驶区域检测方法的高效计算。实验结果表明,在Xilinx ... 针对基于卷积神经网络的可行驶区域检测方法计算耗时长、实时性差等问题,基于Vitis AI为其设计了一种定制计算系统,并通过采用模型定点化、网络剪枝、硬件定制等优化方法,实现了对可行驶区域检测方法的高效计算。实验结果表明,在Xilinx ZCU102异构计算平台上,可编程逻辑部分的工作频率为200 MHz时,所实现的可行使区域检测系统的识别帧率可达到46 FPS,计算性能可达903 GOPS,能效比为50.45 GOPS/W,可以较好地满足实际系统的需求。 展开更多
关键词 现场可编程门阵列 Vitis AI 可行驶区域检测 定制计算系统 卷积神经网络
在线阅读 下载PDF
基于异构计算平台的NEST类脑仿真器设计与实现
15
作者 朱铮皓 柴志雷 +1 位作者 华夏 徐聪 《微电子学与计算机》 2022年第7期54-62,共9页
类脑计算领域目前的研究主要聚焦于如何进行高性能且低功耗的大规模类脑仿真.NEST类脑仿真器应用生态完整,可支持大规模仿真并且具有良好的可扩展性,是目前类脑计算领域中应用最为广泛的仿真器.针对NEST仿真器进行大规模仿真时运行速度... 类脑计算领域目前的研究主要聚焦于如何进行高性能且低功耗的大规模类脑仿真.NEST类脑仿真器应用生态完整,可支持大规模仿真并且具有良好的可扩展性,是目前类脑计算领域中应用最为广泛的仿真器.针对NEST仿真器进行大规模仿真时运行速度慢、运行功耗高的问题,设计并实现了基于异构计算平台的NEST类脑仿真器.本设计采用硬件加速神经元更新、数据重排序设计、多线程设计、软硬件协同设计等方法优化了系统整体性能,在保证NEST仿真器良好应用生态的同时获得更高的计算能效.通过在Xilinx ZCU102异构计算平台上实现该仿真器,实验结果表明:在对经典的类脑应用皮质层视觉模型进行仿真时,神经元更新部分性能是AMD3600X的11.9倍,PYNQ集群的1.2倍,能效是AMD3600X的57.9倍、PYNQ集群的3.1倍;NEST仿真器整体性能是AMD3600X的2.0倍,PYNQ集群的2.1倍,能效是AMD3600X的10.1倍、PYNQ集群的5.8倍,为基于NEST进行大规模类脑仿真提供了一种更高能效的方式. 展开更多
关键词 NEST仿真器 异构计算平台 可编程逻辑门阵列 类脑计算 软硬件协同优化
在线阅读 下载PDF
基于FPGA的类脑计算平台通用系统架构设计
16
作者 朱铮皓 华夏 +1 位作者 徐聪 柴志雷 《单片机与嵌入式系统应用》 2022年第6期18-21,共4页
目前,类脑计算所面临的最具挑战性的问题之一是如何高性能且低功耗地进行大规模类脑仿真。本文选用应用生态完整、支持大规模仿真的NEST类脑仿真器,针对NEST类脑仿真器可移植性差、仿真速度慢等问题,设计了一种ARM+FPGA的类脑计算平台... 目前,类脑计算所面临的最具挑战性的问题之一是如何高性能且低功耗地进行大规模类脑仿真。本文选用应用生态完整、支持大规模仿真的NEST类脑仿真器,针对NEST类脑仿真器可移植性差、仿真速度慢等问题,设计了一种ARM+FPGA的类脑计算平台的通用性系统架构。本设计采用硬件加速神经元计算模块、通用数据传输接口设计、软硬件协同设计等方法提升了NEST类脑仿真器的性能。在3款类脑计算平台上证明了该架构的可行性,为类脑计算平台提供了一种通用解决方案。 展开更多
关键词 类脑计算 脉冲神经网络 软硬件协同设计 可编程逻辑门阵列
在线阅读 下载PDF
YOLOv4-Tiny的改进轻量级目标检测算法 被引量:11
17
作者 何湘杰 宋晓宁 《计算机科学与探索》 CSCD 北大核心 2024年第1期138-150,共13页
目标检测是深度学习的重要分支领域,大量的边缘设备需要轻量级的目标检测算法,但现有的轻量级的通用目标检测算法存在检测精度低、检测速度慢的问题。针对这一问题,提出了一种基于注意力机制的YOLOv4-Tiny的改进算法。调整了原有的YOLOv... 目标检测是深度学习的重要分支领域,大量的边缘设备需要轻量级的目标检测算法,但现有的轻量级的通用目标检测算法存在检测精度低、检测速度慢的问题。针对这一问题,提出了一种基于注意力机制的YOLOv4-Tiny的改进算法。调整了原有的YOLOv4-Tiny算法的主干网络的结构,引入了ECA注意力机制,使用空洞卷积改进了传统的SPP结构为DC-SPP结构,并提出了CSATT注意力机制,与特征融合网络PAN形成CSATT-PAN的颈部网络,提高了网络的特征融合能力。提出的YOLOv4-CSATT算法和原始YOLOv4-Tiny算法相比,在检测速度基本持平的情况下,对于信息的敏感程度以及分类的准确程度有了明显的提高,在VOC数据集上精度提高了12.3个百分点,在COCO数据集上高出了6.4个百分点。在VOC数据集上,相比Faster RCNN、SSD、Efficientdet-d1、YOLOv3-Tiny、YOLOv4-MobileNetv1、YOLOv4-MobileNetv2、PP-YOLO算法在精度上分别高出3.3、5.5、6.3、17.4、10.3、0.9和0.6个百分点,在召回率上分别高出2.8、7.1、4.2、18.0、12.2、2.1和4.0个百分点,FPS达到94。通过提出CSATT注意力机制提高了模型对于空间的通道信息的捕捉能力,并结合ECA注意力机制和特征融合金字塔算法,提高了模型的特征融合的能力以及目标检测精度。 展开更多
关键词 目标检测 YOLOv4-Tiny算法 注意力机制 轻量级神经网络 特征融合
在线阅读 下载PDF
结合卷积神经网络与多层感知机的渐进式多阶段图像去噪算法 被引量:3
18
作者 薛金强 吴秦 《计算机科学》 CSCD 北大核心 2024年第4期243-253,共11页
现有基于深度学习的图像去噪方法中,在网络架构层面存在单阶段网络特征表达能力不足而难以在复杂场景下重构清晰图像,以及多阶段网络内部特征连接不紧密而容易丢失原始图像细节的问题。在基础构建块层面,存在卷积层难以处理较大噪声级... 现有基于深度学习的图像去噪方法中,在网络架构层面存在单阶段网络特征表达能力不足而难以在复杂场景下重构清晰图像,以及多阶段网络内部特征连接不紧密而容易丢失原始图像细节的问题。在基础构建块层面,存在卷积层难以处理较大噪声级别下的跨层次特征,以及全连接层难以捕获图像邻域空间细节的问题。为解决以上问题,从两方面提出解决方法:一方面,在架构层面提出新颖的跨阶段门控特征融合,从而更好地连接一阶段网络的浅层特征与二阶段的深层特征,促进信息流的交互并使得去噪网络内部关联更为紧密,同时避免丢失原始像素细节;另一方面,在基础构建块层面提出结合卷积神经网络和多层感知机特性的双轴特征偏移块,作用于低分辨率多通道数的特征图,从而缓解卷积网络在复杂噪声场景下难以捕获跨层次特征依赖关系的问题,对于高分辨率、少通道数的特征图,使用卷积网络以充分提取噪声图像的空间邻域依赖关系。大量定量与定性实验表明,所提算法在真实世界图像去噪和高斯噪声去除任务中,都以较小的参数量和计算代价取得了最佳的PSNR和SSIM。 展开更多
关键词 图像处理 图像去噪 深度学习 卷积神经网络 多层感知机 特征融合
在线阅读 下载PDF
融合增量学习与Transformer模型的股价预测研究 被引量:3
19
作者 陈东洋 毛力 《计算机科学与探索》 CSCD 北大核心 2024年第7期1889-1899,共11页
股票价格预测一直是金融研究和量化投资共同关注的重点话题。当前股价预测的深度学习模型多数基于批处理学习设置,这要求训练数据集是先验的,这些模型面对实时的数据流预测是不可扩展的,当数据分布动态变化时模型的预测效果将会下降。... 股票价格预测一直是金融研究和量化投资共同关注的重点话题。当前股价预测的深度学习模型多数基于批处理学习设置,这要求训练数据集是先验的,这些模型面对实时的数据流预测是不可扩展的,当数据分布动态变化时模型的预测效果将会下降。针对现有研究对非平稳股票价格数据预测精度不佳的问题,提出一种基于增量学习和持续注意力机制的在线股价预测模型(Increformer),通过持续自注意力机制挖掘特征变量之间的时序依赖关系,采用持续归一化机制处理数据非平稳问题,基于弹性权重巩固的增量训练策略获取数据流中的新知识,提高预测精度。在股票市场的股指与个股价格序列中选取五个公开数据集进行实验。实验结果表明,Increformer模型能够有效挖掘数据的时序信息以及特征维度的关联信息从而提高股票价格的预测性能。通过消融实验评估了Increformer模型的持续归一化机制、持续注意力机制以及增量训练策略的效果及必要性,验证了所提模型的准确性与普适性,Increformer模型能够有效捕捉股票价格序列的趋势与波动。 展开更多
关键词 时间序列预测 Transformer模型 增量学习 持续注意力机制
在线阅读 下载PDF
zk-SNARK中数论变换的硬件加速方法研究 被引量:2
20
作者 赵海旭 柴志雷 +2 位作者 花鹏程 王锋 丁冬 《计算机科学与探索》 CSCD 北大核心 2024年第2期538-552,共15页
简洁非交互式零知识证明能够生成长度固定的证明并快速进行验证,极大地推动了零知识证明在数字签名、区块链及分布式存储等领域的应用。但其证明的生成过程极其耗时且需要被频繁调用,其中数论变换是证明生成过程的主要运算之一。然而现... 简洁非交互式零知识证明能够生成长度固定的证明并快速进行验证,极大地推动了零知识证明在数字签名、区块链及分布式存储等领域的应用。但其证明的生成过程极其耗时且需要被频繁调用,其中数论变换是证明生成过程的主要运算之一。然而现有的通用数论变换硬件加速方法难以满足其在简洁非交互式零知识证明中大规模、高位宽的要求。针对该问题,提出一种数论变换多级流水硬件计算架构。针对高位宽计算需求对高位模运算进行优化,设计了低时延蒙哥马利模乘单元;为了加速大规模计算,通过二维子任务划分将大规模数论变换任务划分为小规模独立子任务,并通过消除数据依赖实现了子任务间计算流水;在子任务多轮蝶形运算之间采用数据重排机制,有效缓解了访存需求并实现了不同步长蝶形运算间的计算流水。所提出的数论变换计算架构可以根据现场可编程门阵列(FPGA)片上资源灵活扩展,方便部署在不同规模的FPGA上以获得最大加速效果。所提出的硬件架构使用高层次综合(HLS)开发并基于OpenCL框架在AMD Xilinx Alveo U50实现了整套异构加速系统。实验结果表明,相比于PipeZK中的数论变换加速模块,该方法获得了1.95倍的加速比;在运行当前主流的简洁非交互式零知识证明开源项目bellman时,相比于AMD Ryzen 95900X单核及12核分别获得了27.98倍和1.74倍的加速比,并分别获得了6.9倍、6倍的能效提升。 展开更多
关键词 现场可编程门阵列(FPGA) 简洁非交互式零知识证明(zk-SNARK) 模乘 数论变换 硬件加速
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部