期刊文献+
共找到109篇文章
< 1 2 6 >
每页显示 20 50 100
A method based on vector type for sparse storage and quick access to projection matrix
1
作者 杨娟 侯慧玲 石浪 《Journal of Measurement Science and Instrumentation》 CAS CSCD 2015年第1期53-56,共4页
For sparse storage and quick access to projection matrix based on vector type, this paper proposes a method to solve the problems of the repetitive computation of projection coefficient, the large space occupation and... For sparse storage and quick access to projection matrix based on vector type, this paper proposes a method to solve the problems of the repetitive computation of projection coefficient, the large space occupation and low retrieval efficiency of projection matrix in iterative reconstruction algorithms, which calculates only once the projection coefficient and stores the data sparsely in binary format based on the variable size of library vector type. In the iterative reconstruction process, these binary files are accessed iteratively and the vector type is used to quickly obtain projection coefficients of each ray. The results of the experiments show that the method reduces the memory space occupation of the projection matrix and the computation of projection coefficient in iterative process, and accelerates the reconstruction speed. 展开更多
关键词 projection matrix sparse storage quick access vector type
在线阅读 下载PDF
Performance Prediction Based on Statistics of Sparse Matrix-Vector Multiplication on GPUs 被引量:1
2
作者 Ruixing Wang Tongxiang Gu Ming Li 《Journal of Computer and Communications》 2017年第6期65-83,共19页
As one of the most essential and important operations in linear algebra, the performance prediction of sparse matrix-vector multiplication (SpMV) on GPUs has got more and more attention in recent years. In 2012, Guo a... As one of the most essential and important operations in linear algebra, the performance prediction of sparse matrix-vector multiplication (SpMV) on GPUs has got more and more attention in recent years. In 2012, Guo and Wang put forward a new idea to predict the performance of SpMV on GPUs. However, they didn’t consider the matrix structure completely, so the execution time predicted by their model tends to be inaccurate for general sparse matrix. To address this problem, we proposed two new similar models, which take into account the structure of the matrices and make the performance prediction model more accurate. In addition, we predict the execution time of SpMV for CSR-V, CSR-S, ELL and JAD sparse matrix storage formats by the new models on the CUDA platform. Our experimental results show that the accuracy of prediction by our models is 1.69 times better than Guo and Wang’s model on average for most general matrices. 展开更多
关键词 sparse matrix-vector MULTIPLICATION Performance Prediction GPU Normal DISTRIBUTION UNIFORM DISTRIBUTION
在线阅读 下载PDF
TEB:GPU上矩阵分解重构的高效SpMV存储格式 被引量:1
3
作者 王宇华 张宇琪 +2 位作者 何俊飞 徐悦竹 崔环宇 《计算机科学与探索》 CSCD 北大核心 2024年第4期1094-1108,共15页
稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的... 稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的计算冗余,节约存储空间,但存在着负载不均衡的问题,浪费了计算资源。针对上述问题,对近年来效果良好的存储格式进行了研究,提出了一种逐行分解重组存储格式——TEB(threshold-exchangeorder block)格式。该格式采用启发式阈值选择算法确定合适分割阈值,并结合基于重排序的行归并算法,对稀疏矩阵进行重构分解,使得块与块之间非零元个数尽可能得相近,其次结合CUDA(computer unified device architecture)线程技术,提出了基于TEB存储格式的子块间并行SpMV算法,能够合理分配计算资源,解决负载不均衡问题,从而提高SpMV并行计算效率。为了验证TEB存储格式的有效性,在NVIDIA Tesla V100平台上进行实验,结果表明TEB相较于PBC(partition-block-CSR)、AMF-CSR(adaptive multi-row folding of CSR)、CSR-Scalar(compressed sparse row-scalar)和CSR5(compressed sparse row 5)存储格式,在SpMV的时间性能方面平均可提升3.23、5.83、2.33和2.21倍;在浮点计算性能方面,平均可提高3.36、5.95、2.29和2.13倍。 展开更多
关键词 稀疏矩阵向量乘法(spmv) 重新排序 CSR格式 负载均衡 存储格式 图形处理器(GPU)
在线阅读 下载PDF
DRM:基于迭代归并策略的GPU并行SpMV存储格式
4
作者 王宇华 何俊飞 +2 位作者 张宇琪 徐悦竹 崔环宇 《计算机工程与科学》 CSCD 北大核心 2024年第3期381-394,共14页
稀疏矩阵向量乘(SpMV)在线性系统的求解问题中具有重要意义,是科学计算和工程实践中的核心问题之一,其性能高度依赖于稀疏矩阵的非零分布。稀疏对角矩阵是一类特殊的稀疏矩阵,其非零元素按照对角线的形式密集排列。针对稀疏对角矩阵,在... 稀疏矩阵向量乘(SpMV)在线性系统的求解问题中具有重要意义,是科学计算和工程实践中的核心问题之一,其性能高度依赖于稀疏矩阵的非零分布。稀疏对角矩阵是一类特殊的稀疏矩阵,其非零元素按照对角线的形式密集排列。针对稀疏对角矩阵,在GPU平台上提出的多种存储格式虽然使SpMV性能有所提升,但仍存在零填充和负载不平衡的问题。针对上述问题,提出了一种DRM存储格式,利用基于固定阈值的矩阵划分策略和基于迭代归并的矩阵重构策略,实现了少量零填充和块间负载平衡。实验结果表明,在NVIDIA■ Tesla■ V100平台上,相比于DIA、HDC、HDIA和DIA-Adaptive格式,在时间性能方面,该存储格式分别取得了20.76,1.94,1.13和2.26倍加速;在浮点计算性能方面,分别提高了1.54,5.28,1.13和1.94倍。 展开更多
关键词 GPU spmv 稀疏对角矩阵 零填充 负载平衡
在线阅读 下载PDF
SpMV计算的ARM和FPGA异构加速器设计
5
作者 朱明达 薛济擎 艾纯瑶 《电讯技术》 北大核心 2024年第2期302-309,共8页
针对稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)在边缘端实施效率不高的问题,以稀疏矩阵的存储格式、SpMV的现场可编程门阵列(Field Programmable Gate Array,FPGA)加速为研究对象,提出了一种多端口改进的行压缩存储格... 针对稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)在边缘端实施效率不高的问题,以稀疏矩阵的存储格式、SpMV的现场可编程门阵列(Field Programmable Gate Array,FPGA)加速为研究对象,提出了一种多端口改进的行压缩存储格式(Modified Compressed Sparse Row Format,MCSR)与ARM+FPGA架构任务级数据级硬件优化相结合的加速方法。使用多个端口并行存取数据来提高计算并行度;使用数据流、循环流水实现循环间、循环内的并行加速;使用数组分割、流传输实现数据的细粒度并行缓存与计算;使用ARM+FPGA架构,ARM完成对系统的控制,将计算卸载到FPGA并行加速。实验结果表明,并行加速优化后的ARM+FPGA方案相较于单ARM方案最高可达10倍的加速效果,而且增加的资源消耗在可接受范围内,矩阵规模越大非零值越多加速效果越明显。研究成果在边缘端实施SpMV计算方面有一定实用价值。 展开更多
关键词 稀疏矩阵向量乘(spmv) 异构加速器 硬件加速
在线阅读 下载PDF
HVMS:基于混合向量化的SpMV优化机制
6
作者 颜志远 解壁伟 包云岗 《计算机研究与发展》 EI CSCD 北大核心 2024年第12期2969-2984,共16页
在科学计算和系统工程等领域,稀疏矩阵向量乘(sparse matrix-vector multiplication,SpMV)占据着极其重要的位置.受限于矩阵稀疏性所导致的访存不规则性,向量优化一直是SpMV的难点.针对此问题,进行深入分析并且总结影响SpMV向量化效率... 在科学计算和系统工程等领域,稀疏矩阵向量乘(sparse matrix-vector multiplication,SpMV)占据着极其重要的位置.受限于矩阵稀疏性所导致的访存不规则性,向量优化一直是SpMV的难点.针对此问题,进行深入分析并且总结影响SpMV向量化效率的主要因素.除却稀疏矩阵内非零元分布的不规则,不同稀疏矩阵之间的非零元分布特征亦有明显不同,导致单一的向量优化策略难以适用于多种不同特征的稀疏矩阵.另一方面,多样化向量硬件在向量特性和指令上的差异,影响了SpMV向量优化方法的通用性.把不规则的稀疏矩阵映射到规则的向量硬件上进行计算,是SpMV向量化面临的最主要挑战.基于此,提出一种基于混合向量化方法的SpMV优化机制(hybrid vectorization-optimized mechanism of SpMV,HVMS).HVMS首先对向量硬件的特性进行抽象建模,并基于抽象出的基本操作,设计相应的规则指导稀疏矩阵进行规则化转换.按照不同的矩阵特征,HVMS将稀疏矩阵划分为不同的部分,弱化稀疏矩阵的不规则程度,并引入不同的优化策略最大化SpMV的向量化效率,从而提升性能.基于Intel Xeon平台,在30个常用稀疏矩阵上对HVMS进行实验分析.结果表明,相比现有代表性工作如CVR,SELL-C-σ,Intel MKL,HVMS分别获得1.60倍、1.72倍和1.93倍的平均加速比. 展开更多
关键词 稀疏矩阵向量乘 向量优化 稀疏矩阵 SIMD 多核系统
在线阅读 下载PDF
一种不规则稀疏矩阵的SpMV方法
7
作者 施禹 董攀 张利军 《计算机工程与科学》 CSCD 北大核心 2024年第7期1175-1184,共10页
稀疏矩阵-向量乘法SpMV是高性能计算领域的关键算子之一,在新兴的深度学习领域中有着重要应用。现有SpMV算子通常采用行列相等的稀疏矩阵,而对于不规则形状稀疏矩阵(行数与列数不等)的研究仍存在空缺,值得进一步深入探讨。相比于行列相... 稀疏矩阵-向量乘法SpMV是高性能计算领域的关键算子之一,在新兴的深度学习领域中有着重要应用。现有SpMV算子通常采用行列相等的稀疏矩阵,而对于不规则形状稀疏矩阵(行数与列数不等)的研究仍存在空缺,值得进一步深入探讨。相比于行列相等的稀疏矩阵,不规则形状稀疏矩阵凭借其行数与列数不对等的稀疏特点具有进一步优化的空间。因此,针对这种行数与列数不对等的不规则形状稀疏矩阵建立SpMV性能模型,分析得到其出现性能瓶颈的原因在于缓存和内存之间数据交互的带宽不足。同时做了以下2个方面的优化工作:(1)基于常用稀疏矩阵CSR存储格式,提出新型RCSR存储格式,其针对CSR存储格式中一个制约性能的数组进行了变换和压缩,使得SpMV更加高效;(2)结合国产处理器的SIMD指令扩展设计了基于RCSR格式的SpMV优化算法。在国产飞腾处理器上分别使用规则和不规则稀疏矩阵进行测试,在规则稀疏矩阵的情况下,通过采用RCSR存储格式和SIMD加速指令集,以GFLOPS为性能指标,实现了平均83.35%的性能提升;在不规则稀疏矩阵的情况下,性能提升与行列比相关,在行列不对等加剧时,具有更为明显的优化效果。 展开更多
关键词 稀疏矩阵 不规则矩阵 向量乘法 多核性能 性能优化
在线阅读 下载PDF
基于便笺式存储器的向量化SpMV算法的性能评估与分析
8
作者 张宗茂 董德尊 +3 位作者 王子聪 常俊胜 张晓云 王绍聪 《计算机工程与科学》 CSCD 北大核心 2024年第9期1521-1528,共8页
便笺式存储器是一种结构简单、访问延迟固定且软件可直接控制的片上高速存储,在现代处理器设计中得到了广泛应用。稀疏矩阵向量乘SpMV是高性能计算、人工智能等应用领域重要的内核计算函数之一。在传统多级Cache处理器中,SpMV算法计算... 便笺式存储器是一种结构简单、访问延迟固定且软件可直接控制的片上高速存储,在现代处理器设计中得到了广泛应用。稀疏矩阵向量乘SpMV是高性能计算、人工智能等应用领域重要的内核计算函数之一。在传统多级Cache处理器中,SpMV算法计算过程中对稠密输入向量的不规则访问操作会导致大量Cache访问请求失效,从而影响SpMV算法执行效率。为了评估便笺式存储器对SpMV向量算法的性能影响,使用ARM SVE指令对基于CSR格式的SpMV算法向量化,并将算法中的热点数据即稠密输入向量存储在便笺式存储器中,在集成了便笺式存储器的ARM架构处理器中对SpMV向量算法进行了性能分析。在gem5模拟器中针对来自真实应用程序的2562个稀疏矩阵进行了实验。实验结果表明,集成了便笺式存储器的处理器与传统多级Cache处理器相比,针对向量化SpMV算法能够实现的最大加速比为7.45,平均加速比为1.11。 展开更多
关键词 稀疏矩阵向量乘 便笺式存储器 CSR ARM SVE
在线阅读 下载PDF
面向国产申威26010众核处理器的SpMV实现与优化 被引量:12
9
作者 刘芳芳 杨超 +2 位作者 袁欣辉 吴长茂 敖玉龙 《软件学报》 EI CSCD 北大核心 2018年第12期3921-3932,共12页
世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB... 世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB/s.稀疏矩阵向量乘SpMV(sparse matrix-vector multiplication)是科学与工程计算中的一个非常重要的核心函数,众所周知,其是带宽受限型的,且存在间接访存操作.国产申威处理器给稀疏矩阵向量乘的高效实现带来了很大的挑战.针对申威处理器提出了一种CSR格式SpMV操作的通用异构众核并行算法,该算法从任务划分、LDM空间划分方面进行精细设计,提出了一套动静态buffer的缓存机制以提升向量x的访存命中率,提出了一套动静态的任务调度方法以实现负载均衡.另外还分析了该算法中影响SpMV性能的几个关键因素,并开展了自适应优化,进一步提升了性能.采用Matrix Market矩阵集中具有代表性的16个稀疏矩阵进行了测试,相比主核版最高有10倍左右的加速,平均加速比为6.51.通过采用主核版CSR格式SpMV的访存量进行分析,测试矩阵最高可达该处理器实测带宽的86%,平均可达到47%. 展开更多
关键词 稀疏矩阵向量乘 spmv 申威26010处理器 异构众核并行 自适应优化
在线阅读 下载PDF
对角线稀疏矩阵的SpMV自适应性能优化 被引量:4
10
作者 孙相征 张云泉 +2 位作者 王婷 李焱 袁良 《计算机研究与发展》 EI CSCD 北大核心 2013年第3期648-656,共9页
稀疏矩阵向量乘(SpMV)是科学计算中常用的内核之一,其运行速率跟非零元分布相关.针对对角线稀疏矩阵,提出了压缩行片段对角(compressed row segment diagonal,CRSD)存储格式.它利用"对角线格式"有效描述矩阵的对角线分布,区... 稀疏矩阵向量乘(SpMV)是科学计算中常用的内核之一,其运行速率跟非零元分布相关.针对对角线稀疏矩阵,提出了压缩行片段对角(compressed row segment diagonal,CRSD)存储格式.它利用"对角线格式"有效描述矩阵的对角线分布,区别于以往通用的计算方法,CRSD通过对给定应用的对角线稀疏矩阵采样再进行特定的优化.并且在软件安装阶段,通过自适应的方法选取适合具体运行平台的最优SpMV实现.在CPU端进行多线程并行化实现时,自适应调优过程中收集的信息还被用于线程间任务划分,以实现负载平衡.同时完成CRSD存储格式在GPU端的实现,并根据GPU端计算与访存的特点进行优化.实验结果表明:在Intel和AMD的多核平台使用相同线程数的情况下,与DIA相比,使用CRSD的加速比可以达到2.37X(平均1.7X);与CSR相比,可以达到4.6X(平均2.1X). 展开更多
关键词 CRSD 自适应性能优化spmv 对角线格式 对角线稀疏矩阵 GPU 科学应用
在线阅读 下载PDF
SpMV的自动性能优化实现技术及其应用研究 被引量:15
11
作者 袁娥 张云泉 +1 位作者 刘芳芳 孙相征 《计算机研究与发展》 EI CSCD 北大核心 2009年第7期1117-1126,共10页
在科学计算中,稀疏矩阵向量乘(SpMV)是一个十分重要且经常被大量调用的计算内核.由于SpMV一般实现算法的浮点计算和存储访问次数比率非常低,且其存储访问模式极为不规则,其实际运行性能往往很低.通过采用寄存器分块算法和启发式分块大... 在科学计算中,稀疏矩阵向量乘(SpMV)是一个十分重要且经常被大量调用的计算内核.由于SpMV一般实现算法的浮点计算和存储访问次数比率非常低,且其存储访问模式极为不规则,其实际运行性能往往很低.通过采用寄存器分块算法和启发式分块大小选择算法,将稀疏矩阵分成小的稠密分块,重用保存在寄存器中向量x元素,可以提高该计算内核的性能.剖析和总结了OSKI软件包所采用的若干关键优化技术,并进行了实际应用性能测试.测试表明,在实际应用这些优化技术的过程中,应用程序对SpMV的调用次数要达到上百次的量级,才能抵消由于应用这些性能优化技术所带来的额外时间开销,取得性能加速效果.在Pentium4和AMD Athlon平台上,测试了10个矩阵,其平均加速比分别达到了1.69和1.48. 展开更多
关键词 稀疏矩阵向量乘 启发式算法 自适应性能优化 存储访问模式 寄存器分块
在线阅读 下载PDF
基于HYB格式SpMV在新一代申威架构上的实现与优化 被引量:1
12
作者 王鑫 彭健 《计算机工程与科学》 CSCD 北大核心 2023年第10期1754-1762,共9页
稀疏矩阵与稠密向量乘SpMV在高性能计算领域有着广泛的应用。稀疏矩阵因其非零元素分布的稀疏性和不规则性,使得运算的并行化较稠密矩阵难度更大。因此,稀疏矩阵向量乘法的性能优化一直都是高性能计算领域中的研究重点。基于稀疏矩阵的... 稀疏矩阵与稠密向量乘SpMV在高性能计算领域有着广泛的应用。稀疏矩阵因其非零元素分布的稀疏性和不规则性,使得运算的并行化较稠密矩阵难度更大。因此,稀疏矩阵向量乘法的性能优化一直都是高性能计算领域中的研究重点。基于稀疏矩阵的HYB存储格式,面向国产新一代申威异构众核处理器SW26010P,设计了一种并行SpMV算法及其性能优化方案。并针对HYB存储格式的阈值选取难点,提出了一种多次迭代最大类间方差的方法,以确定HYB格式的阈值。实验结果表明,相比主核上的串行算法,并行SpMV算法可以获得23.36的平均加速比和34.85的最高加速比。 展开更多
关键词 申威众核处理器 稀疏矩阵向量乘法 最大类间方差法 并行计算
在线阅读 下载PDF
RAM(h)模型下SpMV存储访问复杂度的分析
13
作者 袁娥 张云泉 孙相征 《计算机工程与设计》 CSCD 北大核心 2009年第3期613-618,共6页
稀疏矩阵向量乘(SpMV)采取压缩行存储格式的算法性能非常差,而寄存器分块算法可以使得数据尽量在靠近处理器的存储层次中访问而提高性能。利用RAM(h)模型进行分析和比较不同算法形式的存储访问复杂度,可以比较两种算法的优劣。通过RAM(h... 稀疏矩阵向量乘(SpMV)采取压缩行存储格式的算法性能非常差,而寄存器分块算法可以使得数据尽量在靠近处理器的存储层次中访问而提高性能。利用RAM(h)模型进行分析和比较不同算法形式的存储访问复杂度,可以比较两种算法的优劣。通过RAM(h)分析SpMV两种实现形式的存储访问复杂度,同时在奔腾四平台上,测试了7个稀疏矩阵的SpMV性能,并统计了这两种算法中L1,L2,和TLB的缺失率,实验结果与模型分析的数据一致。 展开更多
关键词 spmv 稀疏矩阵向量乘 RAM(h)模型 存储访问复杂度
在线阅读 下载PDF
一种用于图形渲染的高性能SpMV专用加速器结构 被引量:1
14
作者 邓军勇 马青青 《小型微型计算机系统》 CSCD 北大核心 2021年第3期584-588,共5页
图形渲染中涉及的几何变换、投影变换、视口变换等需要大量稀疏矩阵向量乘法(Sparse Matrix-Vector Multiplication,SpM V)运算,如何实现SpMV高性能计算成为了图形处理器设计中的关键性问题之一,然而,当前的SpMV运算存在并行度较差,资... 图形渲染中涉及的几何变换、投影变换、视口变换等需要大量稀疏矩阵向量乘法(Sparse Matrix-Vector Multiplication,SpM V)运算,如何实现SpMV高性能计算成为了图形处理器设计中的关键性问题之一,然而,当前的SpMV运算存在并行度较差,资源占用较多等问题.为提升硬件运算的性能,本文基于矩阵列向量的线性组合,充分利用数据的并行性,设计了一种专用加速器结构.实验表明,在XC6VLX550T开发板上与其他两种结构相比,速度分别能够提高28%、37%,资源占用率分别减少约48%、18%,应用于图形渲染中的变换操作后,速度分别能够提高28%、30%,资源占用率分别最高减少约48%、60%. 展开更多
关键词 图形渲染 稀疏矩阵向量乘法 并行度 矩阵列向量的线性组合
在线阅读 下载PDF
稀疏矩阵在C66x上的应用及优化
15
作者 黄旭东 洪泽 陈振娇 《电子技术应用》 2024年第11期23-27,共5页
随着大数据的爆炸式发展,稀疏矩阵已经成为机器学习和边缘计算的重要一环。在机器学习领域,数据集的稀疏矩阵化既可以保存信息又可以节省内存,已成为不可避免的趋势。SpMV(稀疏矩阵向量乘)作为稀疏矩阵计算中的核心,其迭代求解过程的空... 随着大数据的爆炸式发展,稀疏矩阵已经成为机器学习和边缘计算的重要一环。在机器学习领域,数据集的稀疏矩阵化既可以保存信息又可以节省内存,已成为不可避免的趋势。SpMV(稀疏矩阵向量乘)作为稀疏矩阵计算中的核心,其迭代求解过程的空间复杂度和时间复杂度具有重要研究意义。分析稀疏矩阵C00、CSR、ELLPACK和DIA压缩格式,改变稀疏矩阵的稀疏度和非零元素的分布,得出COO读取数据、CSR进行计算的SpMV通用性更强。利用C66x的VLIW指令构架,采用软件流水的方式对SpMV_CSR算法进行指令并行优化,利用SIMD单指令多数据指令集对SpMV_CSR算法完成数据并行优化。实验结果表明,优化后的SpMV_CSR算法相较于优化前的加速比平均达到5倍以上。 展开更多
关键词 稀疏矩阵 spmv CSR C66x 软件流水 SIMD
在线阅读 下载PDF
NM-SpMM:面向国产异构向量处理器的半结构化稀疏矩阵乘算法
16
作者 姜晶菲 何源宏 +2 位作者 许金伟 许诗瑶 钱希福 《计算机工程与科学》 CSCD 北大核心 2024年第7期1141-1150,共10页
深度神经网络在自然语言处理、计算机视觉等领域取得了优异的成果,由于智能应用处理数据规模的增长和大模型的快速发展,对深度神经网络的推理性能要求越来越高,N∶M半结构化稀疏化技术成为平衡算力需求和应用效果的热点技术之一。国产... 深度神经网络在自然语言处理、计算机视觉等领域取得了优异的成果,由于智能应用处理数据规模的增长和大模型的快速发展,对深度神经网络的推理性能要求越来越高,N∶M半结构化稀疏化技术成为平衡算力需求和应用效果的热点技术之一。国产异构向量处理器FT-M7032为智能模型处理中的数据并行和指令并行开发提供了较大空间。针对N∶M半结构化稀疏模型计算稀疏模式多样性,提出了一种面向FT-M7032的可灵活配置的稀疏矩阵乘算法NM-SpMM。NM-SpMM设计了一种高效的压缩偏移地址稀疏编码格式COA,避免了半结构化参数配置对稀疏数据访存计算的影响。基于COA编码,NM-SpMM对不同维度稀疏矩阵计算进行了细粒度优化。在FT-M7032单核上的实验结果表明,相较于稠密矩阵乘,NM-SpMM能获得1.73~21.00倍的加速,相较于采用CuSPARSE稀疏计算库的NVIDIA V100 GPU,能获得0.04~1.04倍的加速。 展开更多
关键词 深度神经网络 图形处理器 向量处理器 稀疏矩阵乘 流水线
在线阅读 下载PDF
基于异构平台的稀疏矩阵向量乘自适应计算优化 被引量:1
17
作者 李博 黄建强 +1 位作者 黄东强 王晓英 《计算机应用》 CSCD 北大核心 2024年第12期3867-3875,共9页
稀疏矩阵向量乘(SpMV)是一种重要的数值线性代数运算,现有的优化存在预处理及通信时间考虑不全面、存储结构不具有普适性等问题。为了解决这些问题,提出异构平台下SpMV的自适应优化方案。所提方案利用皮尔逊相关系数确定相关度高的特征... 稀疏矩阵向量乘(SpMV)是一种重要的数值线性代数运算,现有的优化存在预处理及通信时间考虑不全面、存储结构不具有普适性等问题。为了解决这些问题,提出异构平台下SpMV的自适应优化方案。所提方案利用皮尔逊相关系数确定相关度高的特征参数,并使用基于梯度提升决策树(GBDT)的极端梯度提升(XGBoost)和轻量级梯度提升(LightGBM)算法训练预测模型,以确定某一稀疏矩阵更优的存储格式。利用网格搜索确定模型训练时更优的模型超参数,使这2种算法选择更适合的存储结构的准确率都超过85%。此外,对于预测存储结构为混合(HYB)格式的稀疏矩阵,在GPU和CPU上分别计算其中的等长列(ELL)与坐标(COO)存储格式部分,建立基于CPU+GPU的并行混合计算模式;同时为小数据量的稀疏矩阵选择硬件平台,提高运算速度。实验结果表明,自适应计算优化相较于cuSPARSE库中的压缩稀疏行(CSR)存储格式计算的平均加速比可以达到1.4,相较于按照HYB和ELL存储格式计算的平均加速比则可以分别达到2.1和2.6。 展开更多
关键词 稀疏矩阵向量乘 自适应优化 皮尔逊相关系数 极端梯度提升 轻量级梯度提升机器学习
在线阅读 下载PDF
高性能稀疏矩阵向量乘的程序设计综述
18
作者 杜臻 谭光明 孙凝晖 《高技术通讯》 CAS 北大核心 2024年第8期807-823,共17页
稀疏矩阵向量乘(SpMV)广泛应用于科学计算、图计算、数据分析等领域,是自现代计算机诞生以来经久不衰且挑战依旧的研究热点。本文系统回顾了20世纪70年代以来稀疏矩阵向量乘程序设计的发展脉络和各阶段的代表性工作;分析比较了这一领域... 稀疏矩阵向量乘(SpMV)广泛应用于科学计算、图计算、数据分析等领域,是自现代计算机诞生以来经久不衰且挑战依旧的研究热点。本文系统回顾了20世纪70年代以来稀疏矩阵向量乘程序设计的发展脉络和各阶段的代表性工作;分析比较了这一领域4条技术路线,即人工程序设计、自动调优器、稀疏编译器和自动程序设计器,在当今的流行方法;并在此基础上对高性能稀疏矩阵向量乘程序设计的研究趋势做出预测,力图给学习者和研究者带来有益的知识与启示。 展开更多
关键词 稀疏矩阵向量乘(spmv) 稀疏矩阵格式 自动调优 稀疏编译器 高性能计算 并行算法
在线阅读 下载PDF
基于FPGA和行折叠的稀疏矩阵向量乘优化
19
作者 周智 高建花 计卫星 《计算机工程与科学》 CSCD 北大核心 2024年第8期1340-1348,共9页
稀疏矩阵向量乘(SpMV)是科学与工程计算中的一个关键内核。由于稀疏矩阵中不规则的数据分布和SpMV计算中不规则的访存操作,SpMV在多核CPU和GPU等设备上的性能与这些设备的理论峰值还具有较大差距。现有的CPU和GPU由于在架构上受到限制,... 稀疏矩阵向量乘(SpMV)是科学与工程计算中的一个关键内核。由于稀疏矩阵中不规则的数据分布和SpMV计算中不规则的访存操作,SpMV在多核CPU和GPU等设备上的性能与这些设备的理论峰值还具有较大差距。现有的CPU和GPU由于在架构上受到限制,导致它们无法很好地利用稀疏矩阵的特殊结构来加速SpMV计算,而现场可编程门阵列(FPGA)可以通过自定义电路实现高效的并行运算,能够更好地处理稀疏矩阵的计算和存储问题。基于FPGA提出了一种SpMV优化方法,该优化方法基于高级综合的流式处理引擎,采用了一种自适应多行折叠的SpMV优化策略。该方法通过行折叠减少了处理引擎中零元的无效存储和计算,从而提升了基于FPGA的SpMV计算性能。实验结果表明,相比于现有的FPGA实现方案,设计的基于行折叠优化的数据流引擎实现了最高1.78倍和平均1.15倍的加速。 展开更多
关键词 稀疏矩阵向量乘 现场可编程门阵列 高级综合 行折叠
在线阅读 下载PDF
基于声压振速联合处理的稀疏协方差DOA估计
20
作者 禹秀梅 郑文康 +1 位作者 王立府 王鹏 《中北大学学报(自然科学版)》 CAS 2024年第3期301-308,共8页
为充分利用矢量水听器中声压振速信息之间的关系来提高DOA估计精度,本文提出了基于声压振速联合处理的稀疏协方差DOA(Direction ofArrival)估计方法。该方法首先利用声压振速之间的相关性,构造阵列协方差矩阵;其次,将空间入射角度集合... 为充分利用矢量水听器中声压振速信息之间的关系来提高DOA估计精度,本文提出了基于声压振速联合处理的稀疏协方差DOA(Direction ofArrival)估计方法。该方法首先利用声压振速之间的相关性,构造阵列协方差矩阵;其次,将空间入射角度集合进行等角度划分,构造超完备冗余字典;然后,在过完备基上寻找阵列协方差矩阵的最稀疏系数,利用系数向量中的非零行所对应的行号得到DOA估计值。将该算法与CBF算法及L1-SVD算法进行对比仿真实验,结果表明,在信号源数分别为3,4,5的情形下,本文所提算法在低信噪比和小快拍数情形时,具有更低的均方根误差,DOA估计性能优势明显。 展开更多
关键词 DOA估计 稀疏表示 阵列协方差矩阵 矢量线性阵
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部