期刊文献+
共找到109篇文章
< 1 2 6 >
每页显示 20 50 100
NM-SpMM:面向国产异构向量处理器的半结构化稀疏矩阵乘算法
1
作者 姜晶菲 何源宏 +2 位作者 许金伟 许诗瑶 钱希福 《计算机工程与科学》 CSCD 北大核心 2024年第7期1141-1150,共10页
深度神经网络在自然语言处理、计算机视觉等领域取得了优异的成果,由于智能应用处理数据规模的增长和大模型的快速发展,对深度神经网络的推理性能要求越来越高,N∶M半结构化稀疏化技术成为平衡算力需求和应用效果的热点技术之一。国产... 深度神经网络在自然语言处理、计算机视觉等领域取得了优异的成果,由于智能应用处理数据规模的增长和大模型的快速发展,对深度神经网络的推理性能要求越来越高,N∶M半结构化稀疏化技术成为平衡算力需求和应用效果的热点技术之一。国产异构向量处理器FT-M7032为智能模型处理中的数据并行和指令并行开发提供了较大空间。针对N∶M半结构化稀疏模型计算稀疏模式多样性,提出了一种面向FT-M7032的可灵活配置的稀疏矩阵乘算法NM-SpMM。NM-SpMM设计了一种高效的压缩偏移地址稀疏编码格式COA,避免了半结构化参数配置对稀疏数据访存计算的影响。基于COA编码,NM-SpMM对不同维度稀疏矩阵计算进行了细粒度优化。在FT-M7032单核上的实验结果表明,相较于稠密矩阵乘,NM-SpMM能获得1.73~21.00倍的加速,相较于采用CuSPARSE稀疏计算库的NVIDIA V100 GPU,能获得0.04~1.04倍的加速。 展开更多
关键词 深度神经网络 图形处理器 向量处理器 稀疏矩阵 流水线
在线阅读 下载PDF
基于异构平台的稀疏矩阵向量乘自适应计算优化 被引量:1
2
作者 李博 黄建强 +1 位作者 黄东强 王晓英 《计算机应用》 CSCD 北大核心 2024年第12期3867-3875,共9页
稀疏矩阵向量乘(SpMV)是一种重要的数值线性代数运算,现有的优化存在预处理及通信时间考虑不全面、存储结构不具有普适性等问题。为了解决这些问题,提出异构平台下SpMV的自适应优化方案。所提方案利用皮尔逊相关系数确定相关度高的特征... 稀疏矩阵向量乘(SpMV)是一种重要的数值线性代数运算,现有的优化存在预处理及通信时间考虑不全面、存储结构不具有普适性等问题。为了解决这些问题,提出异构平台下SpMV的自适应优化方案。所提方案利用皮尔逊相关系数确定相关度高的特征参数,并使用基于梯度提升决策树(GBDT)的极端梯度提升(XGBoost)和轻量级梯度提升(LightGBM)算法训练预测模型,以确定某一稀疏矩阵更优的存储格式。利用网格搜索确定模型训练时更优的模型超参数,使这2种算法选择更适合的存储结构的准确率都超过85%。此外,对于预测存储结构为混合(HYB)格式的稀疏矩阵,在GPU和CPU上分别计算其中的等长列(ELL)与坐标(COO)存储格式部分,建立基于CPU+GPU的并行混合计算模式;同时为小数据量的稀疏矩阵选择硬件平台,提高运算速度。实验结果表明,自适应计算优化相较于cuSPARSE库中的压缩稀疏行(CSR)存储格式计算的平均加速比可以达到1.4,相较于按照HYB和ELL存储格式计算的平均加速比则可以分别达到2.1和2.6。 展开更多
关键词 稀疏矩阵向量乘 自适应优化 皮尔逊相关系数 极端梯度提升 轻量级梯度提升机器学习
在线阅读 下载PDF
高性能稀疏矩阵向量乘的程序设计综述
3
作者 杜臻 谭光明 孙凝晖 《高技术通讯》 CAS 北大核心 2024年第8期807-823,共17页
稀疏矩阵向量乘(SpMV)广泛应用于科学计算、图计算、数据分析等领域,是自现代计算机诞生以来经久不衰且挑战依旧的研究热点。本文系统回顾了20世纪70年代以来稀疏矩阵向量乘程序设计的发展脉络和各阶段的代表性工作;分析比较了这一领域... 稀疏矩阵向量乘(SpMV)广泛应用于科学计算、图计算、数据分析等领域,是自现代计算机诞生以来经久不衰且挑战依旧的研究热点。本文系统回顾了20世纪70年代以来稀疏矩阵向量乘程序设计的发展脉络和各阶段的代表性工作;分析比较了这一领域4条技术路线,即人工程序设计、自动调优器、稀疏编译器和自动程序设计器,在当今的流行方法;并在此基础上对高性能稀疏矩阵向量乘程序设计的研究趋势做出预测,力图给学习者和研究者带来有益的知识与启示。 展开更多
关键词 稀疏矩阵向量乘(spmv) 稀疏矩阵格式 自动调优 稀疏编译器 高性能计算 并行算法
在线阅读 下载PDF
一种不规则稀疏矩阵的SpMV方法
4
作者 施禹 董攀 张利军 《计算机工程与科学》 CSCD 北大核心 2024年第7期1175-1184,共10页
稀疏矩阵-向量乘法SpMV是高性能计算领域的关键算子之一,在新兴的深度学习领域中有着重要应用。现有SpMV算子通常采用行列相等的稀疏矩阵,而对于不规则形状稀疏矩阵(行数与列数不等)的研究仍存在空缺,值得进一步深入探讨。相比于行列相... 稀疏矩阵-向量乘法SpMV是高性能计算领域的关键算子之一,在新兴的深度学习领域中有着重要应用。现有SpMV算子通常采用行列相等的稀疏矩阵,而对于不规则形状稀疏矩阵(行数与列数不等)的研究仍存在空缺,值得进一步深入探讨。相比于行列相等的稀疏矩阵,不规则形状稀疏矩阵凭借其行数与列数不对等的稀疏特点具有进一步优化的空间。因此,针对这种行数与列数不对等的不规则形状稀疏矩阵建立SpMV性能模型,分析得到其出现性能瓶颈的原因在于缓存和内存之间数据交互的带宽不足。同时做了以下2个方面的优化工作:(1)基于常用稀疏矩阵CSR存储格式,提出新型RCSR存储格式,其针对CSR存储格式中一个制约性能的数组进行了变换和压缩,使得SpMV更加高效;(2)结合国产处理器的SIMD指令扩展设计了基于RCSR格式的SpMV优化算法。在国产飞腾处理器上分别使用规则和不规则稀疏矩阵进行测试,在规则稀疏矩阵的情况下,通过采用RCSR存储格式和SIMD加速指令集,以GFLOPS为性能指标,实现了平均83.35%的性能提升;在不规则稀疏矩阵的情况下,性能提升与行列比相关,在行列不对等加剧时,具有更为明显的优化效果。 展开更多
关键词 稀疏矩阵 不规则矩阵 向量乘 多核性能 性能优化
在线阅读 下载PDF
基于FPGA和行折叠的稀疏矩阵向量乘优化
5
作者 周智 高建花 计卫星 《计算机工程与科学》 CSCD 北大核心 2024年第8期1340-1348,共9页
稀疏矩阵向量乘(SpMV)是科学与工程计算中的一个关键内核。由于稀疏矩阵中不规则的数据分布和SpMV计算中不规则的访存操作,SpMV在多核CPU和GPU等设备上的性能与这些设备的理论峰值还具有较大差距。现有的CPU和GPU由于在架构上受到限制,... 稀疏矩阵向量乘(SpMV)是科学与工程计算中的一个关键内核。由于稀疏矩阵中不规则的数据分布和SpMV计算中不规则的访存操作,SpMV在多核CPU和GPU等设备上的性能与这些设备的理论峰值还具有较大差距。现有的CPU和GPU由于在架构上受到限制,导致它们无法很好地利用稀疏矩阵的特殊结构来加速SpMV计算,而现场可编程门阵列(FPGA)可以通过自定义电路实现高效的并行运算,能够更好地处理稀疏矩阵的计算和存储问题。基于FPGA提出了一种SpMV优化方法,该优化方法基于高级综合的流式处理引擎,采用了一种自适应多行折叠的SpMV优化策略。该方法通过行折叠减少了处理引擎中零元的无效存储和计算,从而提升了基于FPGA的SpMV计算性能。实验结果表明,相比于现有的FPGA实现方案,设计的基于行折叠优化的数据流引擎实现了最高1.78倍和平均1.15倍的加速。 展开更多
关键词 稀疏矩阵向量乘 现场可编程门阵列 高级综合 行折叠
在线阅读 下载PDF
基于GPU对角稀疏矩阵向量乘法的动态划分算法
6
作者 涂进兴 李志雄 黄建强 《计算机应用》 CSCD 北大核心 2024年第11期3521-3529,共9页
在图形处理器(GPU)上实现对角稀疏矩阵向量乘法(SpMV)可以充分利用GPU的并行计算能力,并加速矩阵向量乘法;然而,相关主流算法存在零元填充数据多、计算效率低的问题。针对上述问题,提出一种对角SpMV算法DIA-Dynamic(DIAgonal-Dynamic)... 在图形处理器(GPU)上实现对角稀疏矩阵向量乘法(SpMV)可以充分利用GPU的并行计算能力,并加速矩阵向量乘法;然而,相关主流算法存在零元填充数据多、计算效率低的问题。针对上述问题,提出一种对角SpMV算法DIA-Dynamic(DIAgonal-Dynamic)。首先,设计一种全新的动态划分策略,根据矩阵的不同特征进行分块,在保证GPU高计算效率的同时大幅减少零元填充,去除冗余计算量;其次,提出一种对角稀疏矩阵存储格式BDIA(Block DIAgonal)存储分块数据,并调整数据布局,提高GPU上的访存性能;最后,基于GPU的底层进行条件分支优化,以减少分支判断,并使用动态共享内存解决向量的不规则访问问题。DIA-Dynamic与前沿Tile SpMV算法相比,平均加速比达到了1.88;与前沿BRCSD(Diagonal Compressed Storage based on Row-Blocks)-Ⅱ算法相比,平均零元填充减少了43%,平均加速比达到了1.70。实验结果表明,DIA-Dynamic能够有效提高GPU上对角SpMV的计算效率,缩短计算时间,提升程序性能。 展开更多
关键词 图形处理器 对角稀疏矩阵 稀疏矩阵向量乘 动态划分 共享内存
在线阅读 下载PDF
TEB:GPU上矩阵分解重构的高效SpMV存储格式 被引量:1
7
作者 王宇华 张宇琪 +2 位作者 何俊飞 徐悦竹 崔环宇 《计算机科学与探索》 CSCD 北大核心 2024年第4期1094-1108,共15页
稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的... 稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的计算冗余,节约存储空间,但存在着负载不均衡的问题,浪费了计算资源。针对上述问题,对近年来效果良好的存储格式进行了研究,提出了一种逐行分解重组存储格式——TEB(threshold-exchangeorder block)格式。该格式采用启发式阈值选择算法确定合适分割阈值,并结合基于重排序的行归并算法,对稀疏矩阵进行重构分解,使得块与块之间非零元个数尽可能得相近,其次结合CUDA(computer unified device architecture)线程技术,提出了基于TEB存储格式的子块间并行SpMV算法,能够合理分配计算资源,解决负载不均衡问题,从而提高SpMV并行计算效率。为了验证TEB存储格式的有效性,在NVIDIA Tesla V100平台上进行实验,结果表明TEB相较于PBC(partition-block-CSR)、AMF-CSR(adaptive multi-row folding of CSR)、CSR-Scalar(compressed sparse row-scalar)和CSR5(compressed sparse row 5)存储格式,在SpMV的时间性能方面平均可提升3.23、5.83、2.33和2.21倍;在浮点计算性能方面,平均可提高3.36、5.95、2.29和2.13倍。 展开更多
关键词 稀疏矩阵向量乘法(spmv) 重新排序 CSR格式 负载均衡 存储格式 图形处理器(GPU)
在线阅读 下载PDF
对角线稀疏矩阵的SpMV自适应性能优化 被引量:4
8
作者 孙相征 张云泉 +2 位作者 王婷 李焱 袁良 《计算机研究与发展》 EI CSCD 北大核心 2013年第3期648-656,共9页
稀疏矩阵向量乘(SpMV)是科学计算中常用的内核之一,其运行速率跟非零元分布相关.针对对角线稀疏矩阵,提出了压缩行片段对角(compressed row segment diagonal,CRSD)存储格式.它利用"对角线格式"有效描述矩阵的对角线分布,区... 稀疏矩阵向量乘(SpMV)是科学计算中常用的内核之一,其运行速率跟非零元分布相关.针对对角线稀疏矩阵,提出了压缩行片段对角(compressed row segment diagonal,CRSD)存储格式.它利用"对角线格式"有效描述矩阵的对角线分布,区别于以往通用的计算方法,CRSD通过对给定应用的对角线稀疏矩阵采样再进行特定的优化.并且在软件安装阶段,通过自适应的方法选取适合具体运行平台的最优SpMV实现.在CPU端进行多线程并行化实现时,自适应调优过程中收集的信息还被用于线程间任务划分,以实现负载平衡.同时完成CRSD存储格式在GPU端的实现,并根据GPU端计算与访存的特点进行优化.实验结果表明:在Intel和AMD的多核平台使用相同线程数的情况下,与DIA相比,使用CRSD的加速比可以达到2.37X(平均1.7X);与CSR相比,可以达到4.6X(平均2.1X). 展开更多
关键词 CRSD 自适应性能优化spmv 对角线格式 对角线稀疏矩阵 GPU 科学应用
在线阅读 下载PDF
基于稀疏非负矩阵分解和支持向量机的海洋溢油近红外光谱鉴别分析 被引量:9
9
作者 谈爱玲 毕卫红 赵勇 《光谱学与光谱分析》 SCIE EI CAS CSCD 北大核心 2011年第5期1250-1253,共4页
提出一种海洋溢油近红外光谱特征提取与种类鉴别新方法。海面溢油种类鉴别对现场应急处置方案的制定和可疑溢油源的追踪具有重要意义。采用傅里叶变换近红外光谱仪测定汽油、柴油、煤油三类模拟海洋溢油样本的近红外光谱,基于稀疏非负... 提出一种海洋溢油近红外光谱特征提取与种类鉴别新方法。海面溢油种类鉴别对现场应急处置方案的制定和可疑溢油源的追踪具有重要意义。采用傅里叶变换近红外光谱仪测定汽油、柴油、煤油三类模拟海洋溢油样本的近红外光谱,基于稀疏非负矩阵分解算法对光谱进行特征提取,采用五重交叉检验,对210个样本进行训练,建立基于支持向量机的溢油光谱定性分析模型,同时讨论非负特征基数目以及稀疏因子对分类正确率的影响;利用训练好的分类器对90个未知样本进行鉴别,识别正确率达97.78%。所提出的稀疏非负矩阵分解结合支持向量机的近红外光谱定性分析方法,识别正确率高,模型泛化能力强,具有很好的分类效果,为海洋溢油的快速鉴别提供了新途径。 展开更多
关键词 近红外光谱 海洋溢油 稀疏非负矩阵分解 支持向量
在线阅读 下载PDF
基于HYB格式稀疏矩阵与向量乘在CPU+GPU异构系统中的实现与优化 被引量:7
10
作者 阳王东 李肯立 《计算机工程与科学》 CSCD 北大核心 2016年第2期202-209,共8页
稀疏矩阵与向量相乘SpMV是求解稀疏线性系统中的一个重要问题,但是由于非零元素的稀疏性,计算密度较低,造成计算效率不高。针对稀疏矩阵存在的一些不规则性,利用混合存储格式来进行SpMV计算,能够提高对稀疏矩阵的压缩效率,并扩大其适应... 稀疏矩阵与向量相乘SpMV是求解稀疏线性系统中的一个重要问题,但是由于非零元素的稀疏性,计算密度较低,造成计算效率不高。针对稀疏矩阵存在的一些不规则性,利用混合存储格式来进行SpMV计算,能够提高对稀疏矩阵的压缩效率,并扩大其适应范围。HYB是一种广泛使用的混合压缩格式,其性能较为稳定。而随着GPU并行计算得到普遍应用以及CPU日趋多核化,因此利用GPU和多核CPU构建异构并行计算系统得到了普遍的认可。针对稀疏矩阵的HYB存储格式中的ELL和COO存储特征,把两部分数据分别分割到CPU和GPU进行协同并行计算,既能充分利用CPU和GPU的计算资源,又能够发挥CPU和GPU的计算特性,从而提高了计算资源的利用效能。在分析CPU+GPU异构计算模式的特征的基础上,对混合格式的数据分割和共享方面进行优化,能够较好地发挥在异构计算环境的优势,提高计算性能。 展开更多
关键词 GPU 稀疏矩阵 spmv CUDA 异构计算
在线阅读 下载PDF
GPU稀疏矩阵向量乘的性能模型构造 被引量:3
11
作者 尹孟嘉 许先斌 +3 位作者 何水兵 胡婧 叶从欢 张涛 《计算机科学》 CSCD 北大核心 2017年第4期182-187,206,共7页
稀疏矩阵向量乘(Sparse matrix-vector multiplication,SPMV)是广泛应用于大规模线性求解系统和求解矩阵特征值等问题的基本运算,但在迭代处理过程中它也常常成为处理的瓶颈,影响算法的整体性能。对于不同形态的矩阵,选择不同的存储格式... 稀疏矩阵向量乘(Sparse matrix-vector multiplication,SPMV)是广泛应用于大规模线性求解系统和求解矩阵特征值等问题的基本运算,但在迭代处理过程中它也常常成为处理的瓶颈,影响算法的整体性能。对于不同形态的矩阵,选择不同的存储格式,对应的算法往往会产生较大的性能影响。通过实验分析,找到各种矩阵形态在不同存储结构下体现的性能变化特征,构建一个有效的性能度量模型,为评估稀疏矩阵运算开销、合理选择存储格式做出有效的指导。在14组CSR,COO,HYB格式和8组ELL格式的测试用例下,性能预测模型和测量之间的差异低于9%。 展开更多
关键词 GPU 稀疏矩阵向量乘 性能模型
在线阅读 下载PDF
基于GPU的高性能稀疏矩阵向量乘及CG求解器优化 被引量:7
12
作者 王迎瑞 任江勇 田荣 《计算机科学》 CSCD 北大核心 2013年第3期46-49,共4页
以有限元/有限差分等为代表的一类数值方法,其总体矩阵常常具有"带状"、稀疏的特点。针对"带状"稀疏矩阵,提出和实现了一种高效的矩阵向量乘存储格式和算法"bDIA"。基于nVidia的GTX280系列GPU对其进行了... 以有限元/有限差分等为代表的一类数值方法,其总体矩阵常常具有"带状"、稀疏的特点。针对"带状"稀疏矩阵,提出和实现了一种高效的矩阵向量乘存储格式和算法"bDIA"。基于nVidia的GTX280系列GPU对其进行了测试,结果显示:与CUSP支持的5种常见稀疏矩阵存储格式和算法相比较,所提出的bDIA格式以及相应的spMV算法的单双精度浮点效率均可以提高1倍以上,并突破了该系列GPU在spMV计算时4%的单精度浮点效率上限和22.2%的双精度浮点效率上限;应用于共轭梯度(CG)与稳定双共轭梯度(BiCGStab)求解器,相对于DIA格式均有1.5倍左右的加速。 展开更多
关键词 带状稀疏矩阵向量乘 bDIA 广义有限元 GPU CG求解器优化
在线阅读 下载PDF
基于稀疏性非负矩阵分解和支持向量机的时频图像识别 被引量:16
13
作者 蔡蕾 朱永生 《自动化学报》 EI CSCD 北大核心 2009年第10期1272-1277,共6页
针对机械故障诊断领域对反映设备运行状态的图像识别困难以及选择和提取敏感特征困难的问题,将基于图像的机械设备运行状态判别问题当作图像的识别问题米处理,提出使用稀疏性非负矩阵分解(Sparse non-negative matrixfactorization,SNMF... 针对机械故障诊断领域对反映设备运行状态的图像识别困难以及选择和提取敏感特征困难的问题,将基于图像的机械设备运行状态判别问题当作图像的识别问题米处理,提出使用稀疏性非负矩阵分解(Sparse non-negative matrixfactorization,SNMF)和支持向量机(Support vector machine,SVM)对时频图像进行识别进而判断机器运行状态,从而避免特征的选择和提取.稀疏性非负矩阵分解在对时频图像进行大规模压缩的同时,能够很好地保留图像的隐含特征,从而大大减少自动识别时频图像的计算复杂度,并有效地提高支持向量机的识别精度.此外,奉文还对影响识别率的稀疏性非负矩阵分解的各参数进行了讨论.实验结果表明,该方法对时频处理方法依赖性低,在大多数情况下都能获得较传统方法高的识别率. 展开更多
关键词 时频图像 稀疏性非负矩阵分解 支持向量 模式识别
在线阅读 下载PDF
大规模稀疏矩阵的主特征向量计算优化方法 被引量:3
14
作者 王伟 陈建平 +2 位作者 曾国荪 俞莉花 谭一鸣 《计算机科学与探索》 CSCD 2012年第2期118-124,共7页
矩阵主特征向量(principal eigenvectors computing,PEC)的求解是科学与工程计算中的一个重要问题。随着图形处理单元通用计算(general-purpose computing on graphics pro cessing unit,GPGPU)的兴起,利用GPU来优化大规模稀疏矩阵的图... 矩阵主特征向量(principal eigenvectors computing,PEC)的求解是科学与工程计算中的一个重要问题。随着图形处理单元通用计算(general-purpose computing on graphics pro cessing unit,GPGPU)的兴起,利用GPU来优化大规模稀疏矩阵的图形处理单元求解得到了广泛关注。分别从应用特征和GPU体系结构特征两方面分析了PEC运算的性能瓶颈,提出了一种面向GPU的稀疏矩阵存储格式——GPU-ELL和一个针对GPU的线程优化映射策略,并设计了相应的PEC优化执行算法。在ATI HD Radeon5850上的实验结果表明,相对于传统CPU,该方案获得了最多200倍左右的加速,相对于已有GPU上的实现,也获得了2倍的加速。 展开更多
关键词 图形处理单元通用计算(GPGPU) 主特征向量计算 稀疏矩阵向量乘 线程优化
在线阅读 下载PDF
稀疏矩阵在C66x上的应用及优化
15
作者 黄旭东 洪泽 陈振娇 《电子技术应用》 2024年第11期23-27,共5页
随着大数据的爆炸式发展,稀疏矩阵已经成为机器学习和边缘计算的重要一环。在机器学习领域,数据集的稀疏矩阵化既可以保存信息又可以节省内存,已成为不可避免的趋势。SpMV(稀疏矩阵向量乘)作为稀疏矩阵计算中的核心,其迭代求解过程的空... 随着大数据的爆炸式发展,稀疏矩阵已经成为机器学习和边缘计算的重要一环。在机器学习领域,数据集的稀疏矩阵化既可以保存信息又可以节省内存,已成为不可避免的趋势。SpMV(稀疏矩阵向量乘)作为稀疏矩阵计算中的核心,其迭代求解过程的空间复杂度和时间复杂度具有重要研究意义。分析稀疏矩阵C00、CSR、ELLPACK和DIA压缩格式,改变稀疏矩阵的稀疏度和非零元素的分布,得出COO读取数据、CSR进行计算的SpMV通用性更强。利用C66x的VLIW指令构架,采用软件流水的方式对SpMV_CSR算法进行指令并行优化,利用SIMD单指令多数据指令集对SpMV_CSR算法完成数据并行优化。实验结果表明,优化后的SpMV_CSR算法相较于优化前的加速比平均达到5倍以上。 展开更多
关键词 稀疏矩阵 spmv CSR C66x 软件流水 SIMD
在线阅读 下载PDF
基于FPGA的稀疏矩阵向量乘的设计研究 被引量:9
16
作者 张禾 陈客松 《计算机应用研究》 CSCD 北大核心 2014年第6期1756-1759,共4页
作为典型的不规则算法,稀疏矩阵向量乘的计算过程具有非常低的访存局部性和计算访存比,因此在基于cache的通用处理器上计算效率很低。提出了一种面向可重构计算平台的基于IEEE-754浮点数据格式标准的稀疏矩阵向量乘算法加速器的设计。... 作为典型的不规则算法,稀疏矩阵向量乘的计算过程具有非常低的访存局部性和计算访存比,因此在基于cache的通用处理器上计算效率很低。提出了一种面向可重构计算平台的基于IEEE-754浮点数据格式标准的稀疏矩阵向量乘算法加速器的设计。在一维划分的行压缩稀疏矩阵数据存储技术以及计算部件的流水化设计的基础上,提出了一种基于单个浮点加法器的无阻塞累加器设计。通过实验验证表明,简化了算法的设计提高了算法执行的并行度和外部存储器的带宽利用率,获得了相对于传统处理器1.37-2.60倍的性能加速比。 展开更多
关键词 稀疏矩阵向量乘 现场可编程逻辑门阵列 可重构计算 并行算法
在线阅读 下载PDF
稀疏矩阵向量乘的FPGA设计与实现 被引量:3
17
作者 宋庆增 顾军华 《计算机工程》 CAS CSCD 北大核心 2011年第23期214-216,共3页
针对传统的通用处理器(GPP)平台上执行稀疏矩阵向量乘计算效率低的问题,提出一种基于可重构计算平台的SpMXV协处理器设计。方案采用二叉树结构高度流水的数据流、IEEE-754的32 bit浮点数数据格式和对角存储格式。数据通路以流水线方式... 针对传统的通用处理器(GPP)平台上执行稀疏矩阵向量乘计算效率低的问题,提出一种基于可重构计算平台的SpMXV协处理器设计。方案采用二叉树结构高度流水的数据流、IEEE-754的32 bit浮点数数据格式和对角存储格式。数据通路以流水线方式进行组织,能够优化计算性能。仿真结果表明,与GPP平台上的软件实现相比,通过硬件实现的设计能达到最高2.69倍的性能加速。 展开更多
关键词 可重构计算 协处理器 稀疏线性方程组 稀疏矩阵向量乘 归约阵列
在线阅读 下载PDF
并行计算稀疏矩阵乘以向量的负载平衡算法 被引量:2
18
作者 刘杰 迟利华 +1 位作者 胡庆丰 李晓梅 《计算机工程与科学》 CSCD 2006年第3期76-77,91,共3页
稀疏矩阵乘以一个向量(SpM×V)的问题是许多大型应用问题的核心计算问题,文中提出了一种在并行计算机上并行计算SpM×V的负载平衡算法,计算复杂性为O(N)(N为稀疏矩阵的阶),而目前计算此类问题的最优负载平衡算法的计算复杂性为O... 稀疏矩阵乘以一个向量(SpM×V)的问题是许多大型应用问题的核心计算问题,文中提出了一种在并行计算机上并行计算SpM×V的负载平衡算法,计算复杂性为O(N)(N为稀疏矩阵的阶),而目前计算此类问题的最优负载平衡算法的计算复杂性为O(N.P)(P为处理机台数)。文章最后给出了并行数值实验。 展开更多
关键词 并行计算 稀疏矩阵乘以向量 负载平衡
在线阅读 下载PDF
基于约简核矩阵的稀疏最小二乘支持向量机 被引量:2
19
作者 赵文杰 张立鹤 《计算机仿真》 CSCD 北大核心 2013年第7期239-242,共4页
为了解决最小二乘支持向量机模型稀疏性不足的问题,提出了一种约简核矩阵的LS-SVM稀疏化方法。按照空间两点的欧式距离寻找核矩阵中相近的行(列),并通过特定的规则进行合并,以减小核矩阵的规模,进而求得稀疏LS-SVM模型。以高斯径向基核... 为了解决最小二乘支持向量机模型稀疏性不足的问题,提出了一种约简核矩阵的LS-SVM稀疏化方法。按照空间两点的欧式距离寻找核矩阵中相近的行(列),并通过特定的规则进行合并,以减小核矩阵的规模,进而求得稀疏LS-SVM模型。以高斯径向基核函数为例,详细阐述了改进方法的实现步骤,并通过仿真表明了采用该方法求得的稀疏LS-SVM模型泛化能力良好。 展开更多
关键词 支持向量 最小二乘支持向量 矩阵 稀疏
在线阅读 下载PDF
并行稀疏矩阵与向量乘的负载平衡和通信优化 被引量:1
20
作者 付朝江 张武 杨林峰 《水动力学研究与进展(A辑)》 CSCD 北大核心 2004年第z1期937-941,共5页
 本文考虑了在工作站机群上实现大型稀疏矩阵和向量乘的负载平衡。提出了一个快速负载平衡和有效的消息传递技术相结合的方法,来缓解计算和节点间通信。该方法的性能在工作站机群上进行测试,可获得良好结果;并且,通过I/O延迟隐藏和整...  本文考虑了在工作站机群上实现大型稀疏矩阵和向量乘的负载平衡。提出了一个快速负载平衡和有效的消息传递技术相结合的方法,来缓解计算和节点间通信。该方法的性能在工作站机群上进行测试,可获得良好结果;并且,通过I/O延迟隐藏和整体负载平衡使I/O开销能有效地分摊。 展开更多
关键词 稀疏矩阵-向量乘 负载平衡 并行计算 消息传递
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部