期刊文献+
共找到97篇文章
< 1 2 5 >
每页显示 20 50 100
A parallel memory architecture for video coding
1
作者 Jian-ying PENG Xiao-lang YAN +1 位作者 De-xian LI Li-zhong CHEN 《Journal of Zhejiang University-Science A(Applied Physics & Engineering)》 SCIE EI CAS CSCD 2008年第12期1644-1655,共12页
To efficiently exploit the performance of single instruction multiple data (SIMD) architectures for video coding, a parallel memory architecture with power-of-two memory modules is proposed. It employs two novel ske... To efficiently exploit the performance of single instruction multiple data (SIMD) architectures for video coding, a parallel memory architecture with power-of-two memory modules is proposed. It employs two novel skewing schemes to provide conflict-free access to adjacent elements (8-bit and 16-bit data types) or with power-of-two intervals in both horizontal and vertical directions, which were not possible in previous parallel memory architectures. Area consumptions and delay estimations are given respectively with 4, 8 and 16 memory modules. Under a 0.18-pm CMOS technology, the synthesis results show that the proposed system can achieve 230 MHz clock frequency with 16 memory modules at the cost of 19k gates when read and write latencies are 3 and 2 clock cycles, respectively. We implement the proposed parallel memory architecture on a video signal processor (VSP). The results show that VSP enhanced with the proposed architecture achieves 1.28× speedups for H.264 real-time decoding. 展开更多
关键词 Single instruction multiple data (SIMD) Video coding Parallel memory Skewing scheme
在线阅读 下载PDF
基于重用距离的访存指令优化
2
作者 魏雨桐 顾乃杰 +2 位作者 黄章进 苏俊杰 齐东升 《小型微型计算机系统》 CSCD 北大核心 2024年第11期2784-2789,共6页
随着机器学习、推荐系统和社交网络等数据驱动类技术的发展,数据正在以流的形式呈现.传统的缓存替换算法无法有效适应应用程序的流式访问行为,导致数据流程序带来了大量的缓存未命中与严重的缓存污染问题.本文依据数据流程序变化带来的... 随着机器学习、推荐系统和社交网络等数据驱动类技术的发展,数据正在以流的形式呈现.传统的缓存替换算法无法有效适应应用程序的流式访问行为,导致数据流程序带来了大量的缓存未命中与严重的缓存污染问题.本文依据数据流程序变化带来的新的局部性优化挑战,提出了一种基于重用距离和非时态访存指令的优化方法RDNT.该方法首先筛选内存访问指令,然后计算重用距离,最后用非时态内存访问指令替换重用距离过大的常规内存访问指令.在SPEC CPU 2017测试集的实验结果表明,RDNT能够有效提高程序性能,与常规访存方式相比产生了8%的加速比,降低了程序的运行时间. 展开更多
关键词 LLVM编译器 缓存污染 内存访问指令 编译器优化
在线阅读 下载PDF
基于BOOM处理器的访存逻辑优化
3
作者 周蔺宁 刘杰 +3 位作者 李洪奎 付浩东 刘红海 肖浩 《计算机工程与科学》 CSCD 北大核心 2024年第8期1390-1394,共5页
BOOM处理器采用的Store指令回查策略虽然解决了访存指令乱序执行引发的数据冲突问题,但是该策略会导致流水线的大量冲刷,降低了处理器的性能。对此,提出了一种访存指令的相关性预测方法。该方法取消了Load指令访存前的查询操作,增加了L... BOOM处理器采用的Store指令回查策略虽然解决了访存指令乱序执行引发的数据冲突问题,但是该策略会导致流水线的大量冲刷,降低了处理器的性能。对此,提出了一种访存指令的相关性预测方法。该方法取消了Load指令访存前的查询操作,增加了Load指令相关性预测表,只有预测为无相关性的Load指令才可以乱序执行。这种方法在保证程序逻辑正确的前提下避免了大量冲刷流水线。测试程序采用SPEC CPU 2006下的7个子程序,实验结果表明,改进后的处理器执行程序的性能平均提升了3.5%。 展开更多
关键词 乱序执行 访存指令 相关性预测
在线阅读 下载PDF
多核堆栈处理器研究与设计
4
作者 刘自昂 周永录 +1 位作者 代红兵 刘宏杰 《计算机工程与设计》 北大核心 2024年第4期1256-1263,共8页
为满足日趋复杂的嵌入式环境对堆栈处理器和Forth技术的应用需求,在单核堆栈处理器模型研究的基础上,设计一种多核堆栈处理器模型。基于J1单核堆栈处理器模型,针对多核目标,增加计时器、中断等功能,形成新的L32单核堆栈处理器模型,并以... 为满足日趋复杂的嵌入式环境对堆栈处理器和Forth技术的应用需求,在单核堆栈处理器模型研究的基础上,设计一种多核堆栈处理器模型。基于J1单核堆栈处理器模型,针对多核目标,增加计时器、中断等功能,形成新的L32单核堆栈处理器模型,并以该单核模型为内核,引入共享总线和十字开关互联方式的Wishbone总线、多端口存储器和面向多任务Forth系统的指令集,建立一种多核堆栈处理器模型L32-MC。利用该多核模型,在FPGA上实现4核和8核的L32-MC原型多核堆栈处理器。实验结果表明,4核和8核的L32-MC原型堆栈处理器满足高性能低功耗的多核处理器设计目标。 展开更多
关键词 多核堆栈处理器 Forth技术 Wishbone片上总线 多端口存储器 指令集 现场可编程门阵列 嵌入式
在线阅读 下载PDF
便笺式存储器中一种新颖的交错映射数据布局
5
作者 曾灵灵 张敦博 +1 位作者 沈立 窦强 《计算机工程》 CAS CSCD 北大核心 2024年第5期33-40,共8页
现代计算机一直沿用传统的线性数据布局模式,该模式允许对使用行主序模式存储的二维矩阵进行高效的行优先数据访问,但是增加了高效执行列优先数据访问的复杂性,造成列优先访问的空间局部性较差。改善列优先数据访存效率的常见解决方案... 现代计算机一直沿用传统的线性数据布局模式,该模式允许对使用行主序模式存储的二维矩阵进行高效的行优先数据访问,但是增加了高效执行列优先数据访问的复杂性,造成列优先访问的空间局部性较差。改善列优先数据访存效率的常见解决方案是对原始矩阵进行预先转置操作,将列优先访问的复杂性集中在一次矩阵转置运算中,然而矩阵转置不仅会引入额外的数据传输操作,而且会消耗额外的存储空间用于存储转置后的矩阵。为了在不引入额外开销的情况下使行优先与列优先数据访问具有同样高效的访存效率,提出一种新颖的交错映射(IM)数据布局,同时在不改变便笺式存储器(SPM)内部结构的基础上,在SPM的输入和输出(I/O)接口处添加循环移位单元和译码单元2个新组件,实现交错映射数据布局并定制访存指令,使程序员可通过定制的访存指令充分利用该数据布局。实验结果表明,应用交错映射数据布局的SPM在仅额外增加了1.73%面积开销的情况下获得了1.4倍的加速。 展开更多
关键词 矩阵转置 单指令多数据 便笺式存储器 数据布局 静态随机存储器
在线阅读 下载PDF
基于GRU_LSTM及RL算法的伪随机指令生成器
6
作者 欧阳有恒 严大卫 《计算机技术与发展》 2024年第2期78-83,共6页
在CPU验证过程中,传统伪随机指令生成器通过生成大量合法无序的指令序列,从而实现功能覆盖率或代码覆盖率的验证目标。然而,没有趋向针对性的指令生成,为达到指标需要耗费大量的人力及时间成本。该文以一款基于精简指令集(RISC-V)自研... 在CPU验证过程中,传统伪随机指令生成器通过生成大量合法无序的指令序列,从而实现功能覆盖率或代码覆盖率的验证目标。然而,没有趋向针对性的指令生成,为达到指标需要耗费大量的人力及时间成本。该文以一款基于精简指令集(RISC-V)自研核心为例,在基于通用验证方法学(Universal Verification Methodology, UVM)的验证平台上设计出一种伪随机指令生成器,并针对普通伪随机指令生成器覆盖率低、收敛速度慢的问题,建立GRU_LSTM算法模型,并结合强化学习(Reinforcement Learning, RL)算法构建新算法模型RLGRU_LSTM应用于伪随机指令生成过程,并且针对RL方向决策,提出了基于霍夫曼编码的CPU指令包编码方式训练opcode分布,同时融合了CPU指令类型和指令间执行顺序因素,快速捕获人工定向验证预料不到的验证盲点,有效加快了代码覆盖率达到预期的进程。该文着重描述伪随机指令生成器及RLGRU_LSTM算法对模型训练过程的指导。实验结果表明,与直接使用伪随机指令生成技术相比,该方法在约定伪随机指令条目下,相比传统伪随机方法能提高约19%的覆盖率,收敛至目标覆盖率消耗时长减少22%。 展开更多
关键词 门控循环单元 长短记忆 强化学习 伪随机指令生成 通用验证方法学
在线阅读 下载PDF
认知策略选择的元认知因素 被引量:18
7
作者 刘伟方 司继伟 王玉璇 《心理科学进展》 CSSCI CSCD 北大核心 2011年第9期1328-1338,共11页
元认知指个体对自我认知过程的认知。元认知与策略选择的研究自上世纪80年代兴起,并在随后的30年里取得了丰硕成果,近年来,涌现出了不少新的相关研究。基于近10年的国内外研究,从学习与记忆、问题解决、策略干预三个方面就当今元认知与... 元认知指个体对自我认知过程的认知。元认知与策略选择的研究自上世纪80年代兴起,并在随后的30年里取得了丰硕成果,近年来,涌现出了不少新的相关研究。基于近10年的国内外研究,从学习与记忆、问题解决、策略干预三个方面就当今元认知与策略选择的研究新进展进行了分析。基于梳理,认为元认知在高水平调节、基本记忆策略与策略干预、深层次运作机制及创新研究技术手段方面尚需突破。 展开更多
关键词 元认知 策略选择 学习与记忆 问题解决 策略干预
在线阅读 下载PDF
元记忆教育训练的认知研究 被引量:5
8
作者 邓铸 李学亮 《华东师范大学学报(教育科学版)》 CSSCI 北大核心 1997年第4期68-73,67,共7页
元记忆(metamemory)就是记忆者本人具有的与记忆有关的知识信念及监控系统,是记忆者对自己记忆的认知,并对自己的记忆过程实现监测调控作用。元记忆是本世纪70年代发展起来的记忆研究的新领域。90年代我国心理学工作者开始展开对元记忆... 元记忆(metamemory)就是记忆者本人具有的与记忆有关的知识信念及监控系统,是记忆者对自己记忆的认知,并对自己的记忆过程实现监测调控作用。元记忆是本世纪70年代发展起来的记忆研究的新领域。90年代我国心理学工作者开始展开对元记忆能力发展的研究。为推动这一课题在国内的深入,本文对有关元记忆教育训练的认知研究进行综述,试图勾划出对青少年进行元记忆教育训练的基本思路和有待进一步研究的问题。 展开更多
关键词 元记忆能力 年幼儿童 教育训练 认知研究 记忆策略 词表 memory KNOWING 记忆成绩 instructional
在线阅读 下载PDF
流体系结构指令存储器优化设计研究 被引量:3
9
作者 管茂林 何义 +2 位作者 杨乾明 张春元 伍楠 《电子学报》 EI CAS CSCD 北大核心 2012年第7期1379-1385,共7页
针对流体系结构中VLIW代码体积对指令存储器的容量和功耗带来的问题,本文通过分析流处理器的指令特征,提出了一种新的VLIW分域压缩技术.在此基础上,本文为流体系结构设计了分布式的片上指令存储器,并提出了SIMD流水的执行模式.实验结果... 针对流体系结构中VLIW代码体积对指令存储器的容量和功耗带来的问题,本文通过分析流处理器的指令特征,提出了一种新的VLIW分域压缩技术.在此基础上,本文为流体系结构设计了分布式的片上指令存储器,并提出了SIMD流水的执行模式.实验结果证明,该技术减少了38%的片外指令访存,降低约65%的片上指令存储器空间需求;分布式指令存储器减少了约37%的片上指令存储器面积,使得MASA的系统面积降低了8.92%,并降低了61%的指令存储器功耗. 展开更多
关键词 流体系结构 分布式指令存储器 VLIW压缩
在线阅读 下载PDF
具有高效混洗模式存储器的可编程混洗单元 被引量:2
10
作者 万江华 刘胜 +2 位作者 周锋 王耀华 陈书明 《国防科技大学学报》 EI CAS CSCD 北大核心 2011年第6期31-35,共5页
为向量DSP提出并设计了一种具有高效混洗模式存储器的可编程混洗单元,该结构能够使应用程序的混洗指令在执行时和通用寄存器或访存带宽等系统的关键资源分离,从而提高混洗单元的执行效率。采用区分不同混洗粒度和元素索引等方法对混洗... 为向量DSP提出并设计了一种具有高效混洗模式存储器的可编程混洗单元,该结构能够使应用程序的混洗指令在执行时和通用寄存器或访存带宽等系统的关键资源分离,从而提高混洗单元的执行效率。采用区分不同混洗粒度和元素索引等方法对混洗模式所对应的开关矩阵进行了压缩,我们的存储效率高于当前其他方案。该混洗单元具有可编程的特点,应用程序所需要的混洗模式可以提前由程序员编写并通过DMA等途径加载。对该混洗单元进行了VLSI实现及性能评测,结果显示此方案能够在给系统带来0.6%的额外面积开销基础上使应用程序的性能提升7.4%~17.4%。 展开更多
关键词 向量DSP 混洗单元 混洗模式存储器 混洗指令 存储效率
在线阅读 下载PDF
面向异构众核从核的数学函数库访存优化方法 被引量:6
11
作者 许瑾晨 郭绍忠 +1 位作者 黄永忠 王磊 《计算机科学》 CSCD 北大核心 2014年第6期12-17,共6页
数学库函数算法的特性致使函数存在大量的访存,而当前异构众核的从核结构采用共享主存的方式实现数据访问,从而严重影响了从核的访存速度,因此异构众核结构中数学库函数的性能无法满足高性能计算的要求。为了有效解决此问题,提出了一种... 数学库函数算法的特性致使函数存在大量的访存,而当前异构众核的从核结构采用共享主存的方式实现数据访问,从而严重影响了从核的访存速度,因此异构众核结构中数学库函数的性能无法满足高性能计算的要求。为了有效解决此问题,提出了一种基于访存指令的调度策略,亦即将访存延迟有效地隐藏于计算延迟中,以提高基于汇编实现的数学函数库的函数性能;结合动态调用方式,利用从核本地局部数据存储空间LDM(local data memory),提出了一种提高访存速度的ldm_call算法。两种优化技术在共享存储结构下具有普遍适用性,并能够有效减少函数访存开销,提高访存速度。实验表明,两种技术分别能够平均提高函数性能16.08%和37.32%。 展开更多
关键词 异构众核 数学函数库 访存优化 指令调度 局部数据存储空间
在线阅读 下载PDF
8位RISC MCU IP软核仿真的新方法 被引量:2
12
作者 王祖强 张华 李玲 《计算机工程》 CAS CSCD 北大核心 2007年第6期248-249,共2页
介绍了一种8位RISCMCUIP核的体系结构,采用自顶向下的设计思想对其进行模块划分,分析了流水线及跳转指令操作的实现,提出建立虚拟指令存储器模块对MCUIP核仿真的方案,并给出对虚拟指令存储器初始化的方法,该方法提高了MCUIP软核仿真的... 介绍了一种8位RISCMCUIP核的体系结构,采用自顶向下的设计思想对其进行模块划分,分析了流水线及跳转指令操作的实现,提出建立虚拟指令存储器模块对MCUIP核仿真的方案,并给出对虚拟指令存储器初始化的方法,该方法提高了MCUIP软核仿真的效率。 展开更多
关键词 RISC MCU 仿真 指令存储器模块
在线阅读 下载PDF
诱发及个体自发认知重评对情绪唤醒反应及情绪记忆的影响 被引量:5
13
作者 安献丽 陈四光 束丽 《心理科学》 CSSCI CSCD 北大核心 2015年第5期1032-1038,共7页
为了明确诱发(IRE)及个体习惯化的自发(SRE)认知重评策略对情绪唤醒反应及情绪记忆的影响,在测量被试SRE水平的基础上,先呈现一系列中性与负性情绪图片,要求被试对图片内容进行自然观看或认知重评,同时记录被试的主观与生理唤醒水平,之... 为了明确诱发(IRE)及个体习惯化的自发(SRE)认知重评策略对情绪唤醒反应及情绪记忆的影响,在测量被试SRE水平的基础上,先呈现一系列中性与负性情绪图片,要求被试对图片内容进行自然观看或认知重评,同时记录被试的主观与生理唤醒水平,之后对图片进行自由回忆及再认测试。发现IRE显著降低了情绪唤醒水平及再认正确率,但只对情绪唤醒反应较高的LR(SRE水平较低)被试有效。结果提示,IRE对情绪唤醒反应与情绪记忆的调控受到SRE的影响。 展开更多
关键词 诱发认知重评 自发认知重评 情绪唤醒 皮肤电反应 情绪记忆
在线阅读 下载PDF
CPU仿真器MCS中存贮结构仿真的实现 被引量:1
14
作者 李锋 王雷 +1 位作者 刘又诚 周伯生 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2001年第4期438-443,共6页
仿真器是进行硬件设计评估 ,系统软件设计开发和计算机体系结构研究的有力工具 ,而对内存的仿真是系统级仿真器的重要组成部分 ,其仿真效率直接影响整个仿真器的性能 .以一款基于VLIW(超长指令字 )结构的CPU仿真器———MCS为例 ,研究... 仿真器是进行硬件设计评估 ,系统软件设计开发和计算机体系结构研究的有力工具 ,而对内存的仿真是系统级仿真器的重要组成部分 ,其仿真效率直接影响整个仿真器的性能 .以一款基于VLIW(超长指令字 )结构的CPU仿真器———MCS为例 ,研究了高效内存仿真的实现方法 .MCS为目标应用程序提供了一个仿真运行平台 ,从而达到评估CPU设计 ,分析指令效率 。 展开更多
关键词 仿真 存储器 指令系统 超指令字 MCS MMU CPU 存贮结构
在线阅读 下载PDF
基于GPU的并行计算性能分析模型 被引量:3
15
作者 王卓薇 程良伦 赵武清 《计算机科学》 CSCD 北大核心 2014年第1期31-38,共8页
针对GPU并行计算领域缺少精确的性能分析模型和有针对性的性能优化方法,提出一种基于GPU的并行计算性能定量分析模型,其通过对指令流水线、共享存储器访存、全局存储器访存的性能建模,来定量分析并行程序,帮助程序员找到程序运行瓶颈,... 针对GPU并行计算领域缺少精确的性能分析模型和有针对性的性能优化方法,提出一种基于GPU的并行计算性能定量分析模型,其通过对指令流水线、共享存储器访存、全局存储器访存的性能建模,来定量分析并行程序,帮助程序员找到程序运行瓶颈,进行有效的性能优化。实验部分通过3个具有代表性的实际应用(稠密矩阵乘法、三对角线性方程组求解、稀疏矩阵矢量乘法)的性能分析证明了该模型的实用性,并有效地实现了算法的优化。 展开更多
关键词 GPU 性能定量分析模型 指令流水线 共享存储器访存 全局存储器访存
在线阅读 下载PDF
嵌入式软硬件低功耗优化研究综述 被引量:17
16
作者 周宽久 迟宗正 西方 《计算机应用研究》 CSCD 北大核心 2010年第2期423-428,共6页
随着时代的进步,制约着嵌入式设备广泛应用的障碍不再是处理器的速度、芯片的工艺,而是设备功耗。如何在相同能量的供给情况下工作时间最长、完成的任务最多,或者是运行相同的程序使用较少的能量成为嵌入式领域备受关注的研究方向。从... 随着时代的进步,制约着嵌入式设备广泛应用的障碍不再是处理器的速度、芯片的工艺,而是设备功耗。如何在相同能量的供给情况下工作时间最长、完成的任务最多,或者是运行相同的程序使用较少的能量成为嵌入式领域备受关注的研究方向。从硬件级、指令级和编译过程三个层次,由各层次相应公式的各个参数展开,对国内外的功耗优化研究现状进行综述和评价,并最终结合实验室SPARC仿真项目,提出基于SPARC仿真功耗优化研究的三个方向。 展开更多
关键词 功耗优化 硬件级 指令级 编译优化 静态功耗 漏电流 内联优化 高速暂存区
在线阅读 下载PDF
一种基于GPU的高精度体系结构级功耗模型 被引量:2
17
作者 王卓薇 程良伦 肖红 《计算机科学》 CSCD 北大核心 2016年第11期30-35,共6页
随着硬件功能的不断丰富和软件开发环境的逐渐成熟,GPU开始被应用于通用计算领域,协助CPU加速程序运行。为了追求高性能,GPU往往包含成百上千个核心运算单元,高密度的计算资源使得其性能远高于CPU的同时功耗也高于CPU,功耗问题已经成为... 随着硬件功能的不断丰富和软件开发环境的逐渐成熟,GPU开始被应用于通用计算领域,协助CPU加速程序运行。为了追求高性能,GPU往往包含成百上千个核心运算单元,高密度的计算资源使得其性能远高于CPU的同时功耗也高于CPU,功耗问题已经成为制约GPU发展的重要问题之一。在深入研究Fermi GPU架构的基础上,提出一种高精度的体系结构级功耗模型,该模型首先计算不同native指令及每次访问存储器消耗的功耗;然后根据应用在硬件上的执行指令和采样工具获得采样结果,分析预测其功耗;最后通过13个基准测试应用对实际测试与功耗模型测试结果进行对比分析,该模型的预测精度可达90%左右。 展开更多
关键词 GPU FERMI 功耗模型 native指令 存储器功耗
在线阅读 下载PDF
分布式教学系统DECnet-DI的设计和实现 被引量:3
18
作者 朱新华 鞠九滨 《计算机应用与软件》 CSCD 1996年第3期30-36,共7页
本文介绍一个分布式教学系统DECnet-DI的设计和实现,DECnet-DI是在DECnet的VAX机群上开发的。该系统利用教师进程与学生进程间的通信进行各种教学活动,具有教师用户位置透明的特点。
关键词 CAI 分布式教学系统 DECnet-DI 设计
在线阅读 下载PDF
一种改进的多核处理器硬件预取技术 被引量:2
19
作者 方娟 张红波 《计算机科学》 CSCD 北大核心 2012年第S2期48-50,64,共4页
存储访问延迟一直是制约计算机系统整体性能的瓶颈,多核处理器的出现使"存储墙"问题更加严重。预取技术可以隐藏存储访问延迟,因此基于多核处理器的预取技术最近成为学术界研究的热点。研究了目前较为新颖的多核处理器预取技... 存储访问延迟一直是制约计算机系统整体性能的瓶颈,多核处理器的出现使"存储墙"问题更加严重。预取技术可以隐藏存储访问延迟,因此基于多核处理器的预取技术最近成为学术界研究的热点。研究了目前较为新颖的多核处理器预取技术Future execution,然后针对其缺陷提出改进,即提出了FE-Runahead架构,其减少了二级Cache访问缺失,提高了二级Cache命中率。实验结果表明,改进后的预取架构的二级Cache命中率提高了约9%,相对执行时间减少了8%。 展开更多
关键词 CMP 访存模式 存储访问延迟 指令窗口
在线阅读 下载PDF
GPU矩阵乘法的性能定量分析模型 被引量:1
20
作者 尹孟嘉 许先斌 +1 位作者 熊曾刚 张涛 《计算机科学》 CSCD 北大核心 2015年第12期13-17,22,共6页
性能评价和优化是设计高效率并行程序必不可少的重要工作,存储系统的性能高低直接影响到处理器的整体性能。利用GPGPU-Sim对GPU的存储层次结构进行了模拟,找出了SM数量与存储控制器数量之间最佳配置关系。矩阵乘法是科学计算领域中的基... 性能评价和优化是设计高效率并行程序必不可少的重要工作,存储系统的性能高低直接影响到处理器的整体性能。利用GPGPU-Sim对GPU的存储层次结构进行了模拟,找出了SM数量与存储控制器数量之间最佳配置关系。矩阵乘法是科学计算领域中的基本组成部分,是一种具有计算和访存密集特点的典型应用,其性能是GPU高性能计算的一个重要指标。性能模型作为并行系统性能评价的新的技术解决方案,具有许多其它性能评价方法无法比拟的优势。建立了一个性能模型,模型通过对指令流水线、共享存储器访存、全局存储器访存进行定量分析,找到了程序运行瓶颈,提高了执行速度。实验证明,该模型具有实用性,并有效地实现了矩阵乘法的优化。 展开更多
关键词 GPU GPGPU-Sim 矩阵乘法 性能定量分析模型 指令流水线 共享存储器访存 全局存储器访存
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部