期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
片上多核处理器的结构级功耗建模与优化技术研究 被引量:3
1
作者 张戈 胡伟武 +2 位作者 黄琨 曾洪博 王君 《自然科学进展》 北大核心 2009年第12期1398-1409,共12页
功耗是导致片上多核处理器出现故障的重要诱因,也是片上多核处理器设计的重要制约因素。如何降低多核处理器的功耗并提高处理器能量效率,具有很大的研究意义与探索空间。文中主要从体系结构设计者的角度,并结合电路实现,研究并总结纳米... 功耗是导致片上多核处理器出现故障的重要诱因,也是片上多核处理器设计的重要制约因素。如何降低多核处理器的功耗并提高处理器能量效率,具有很大的研究意义与探索空间。文中主要从体系结构设计者的角度,并结合电路实现,研究并总结纳米级工艺下片上多核处理器的功耗建模与评估方法,及其不同构件的低功耗优化技术。通过提出创新高效的多核处理器结构级功耗评估方法及其模拟平台,提高多核结构功耗模拟的准确性与灵活性,并以此为依托,开展处理器核、片上网络、片上存储及其一致性协议的各方面优化,寻求提高多核处理器功耗有效性的微体系结构,为国产多核处理器的低功耗设计提供一定借鉴与参考。 展开更多
关键词 片上多核处理器 功耗建模 功耗评估 低功耗结构
在线阅读 下载PDF
基于向量扩展多核处理器的矩阵乘法算法优化研究 被引量:4
2
作者 朱海涛 陈云霁 +2 位作者 钱诚 王玲 胡伟武 《中国科学技术大学学报》 CAS CSCD 北大核心 2011年第2期173-182,共10页
在GODSON-3B八核处理器平台上,对矩阵乘法算法进行了优化和评估,针对矩阵乘法中A,B,C三个矩阵各自的访存特点,采用不同的方法对其访存行为进行优化,隐藏访存时间,使矩阵乘法性能达到122Gflops,效率为95.3%.
关键词 多核 向量扩展 寄存器堆 矩阵乘法
在线阅读 下载PDF
龙芯2号微处理器浮点除法功能部件的形式验证 被引量:3
3
作者 陈云霁 马麟 +1 位作者 沈海华 胡伟武 《计算机研究与发展》 EI CSCD 北大核心 2006年第10期1835-1841,共7页
基于决策图的字级模型检验方法虽然能完全验证运算电路,但它从有缺陷的设计中发现系统规范的反例所需时间较长.而基于SAT的有界模型检验方法虽然能较快地发现反例,但它不支持包含数学公式的系统规范,因而难以用于验证运算电路.提出了基... 基于决策图的字级模型检验方法虽然能完全验证运算电路,但它从有缺陷的设计中发现系统规范的反例所需时间较长.而基于SAT的有界模型检验方法虽然能较快地发现反例,但它不支持包含数学公式的系统规范,因而难以用于验证运算电路.提出了基于SAT的字级模型检验方法,该方法将CNF扩展为能混合布尔公式和数学公式的E-CNF用以表示设计和系统规范,并对有界模型检验工具和SAT求解器进行字级的扩展,使它们能分别生成和处理E-CNF.龙芯2号微处理器浮点除法功能部件验证同时采用了基于PHDD和基于SAT的字级模型检验方法.数据表明,基于SAT的字级模型检验方法能快速地发现运算电路中的设计缺陷.两种方法互为补充,在能完全验证设计的同时显著缩短了设计周期. 展开更多
关键词 形式验证 PHDD 字级模型检验 SAT CNF 有界模型检验
在线阅读 下载PDF
GALS处理器的功耗有效性方法研究
4
作者 段玮 凡启飞 +1 位作者 黄琨 张戈 《高技术通讯》 CAS CSCD 北大核心 2011年第12期1232-1239,共8页
鉴于多核时代的到来使功耗成为处理器设计的首要限制因素,功耗有效性也成为重要的设计目标,而且全局异步局部同步(GALS)的时钟设计可以很好地结合动态电压/频率调节(DVFS)的策略来提高多核处理器的功耗有效性,以采用GALS结构的... 鉴于多核时代的到来使功耗成为处理器设计的首要限制因素,功耗有效性也成为重要的设计目标,而且全局异步局部同步(GALS)的时钟设计可以很好地结合动态电压/频率调节(DVFS)的策略来提高多核处理器的功耗有效性,以采用GALS结构的多核处理器为目标,设计出了一种适用于研究目标的DVFS算法——基于投票选择的延迟决定算法。这种DVFS算法能动态统计各处理器核运行时的结构信息,利用这些信息进行投票,根据投票结果来动态调节各处理器核的电压和频率,从而降低处理器运行时的功耗和提高功耗有效性。根据实验结果统计,采用上述方法的处理器运行负载程序时,功耗节省24.8%,性能损失仅9.9%。 展开更多
关键词 全局异步局部同步(GALS) 动态电压/频率调节(DVFS) 多核微处理器 功耗有效性
在线阅读 下载PDF
μC/OS在龙芯处理器上的移植及性能分析 被引量:13
5
作者 程晓宇 毕笃彦 蔡晔 《计算机工程》 CAS CSCD 北大核心 2009年第1期213-215,共3页
在以国产CPU龙芯2E为核心的PC104 Plus处理器模块上移植嵌入式实时操作系统μC/OS-II,对其实时性能进行评价。阐述处理器相关函数的编写及与PMON的整合等关键技术,讨论系统实时性能评价的一般方法,包括Rhealstone方法、进程分派延迟时... 在以国产CPU龙芯2E为核心的PC104 Plus处理器模块上移植嵌入式实时操作系统μC/OS-II,对其实时性能进行评价。阐述处理器相关函数的编写及与PMON的整合等关键技术,讨论系统实时性能评价的一般方法,包括Rhealstone方法、进程分派延迟时间法和三维表示法等。在此基础上选择Rhealstone方法中的2个指标对整个系统的实时性能进行分析。实验结果表明,系统的实时性能可满足一般实时系统的需求。 展开更多
关键词 实时操作系统 μC/OS-Ⅱ系统 龙芯
在线阅读 下载PDF
一种用于通用处理器结构优化的矩阵乘法性能模型 被引量:2
6
作者 朱海涛 李玲 +1 位作者 陈云霁 钱诚 《小型微型计算机系统》 CSCD 北大核心 2012年第5期981-986,共6页
矩阵乘法作为高性能计算中的关键组成部分,是一种具有计算和访存密集特点的典型应用,因此优化矩阵乘法的性能对通用处理器是非常重要的.为了提高矩阵乘法的性能,本文提出了一种性能模型,用于预测通用处理器上矩阵乘法的执行时间.该模型... 矩阵乘法作为高性能计算中的关键组成部分,是一种具有计算和访存密集特点的典型应用,因此优化矩阵乘法的性能对通用处理器是非常重要的.为了提高矩阵乘法的性能,本文提出了一种性能模型,用于预测通用处理器上矩阵乘法的执行时间.该模型反映了矩阵乘法执行时间与通用处理器的运算部件、访存带宽、寄存器个数等结构参数之间的关系,可以指导处理器结构的优化来平衡计算和访存能力、提高执行速度.基于该模型本文给出了在一个优化的通用处理器结构中,寄存器个数和访存带宽应满足的理论下界.本文在Godson-3B处理器平台上对该性能模型进行了验证,实验结果表明矩阵乘法执行时间的预测精确度达到95%以上.基于该模型,本文还提出了一种对Godson-3B结构进行优化的方法,使矩阵乘法的执行时间减少了50%左右. 展开更多
关键词 矩阵乘法 性能模型 通用处理器 结构优化
在线阅读 下载PDF
基于VPM和随机激励的处理器核仿真建模
7
作者 许彤 张仕健 吕涛 《计算机工程》 CAS CSCD 北大核心 2010年第20期19-21,24,共4页
为提高处理器核仿真模型的效率,提出基于SimpleScalar架构对龙芯1号处理器进行虚拟处理器模型行为建模,IPC平均误差为2.3%,速度达到每秒1 000 000条指令。基于可控随机事件机制实现的总线功能模型可以为片上系统(SoC)设计提供激励主动... 为提高处理器核仿真模型的效率,提出基于SimpleScalar架构对龙芯1号处理器进行虚拟处理器模型行为建模,IPC平均误差为2.3%,速度达到每秒1 000 000条指令。基于可控随机事件机制实现的总线功能模型可以为片上系统(SoC)设计提供激励主动生成方案和片上互连验证功能。实验结果证明,该方法对处理器IP仿真建模具有普适意义,能够被无缝融入SoC流程中。 展开更多
关键词 IP仿真模型 SimpleScalar模拟器 可控随机事件 总线功能模型 龙芯1号处理器
在线阅读 下载PDF
基于四阶段人工优化的软件流水技术 被引量:1
8
作者 周国建 吴少刚 +1 位作者 李祖松 史岗 《计算机工程》 CAS CSCD 北大核心 2009年第5期40-43,共4页
代码体积是优化存储资源有限的嵌入式系统的重要因素之一。针对该特点,使用oprofile性能分析工具,以EEMBC基准程序集作为工作负载,提出四阶段人工优化软件流水方法(FPMO)。电信类的自相关程序实验结果表明,FPMO以2.04%的代码增量为代价... 代码体积是优化存储资源有限的嵌入式系统的重要因素之一。针对该特点,使用oprofile性能分析工具,以EEMBC基准程序集作为工作负载,提出四阶段人工优化软件流水方法(FPMO)。电信类的自相关程序实验结果表明,FPMO以2.04%的代码增量为代价换来40.678%的性能提升,而单纯的编译器自动优化则以33.35%的体积膨胀换来38.33%的性能提升。 展开更多
关键词 软件流水 循环展开 性能分析 四阶段人工优化
在线阅读 下载PDF
高速信号传输技术综述 被引量:3
9
作者 张锋 《中国集成电路》 2008年第8期48-51,70,共5页
随着处理器向多核结构发展,芯片间的高速通信问题已经成为限制处理器性能的瓶颈,如何提高处理器间的总线带宽成为当前研究的重要课题。本文通过对微处理器中PCI前端总线发展历史的综述,说明高速传输总线研究的日新月异、飞速发展和Hyper... 随着处理器向多核结构发展,芯片间的高速通信问题已经成为限制处理器性能的瓶颈,如何提高处理器间的总线带宽成为当前研究的重要课题。本文通过对微处理器中PCI前端总线发展历史的综述,说明高速传输总线研究的日新月异、飞速发展和Hypertransport作为龙芯处理器总线标准的研究与开发。 展开更多
关键词 高速总线 PCI HYPERTRANSPORT
在线阅读 下载PDF
龙芯3B的SIMD编译优化及分析 被引量:9
10
作者 彭飞 顾乃杰 +1 位作者 高翔 孙明明 《小型微型计算机系统》 CSCD 北大核心 2012年第12期2733-2737,共5页
根据龙芯3B处理器特有的SIMD运算部件和指令集,在GCC编译器中实现了SIMD访存和SIMD运算的自动向量化.针对SIMD访存,给出了现有的访存方法,并详细介绍了适合龙芯3B的SIMD访存方法.对于不能自动向量化的其他SIMD运算,在GCC编译器中增加了B... 根据龙芯3B处理器特有的SIMD运算部件和指令集,在GCC编译器中实现了SIMD访存和SIMD运算的自动向量化.针对SIMD访存,给出了现有的访存方法,并详细介绍了适合龙芯3B的SIMD访存方法.对于不能自动向量化的其他SIMD运算,在GCC编译器中增加了Builtin函数的支持,用户可以根据标准函数接口调用SIMD运算函数,完成向量操作.通过对SPEC-CPU2000、DSPstone等大量benchmark的测试和分析,给出了龙芯3B SIMD运算的各项性能指数.对于性能表现不同的测试函数,均给出了详细分析数据和结论.测试表明,龙芯3B的SIMD运算在实际应用中有着良好的性能表现. 展开更多
关键词 编译优化 SIMD 自动向量化 Builtin 龙芯3B
在线阅读 下载PDF
支持V2显示芯片LVDS输出的Linux驱动 被引量:1
11
作者 朱晓静 褚越杰 +1 位作者 胡明昌 李正民 《小型微型计算机系统》 CSCD 北大核心 2010年第10期2105-2107,共3页
采用自主研发的龙芯2F处理器芯片,设计并实现了ETX计算机主板.该主板选用V2显示芯片,支持VGA与LVDS两个显示端口同时显示,分辨率达1600×1200./Linux显示驱动原始代码已经实现了V2显示芯片的VGA显示功能,但对LVDS显示功能的支持尚... 采用自主研发的龙芯2F处理器芯片,设计并实现了ETX计算机主板.该主板选用V2显示芯片,支持VGA与LVDS两个显示端口同时显示,分辨率达1600×1200./Linux显示驱动原始代码已经实现了V2显示芯片的VGA显示功能,但对LVDS显示功能的支持尚不完备.为支持V2显示芯片的LVDS端口输出,需要对Linux显示驱动程序作一系列改进,才能实现上述显示效果.这里介绍在L inux驱动源码中,针对V2显示芯片的LVDS端口输出所作的一系列改进优化工作. 展开更多
关键词 显示芯片 LVDS 双路显示 驱动程序 LINUX内核 改进
在线阅读 下载PDF
Spec CPU2000基准程序运行路径分析 被引量:4
12
作者 葛仁北 《计算机工程》 CAS CSCD 北大核心 2007年第7期38-40,共3页
Spec CPU2000的基准程序被广泛地应用于处理器的设计性能评估。在微处理器RTL级系统评估过程中,需要运行一些性能评估代码来完成系统的评估,因为运行整个基准程序的代价很大,所以都用运行部分代码的方式来获得性能情况。该文利用基准程... Spec CPU2000的基准程序被广泛地应用于处理器的设计性能评估。在微处理器RTL级系统评估过程中,需要运行一些性能评估代码来完成系统的评估,因为运行整个基准程序的代价很大,所以都用运行部分代码的方式来获得性能情况。该文利用基准程序的频繁函数提取出微程序的方法,用于微处理器RTL级系统的评估,在函数提取过程中研究函数内部的频繁使用路径,研究了这些最频繁函数中的最频繁使用路径,了解基准程序的运行行为,为处理器的初级阶段的研究提供一些类基准程序,快速评估初级的处理器性能。 展开更多
关键词 微处理器 SPEC CPU 2000 基准程序 路经分析
在线阅读 下载PDF
基于流水思想的虚拟网络广多播优化策略
13
作者 闫超 王光旭 刘明 《计算机工程》 CAS CSCD 北大核心 2011年第3期87-89,92,共4页
对TCP/IP协议中的链路层广播、多播应用以及多处理器环境中基于共享内存的虚拟网络设备的实现进行分析。对比以太网和基于共享内存的虚拟网络条件下实现广播、组播时物理层及数据链路层的不同。分析VxWorks操作系统中基于共享内存的虚... 对TCP/IP协议中的链路层广播、多播应用以及多处理器环境中基于共享内存的虚拟网络设备的实现进行分析。对比以太网和基于共享内存的虚拟网络条件下实现广播、组播时物理层及数据链路层的不同。分析VxWorks操作系统中基于共享内存的虚拟网络设备驱动程序对广播、组播的实现策略,并根据多龙芯2E处理器并行信号处理板的结构特点提出基于流水思想的优化策略。优化后的网络具有更好的实时性、节点负载均衡性和更高的传输效率。 展开更多
关键词 广多播 共享内存 虚拟网络 VXWORKS操作系统 流水
在线阅读 下载PDF
一种多倍数据供应的编译优化方法
14
作者 彭飞 顾乃杰 +1 位作者 高翔 孙明明 《小型微型计算机系统》 CSCD 北大核心 2011年第11期2280-2284,共5页
数据的快速及时供应对访存密集型程序的性能有着直接的影响.提出一种多倍数据供应MDS(Multiple Data Supply)的编译优化方法,在不增加处理器设计复杂度的前提下,利用现有处理器的高带宽,一次对内存进行多个数据的读写,减少访存次数,提... 数据的快速及时供应对访存密集型程序的性能有着直接的影响.提出一种多倍数据供应MDS(Multiple Data Supply)的编译优化方法,在不增加处理器设计复杂度的前提下,利用现有处理器的高带宽,一次对内存进行多个数据的读写,减少访存次数,提高应用程序效率.在编译优化阶段,利用自动向量化技术,生成向量形式的树结构,增加一条新的扩展路径来处理从向量化的树结构到底层结构的扩展.针对向量化后树结构的多样性问题,设计新的优化遍以及RAC(Register Assignment Chain)替换算法进行专门处理.在龙芯3A处理器平台上,对SPEC-CPU2000的测试,CINT程序平均性能提升11.6%,CFP程序平均性能提升14.4%. 展开更多
关键词 编译优化 MDS多倍数据供应 自动向量化 RAC替换算法 龙芯3A
在线阅读 下载PDF
基于覆盖率模型的AMBA接口随机验证方法
15
作者 许彤 吕涛 《计算机应用研究》 CSCD 北大核心 2008年第7期2078-2080,2137,共4页
AMBA协议是主流SoC(system-on-chip)片上总线的事实标准。结合龙芯1号AHB接口的验证,介绍了基于覆盖率模型的AMBA接口随机验证的系统架构,提出了AHB协议模型的定义方法,采用约束化随机向量对目标空间产生强化测试。该方法迅速定位了接... AMBA协议是主流SoC(system-on-chip)片上总线的事实标准。结合龙芯1号AHB接口的验证,介绍了基于覆盖率模型的AMBA接口随机验证的系统架构,提出了AHB协议模型的定义方法,采用约束化随机向量对目标空间产生强化测试。该方法迅速定位了接口设计中隐蔽的问题,最终达到了100%的功能覆盖率。该方法能够有效地保证接口设计的质量,对互连协议的验证具有普适意义。 展开更多
关键词 覆盖率模型 约束化随机测试 AMBAAHB 龙芯1号IP核 片上系统 设计重用
在线阅读 下载PDF
片上偏差模型下Mesh结构时钟网络性能不确定性的分析 被引量:3
16
作者 杨梁 范宝峡 赵继业 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2010年第11期2045-2052,共8页
由于多驱动及回路特征使得Mesh结构时钟网络分析较为复杂,现有的定性或定量分析方法都难以针对具体Mesh结构设计寻求到准确的时钟不确定性约束,为此提出基于Mesh结构在片波动简化模型的时钟不确定性的遗传算法求解方法.首先将众多片上... 由于多驱动及回路特征使得Mesh结构时钟网络分析较为复杂,现有的定性或定量分析方法都难以针对具体Mesh结构设计寻求到准确的时钟不确定性约束,为此提出基于Mesh结构在片波动简化模型的时钟不确定性的遗传算法求解方法.首先将众多片上偏差源转化为单级延迟概率密度分布,然后进行多级传播叠加为Mesh结构末级驱动点延迟分布,进而缩减变量数目,合理分离时钟网络中树形结构和Mesh结构.在此基础上,借助遗传算法的全局趋优搜索能力来求解Mesh结构性能不确定性问题,以得到更为合理的时序裕量估算.与传统的蒙特卡洛分析方法及定性解析分析方法相比,基于65nm工艺的仿真实验结果证明了该方法的有效性. 展开更多
关键词 片上偏差 MESH结构 时钟网络分析 时钟不确定性 蒙特卡洛分析 遗传算法
在线阅读 下载PDF
基于长生命周期对象的混合垃圾收集 被引量:1
17
作者 伍鸣 齐骥 邹琼 《小型微型计算机系统》 CSCD 北大核心 2008年第7期1190-1195,共6页
Java语言因其在软件工程上的优势而被广泛地用来进行服务器应用的开发.这些应用中通常存在着大量的长生命周期的对象.单一的经典的垃圾收集算法不能够有效地减少对长生命周期对象的重复处理.一种基于长生命周期对象的混合垃圾收集算... Java语言因其在软件工程上的优势而被广泛地用来进行服务器应用的开发.这些应用中通常存在着大量的长生命周期的对象.单一的经典的垃圾收集算法不能够有效地减少对长生命周期对象的重复处理.一种基于长生命周期对象的混合垃圾收集算法(LLH)被设计和实现.该算法结合了缩并,复制和分代收集的特点,通过这些经典算法的动态切换与协作来解决这一问题.实验结果表明,与经典的分代垃圾收集相比,LLH收集算法能够使SPECjbb2005的Throughput分值提高3%~25%. 展开更多
关键词 JAVA 垃圾收集 对象生命周期
在线阅读 下载PDF
具有关键路径检测功能的脉冲触发器电路及应用 被引量:1
18
作者 石瑞恺 王昊 +1 位作者 杨梁 章隆兵 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2019年第12期2197-2206,共10页
由于在实际生产和工作过程中受到多种复杂因素的影响,集成电路的关键路径会发生不确定的变化.这导致时序分析结果出现较大偏差,芯片的硅前-硅后一致性难以保证.为此,提出一种具备关键路径检测功能的脉冲触发器电路.该电路复用功能模式... 由于在实际生产和工作过程中受到多种复杂因素的影响,集成电路的关键路径会发生不确定的变化.这导致时序分析结果出现较大偏差,芯片的硅前-硅后一致性难以保证.为此,提出一种具备关键路径检测功能的脉冲触发器电路.该电路复用功能模式下的冗余锁存器作为影子锁存器,并在其数据输入端插入额外的传播延迟,使2个锁存器具有不同的建立时间裕量;再通过比较2个锁存器的采样值差异实现关键路径检测功能.HSPICE仿真结果表明,该电路实现了脉冲触发器的基本功能并且能够有效地检测出关键路径;与其他几种设计相比,该电路的面积开销较小且具备显著的功耗优化手段.最后,给出该电路的集成使用流程,使之应用到物理设计中. 展开更多
关键词 关键路径 时序检测 脉冲触发器 物理设计
在线阅读 下载PDF
采用同步分析的零延迟GRLS通信机制
19
作者 王茹 王焕东 +1 位作者 范宝峡 杨梁 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2011年第8期1455-1462,共8页
全局异步局部同步(GALS)与频率调整相结合能够有效地降低动态功耗.针对频率切换以及跨时钟域传输开销会损害芯片性能的问题,提出一种基于计数器的分频方法.该方法根据计数结果生成分频后的时钟沿,并在此基础上建立了一个全局比例同步局... 全局异步局部同步(GALS)与频率调整相结合能够有效地降低动态功耗.针对频率切换以及跨时钟域传输开销会损害芯片性能的问题,提出一种基于计数器的分频方法.该方法根据计数结果生成分频后的时钟沿,并在此基础上建立了一个全局比例同步局部同步(GRLS)的通信机制.GRLS利用2个时钟的频率及相位关系实现了零延迟的跨时钟域传输,并引进同步电路分析方法来保证其正确性和健壮性;GRLS不会对原有的时钟设计做任何改变,频率切换可以在一个周期内完成,且面积功耗开销可以忽略不计.最后通过基于GRLS建立的存储系统证明了该机制的高效性.目前GRLS已经成功地应用于一款商业SoC. 展开更多
关键词 全局异步局部同步 全局比例同步局部同步 频率比例 零延迟 同步机制
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部