可重构密码流体系结构是一种面向密码运算的新型体系结构,但存在着超长指令字(VLIW)代码稀疏和Kernel体积过大的问题。该文以可重构密码流处理架构S-RCCPA为研究平台,通过大量密码算法在S-RCCPA架构上的适配分析,提出了VLIW可重构技术,...可重构密码流体系结构是一种面向密码运算的新型体系结构,但存在着超长指令字(VLIW)代码稀疏和Kernel体积过大的问题。该文以可重构密码流处理架构S-RCCPA为研究平台,通过大量密码算法在S-RCCPA架构上的适配分析,提出了VLIW可重构技术,并设计了Kernel级指令集、VLIW可重构算法及指令可重构单元。实验证明,该技术能够有效提高VLIW的指令密度,同时降低了VLIW的指令宽度,使得整个Kernel体积减小了约33.3%,并将微码存储器的容量由96 k B降为64 k B,有效降低芯片整体面积和系统功耗。展开更多
数字图像处理(Digital Image Processing)广泛应用于航空航天、生物医学工程、通信工程、工业和工程、军事公安、文化艺术等方面。由于一些应用的实时性和环境要求,通常采用数字信号处理器(Digital Signal Processing,简称DSP)处理图像...数字图像处理(Digital Image Processing)广泛应用于航空航天、生物医学工程、通信工程、工业和工程、军事公安、文化艺术等方面。由于一些应用的实时性和环境要求,通常采用数字信号处理器(Digital Signal Processing,简称DSP)处理图像。采用超长指令字(Very Long Instruction Word,简称VLIW)体系结构的DSP由于功耗低、硬件结构简单和并行性好等优点,在实时图像处理应用中使用广泛。根据图像处理算法特点和VLIW DSP体系结构特点提出在VLIW DSP上优化图像处理算法的一般方法,包括存储优化方法和指令级并行优化方法。最后采用提出的方法对多个常用的图像处理算法优化,试验结果表明有较好优化效果。展开更多
针对传统超长指令字(Very Long Instruction Word,VLIW)处理器代码体积增大会显著降低处理器性能的问题,设计了一种八流出新型变长指令跨边界派发窗。该派发窗兼容压缩指令派发功能,支持压缩指令和整字指令混合派发,有效减小了处理器代...针对传统超长指令字(Very Long Instruction Word,VLIW)处理器代码体积增大会显著降低处理器性能的问题,设计了一种八流出新型变长指令跨边界派发窗。该派发窗兼容压缩指令派发功能,支持压缩指令和整字指令混合派发,有效减小了处理器代码体积。同时该派发窗引入指令跨边界派发机制,进一步排出指令间无用气泡。通过搭建派发窗仿真模型,并基于DSP/VoLIB库进行仿真,结果显示,采用新型变长指令跨边界派发窗能够充分发挥指令级并行优势。经编译器调度优化后,库中典型程序体积比传统派发窗平均降低约19.26%,处理器性能提升约15.4%。展开更多
为了提高嵌入式图形处理器GPU(Graphic Process Unit)中顶点染色处理器,设计了一款超长指令字格式的可编程顶点染色处理器,采用六级流水线实现,每条指令在同一个周期最多执行7种操作,软硬件协同设计,降低了功耗.采用基于FPGA的验证方式...为了提高嵌入式图形处理器GPU(Graphic Process Unit)中顶点染色处理器,设计了一款超长指令字格式的可编程顶点染色处理器,采用六级流水线实现,每条指令在同一个周期最多执行7种操作,软硬件协同设计,降低了功耗.采用基于FPGA的验证方式,可编程顶点染色处理器在Xilinx Virtex-7FPGAs V2000T上最大工作频率达到50MHz,顶点的处理速度达到0.16M/s,处理一个顶点平均44个周期,在Synopsys公司Design Compiler工具130μm工艺综合下,主频150MHz,功耗约为177.742 8mW.展开更多
指令压缩技术能够克服传统超长指令字(very long instruction word,VLIW)结构的指令高速缓冲(cache)中长指令字密度低的缺陷,使长指令字中的各条指令能紧密地排列在高速缓冲行(cache line)中,但可能导致长指令字分置于两个cache line,...指令压缩技术能够克服传统超长指令字(very long instruction word,VLIW)结构的指令高速缓冲(cache)中长指令字密度低的缺陷,使长指令字中的各条指令能紧密地排列在高速缓冲行(cache line)中,但可能导致长指令字分置于两个cache line,使其不能同时参与取指与发射,从而成为处理器的性能瓶颈.受到分置cache line的影响,传统提升循环效率的软件流水方法性能下降.高性能变长指令发射窗的机制能够解决分离指令字带来的取指发射问题,为取指流水线提供高效连续的指令流,特别地,该机制缓存循环的一次迭代,硬件支持循环的软件流水,有效地增强VLIW结构的数字信号处理器(digital signal processor,DSP)的性能.通过搭建时钟精确的处理器仿真模型,并基于DSP?IMG库上进行仿真,结果显示,采用两级指令发射窗机制,平均性能提高约21.89%.展开更多
文摘可重构密码流体系结构是一种面向密码运算的新型体系结构,但存在着超长指令字(VLIW)代码稀疏和Kernel体积过大的问题。该文以可重构密码流处理架构S-RCCPA为研究平台,通过大量密码算法在S-RCCPA架构上的适配分析,提出了VLIW可重构技术,并设计了Kernel级指令集、VLIW可重构算法及指令可重构单元。实验证明,该技术能够有效提高VLIW的指令密度,同时降低了VLIW的指令宽度,使得整个Kernel体积减小了约33.3%,并将微码存储器的容量由96 k B降为64 k B,有效降低芯片整体面积和系统功耗。
文摘数字图像处理(Digital Image Processing)广泛应用于航空航天、生物医学工程、通信工程、工业和工程、军事公安、文化艺术等方面。由于一些应用的实时性和环境要求,通常采用数字信号处理器(Digital Signal Processing,简称DSP)处理图像。采用超长指令字(Very Long Instruction Word,简称VLIW)体系结构的DSP由于功耗低、硬件结构简单和并行性好等优点,在实时图像处理应用中使用广泛。根据图像处理算法特点和VLIW DSP体系结构特点提出在VLIW DSP上优化图像处理算法的一般方法,包括存储优化方法和指令级并行优化方法。最后采用提出的方法对多个常用的图像处理算法优化,试验结果表明有较好优化效果。
文摘针对传统超长指令字(Very Long Instruction Word,VLIW)处理器代码体积增大会显著降低处理器性能的问题,设计了一种八流出新型变长指令跨边界派发窗。该派发窗兼容压缩指令派发功能,支持压缩指令和整字指令混合派发,有效减小了处理器代码体积。同时该派发窗引入指令跨边界派发机制,进一步排出指令间无用气泡。通过搭建派发窗仿真模型,并基于DSP/VoLIB库进行仿真,结果显示,采用新型变长指令跨边界派发窗能够充分发挥指令级并行优势。经编译器调度优化后,库中典型程序体积比传统派发窗平均降低约19.26%,处理器性能提升约15.4%。
文摘指令压缩技术能够克服传统超长指令字(very long instruction word,VLIW)结构的指令高速缓冲(cache)中长指令字密度低的缺陷,使长指令字中的各条指令能紧密地排列在高速缓冲行(cache line)中,但可能导致长指令字分置于两个cache line,使其不能同时参与取指与发射,从而成为处理器的性能瓶颈.受到分置cache line的影响,传统提升循环效率的软件流水方法性能下降.高性能变长指令发射窗的机制能够解决分离指令字带来的取指发射问题,为取指流水线提供高效连续的指令流,特别地,该机制缓存循环的一次迭代,硬件支持循环的软件流水,有效地增强VLIW结构的数字信号处理器(digital signal processor,DSP)的性能.通过搭建时钟精确的处理器仿真模型,并基于DSP?IMG库上进行仿真,结果显示,采用两级指令发射窗机制,平均性能提高约21.89%.