针对高效视频编码(high efficiency video coding,HEVC)分像素运动估计亮度分量插值算法计算量大、冗余度高、难以实现不同编码块之间灵活切换的问题,提出一种动态可重构且具有高数据复用率的分像素插值算法实现方法。根据编码单元(codi...针对高效视频编码(high efficiency video coding,HEVC)分像素运动估计亮度分量插值算法计算量大、冗余度高、难以实现不同编码块之间灵活切换的问题,提出一种动态可重构且具有高数据复用率的分像素插值算法实现方法。根据编码单元(coding unit,CU)的规模和大小自适应地对其周围参考像素块进行插值计算,得到最优预测单元的编码模式和运动矢量。实验结果表明,与专用硬件实现的分像素插值算法相比,不同编码块灵活切换的同时,参考像素的读取数量减少43.8%,硬件资源消耗减少18.5%。展开更多
提出一种基于深度优先贪婪搜索(Depth First Greedy Search Partitioning,DFGSP)的分像素插值任务划分映射方法,采用任务并行的方式,按深度优先搜索节点的方式减少子任务之间的通信量。对分像素插值算法的数据流图划分后设计合理并行方...提出一种基于深度优先贪婪搜索(Depth First Greedy Search Partitioning,DFGSP)的分像素插值任务划分映射方法,采用任务并行的方式,按深度优先搜索节点的方式减少子任务之间的通信量。对分像素插值算法的数据流图划分后设计合理并行方案,以极大限度利用处理元为原则进行贪婪搜索,并在项目组前期研究的阵列处理器(DPR-CODEC)上加速实现。实验表明,该方法执行时间远低于两步搜索方案,与未优化的原始HEVC插值滤波器相比,硬件资源占用减少72%。展开更多
提出了一种模式可配置的单精度浮点乘法器设计方案。利用90 nm互补金属氧化物半导体(complementary metal oxide semiconductor,CMOS)工艺设计了基于原码一位乘法、基4-Booth算法和Wallace树型算法等3种常用定点数乘法的浮点乘法器,测试...提出了一种模式可配置的单精度浮点乘法器设计方案。利用90 nm互补金属氧化物半导体(complementary metal oxide semiconductor,CMOS)工艺设计了基于原码一位乘法、基4-Booth算法和Wallace树型算法等3种常用定点数乘法的浮点乘法器,测试了3种乘法器的性能。在乘法器的尾数乘法部分添加模式选择模块,根据应用场景对频率、功耗和面积3个性能的不同需求选择和切换相应的算法,以满足不同应用对对处理器性能的要求。实验结果表明,与ifpmul32方法相比,所提设计的延时降低了57%,最低功耗降低了76.6%。与粗粒度可重构处理器实现的浮点乘法器相比,计算一次浮点乘法所需时钟周期数平均减少了87.3%。展开更多
为了提高移动图形处理器中统一架构染色器的效率,减少其与片外存储器间的访问次数,提出了一种4端口纹理高速缓存结构。该结构采用基于Mipamp算法的纹理映射和基于细化层次(Level of Detail,LOD)选择不同单端口Cache的存储方式,提高了纹...为了提高移动图形处理器中统一架构染色器的效率,减少其与片外存储器间的访问次数,提出了一种4端口纹理高速缓存结构。该结构采用基于Mipamp算法的纹理映射和基于细化层次(Level of Detail,LOD)选择不同单端口Cache的存储方式,提高了纹理Cache的命中率。此外为了提高数据吞吐率,采用4端口并行读取纹素。设计了FIFO缓冲区预取数据,降低访存延迟。利用SV搭建实验平台对纹理图像进行测试,结果表明纹理Cache的平均命中率为92.5%,数据吞吐率接近单端口Cache的4倍。展开更多
在对新一代高效视频编码(High Efficiency Video Coding,HEVC)帧内预测Planar和DC模式算法分析的基础上,分别提出了高效的超大规模集成电路(Very Large Scale Integration Circuit,VLSI)设计方案,旨在解决处理延时较长、资源占用较大的...在对新一代高效视频编码(High Efficiency Video Coding,HEVC)帧内预测Planar和DC模式算法分析的基础上,分别提出了高效的超大规模集成电路(Very Large Scale Integration Circuit,VLSI)设计方案,旨在解决处理延时较长、资源占用较大的问题。针对Planar模式,提出一种在重组、合并算法的基础上,预测块复用的架构;针对DC模式,提出一种dcValue计算和滤波的基本块分离、各自复用不同块的架构。实验结果表明:所提架构与其他两种同类型架构相比,Planar模式实现平均处理延时减少了21%,资源消耗分别减少了14.7%和7%;DC模式实现平均处理延时减少了55%,同时资源消耗减少了22%和15%,能够满足1 920×1 080@30 f/s视频序列实时编码的需求。展开更多
针对专用硬件实现高效视频编码(High Efficiency Video Coding,HEVC)帧内预测算法资源占用大,且硬件资源不能重复利用、灵活性差的问题.提出一种可重构的视频阵列处理器,能够根据当前视频序列的特点进行帧内预测算法的动态映射.首先,分...针对专用硬件实现高效视频编码(High Efficiency Video Coding,HEVC)帧内预测算法资源占用大,且硬件资源不能重复利用、灵活性差的问题.提出一种可重构的视频阵列处理器,能够根据当前视频序列的特点进行帧内预测算法的动态映射.首先,分析HEVC帧内预测算法的特点和重构的可行性,以提前终止编码块划分的阈值作为处理器进行硬件重构的依据.其次,以计算出来的参数驱动可重构阵列处理器进行硬件重构.最后,在重构的阵列处理器上进行帧内预测算法映射.通过在4×4的可重构阵列上进行Planar和DC两种预测模式实现,结果表明:与专用硬件实现方法相比资源减少了65%,与多核处理器实现方法相比延时降低了32%.展开更多
文摘针对高效视频编码(high efficiency video coding,HEVC)分像素运动估计亮度分量插值算法计算量大、冗余度高、难以实现不同编码块之间灵活切换的问题,提出一种动态可重构且具有高数据复用率的分像素插值算法实现方法。根据编码单元(coding unit,CU)的规模和大小自适应地对其周围参考像素块进行插值计算,得到最优预测单元的编码模式和运动矢量。实验结果表明,与专用硬件实现的分像素插值算法相比,不同编码块灵活切换的同时,参考像素的读取数量减少43.8%,硬件资源消耗减少18.5%。
文摘提出一种基于深度优先贪婪搜索(Depth First Greedy Search Partitioning,DFGSP)的分像素插值任务划分映射方法,采用任务并行的方式,按深度优先搜索节点的方式减少子任务之间的通信量。对分像素插值算法的数据流图划分后设计合理并行方案,以极大限度利用处理元为原则进行贪婪搜索,并在项目组前期研究的阵列处理器(DPR-CODEC)上加速实现。实验表明,该方法执行时间远低于两步搜索方案,与未优化的原始HEVC插值滤波器相比,硬件资源占用减少72%。
文摘提出了一种模式可配置的单精度浮点乘法器设计方案。利用90 nm互补金属氧化物半导体(complementary metal oxide semiconductor,CMOS)工艺设计了基于原码一位乘法、基4-Booth算法和Wallace树型算法等3种常用定点数乘法的浮点乘法器,测试了3种乘法器的性能。在乘法器的尾数乘法部分添加模式选择模块,根据应用场景对频率、功耗和面积3个性能的不同需求选择和切换相应的算法,以满足不同应用对对处理器性能的要求。实验结果表明,与ifpmul32方法相比,所提设计的延时降低了57%,最低功耗降低了76.6%。与粗粒度可重构处理器实现的浮点乘法器相比,计算一次浮点乘法所需时钟周期数平均减少了87.3%。
文摘为了提高移动图形处理器中统一架构染色器的效率,减少其与片外存储器间的访问次数,提出了一种4端口纹理高速缓存结构。该结构采用基于Mipamp算法的纹理映射和基于细化层次(Level of Detail,LOD)选择不同单端口Cache的存储方式,提高了纹理Cache的命中率。此外为了提高数据吞吐率,采用4端口并行读取纹素。设计了FIFO缓冲区预取数据,降低访存延迟。利用SV搭建实验平台对纹理图像进行测试,结果表明纹理Cache的平均命中率为92.5%,数据吞吐率接近单端口Cache的4倍。
文摘针对专用硬件实现高效视频编码(High Efficiency Video Coding,HEVC)帧内预测算法资源占用大,且硬件资源不能重复利用、灵活性差的问题.提出一种可重构的视频阵列处理器,能够根据当前视频序列的特点进行帧内预测算法的动态映射.首先,分析HEVC帧内预测算法的特点和重构的可行性,以提前终止编码块划分的阈值作为处理器进行硬件重构的依据.其次,以计算出来的参数驱动可重构阵列处理器进行硬件重构.最后,在重构的阵列处理器上进行帧内预测算法映射.通过在4×4的可重构阵列上进行Planar和DC两种预测模式实现,结果表明:与专用硬件实现方法相比资源减少了65%,与多核处理器实现方法相比延时降低了32%.