【学术科研】处理器芯片全国重点实验室两篇论文获ISCA 2024接收

在2024年的体系结构领域顶级会议ISCA(International Symposium on Computer Architecture, CCF-A类)上,中国科学院计算技术研究所处理器芯片全国重点实验室(以下简称“实验室”)两篇论文《AVM-BTB: Adaptive and Virtualized Multi-level Branch Target Buffer》《Cambricon-D: Full-Network Differential Acceleration for Diffusion Models》被接收。

论文《AVM-BTB: Adaptive and Virtualized Multi-level Branch Target Buffer》第一作者为实验室龙芯课题组博士生刘蕴哲。AVM-BTB是一种自适应的、虚拟化的多级分支目标缓存技术。分支目标缓存通过记录分支指令的地址和它们的跳转目标地址,使得处理器能够在分支指令执行前预测跳转目标,从而减少由分支指令引起的流水线停顿。同时分支目标缓存也被用于协助处理器进行指令预取,减少指令缓存的缺失。本文提出的AVM-BTB通过监控多级分支目标缓存的缺失率和各级分支目标缓存的有效访问数量,在处理器面对指令足迹较大的负载时,动态地、自适应地将指令微码缓存与部分指令缓存用于存储分支目标缓存表项,进而大幅减少因分支目标缓存缺失导致的分支预测错误并提高指令预取的效果。AVM-BTB在近乎不增加片上资源消耗的前提下,用合理的实现代价让处理器能够在不同指令足迹大小的负载下都能够高性能与低功耗地运行,适应当下愈发复杂的计算需求。

论文《Cambricon-D: Full-Network Differential Acceleration for Diffusion Models》第一作者是实验室微体系结构组博士生孔维浩。Cambricon-D是首个面向扩散模型(Diffusion Models)计算加速的新型处理器设计。扩散模型已经在图像生成任务上取得了优越的效果并被广泛使用(包括OpenAI Sora)。在扩散模型的多步迭代去噪过程中,需要在微小变化的输入上反复计算相同的模型,这导致了计算冗余。对输入数据执行差分计算看似是一个去除计算冗余的有效手段,然而模型中的非线性操作(特别是激活函数)需要重复地将差分数据与原始输入合并,以确保计算的正确性。这种反复合并操作引入了加载原始输入的大量内存访问,抵消了差分计算带来的性能优化。

此次提出的Cambricon-D架构通过全网络差分避免了额外的访存开销,并保持了差分带来的计算精简性。这种全网络差分方法的核心是符号掩码数据流,它仅需加载原始输入的1-bit符号位到片上,而非长位宽的原始输入,即可完成与差分数据的合并。从而在保证模型正确性和差分计算精简性的同时,节省了大量访存开销,并最终在多个扩散模型上达成了5到10倍的能效提升。

ISCA会议主要收录计算机系统设计、体系结构创新、处理器设计以及相关硬件和软件技术的研究进展。自1973年首次召开以来,ISCA已经成为了计算机体系结构领域的顶级会议,是全球计算机体系结构领域最为重要的学术会议之一,对于推动该领域的研究和发展起到了至关重要的作用。本届会议的录用率为19.62%(包括了conditional accept)。