【学术科研】计算所科研人员在大规模稀疏矩阵求解器研究中取得进展

  中国科学院计算技术研究所处理器全国重点实验室副研究员贾伟乐、博士生郭卓强及其导师谭光明研究员提出并实现了目前世界上效率和速度最高的大规模稀疏矩阵并行算法,在国产“神威-海洋之光”超级计算机上获得了64PFLOPS峰值(5%的峰值效率),并与中国科学技术大学,崂山实验室(原青岛海洋科学与技术试点国家实验室),北京大学、中科院软件所、齐鲁工业大学、国家并行计算机工程技术研究中心等单位合作,推动科学家首次完成了250万原子的复杂金属异质结从头计算(ab initio calculation)模拟,相比国际同类工作,其计算速度提高三个数量级。该工作在领域专用稀疏矩阵求解器上迈出了重要一步,为后E级超级计算机软硬件协同提供了新的思路。成果以合作论文(郭卓强共同一作、贾伟乐共同通信作者)”2.5 million-atom ab initio electronic-structure simulation of complex metallic heterostructures with DGDFT”为题进入2022年国际计算机学会戈登贝尔奖入围名单(链接:https://sc22.supercomputing.org/presentation/?id=gb105&sess=sess191)。

  现代超级计算机峰值计算性能越来越高,已经达到每秒百亿亿次浮点数计算,相应的,稠密矩阵浮点计算(如LINPACK)能力也越来越强。然而相比于峰值计算性能,硬件访存带宽却增长放缓,计算性能和访存带宽的剪刀差越来越大,这给稀疏矩阵计算提出巨大的挑战。例如:超级计算机的稀疏矩阵评测程序HPCG的计算效率都在3%以下。全球HPCG最高记录来自于日本的富岳超级计算机,为16PFLOPS。受到外部条件和工艺水平等因素限制,国产超算的HPCG普遍较低(<1%)。其关键的挑战来自于间接访存、内存带宽和CACHE命中率低。

  在本工作中,计算所研究团队结合应用软件,体系结构特点,发展了针对块稀疏哈密顿矩阵的分块稀疏矩阵格式,利用该数据结构在新神威上实现了高效的算法,增强程序局部性,减少内存访问,将间接访存转换为直接访存,提高计算并行度。有效弥补新神威超级计算机访存带宽低延迟高的缺陷。同时还结合网络架构特点,优化了大规模网络通信。最终实现的大规模稀疏矩阵求解器在新神威接近10万节点上达到了5%的峰值计算性能(65PFLOPS)。

  该工作为国产超算提供了从应用侧出发设计领域专用大规模并行求解器的新的思路,在解决自然科学领域科学家如何利用超级计算机强大能力的问题的过程中产出了有影响力的合作研究成果。安虹教授、贾伟乐副研究员、杨金龙教授为本论文的共同通讯作者;胡伟研究员、博士研究生郭卓强和姜庆彩、秦新明副研究员为共同第一作者。该研究得到了国家自然科学基金、国家重点研发计划等项目的共同资助。