计算机械协会(ACM)戈登·贝尔奖(GBP)奖委员会选出了六位入围者,入围者的工作涉及各种应用,包括材料科学、流体动力学、核模拟、地震处理和生物分子模拟。
硬件平台也包括世界一流的系统:Frontier(ORNL,美国)、新神威系统(Sunway System,中国无锡)、LUMI(EuroHPC/CSC,芬兰)、Leonardo(EuroHPC/Cineca,意大利)、Cerebras CS-2(KAUST,沙特阿拉伯)和Perlmutter(NERSC,美国)。
据了解,无锡国家超级计算中心建造的新型神威超级计算机在 49,230 个节点上采用了约 1920 万个核心 。新的超级计算机似乎基于已知的 390 核神威处理器,该处理器源自神威SW26010 CPU,自 2021 年以来就已推出。因此,新系统增加了处理器数量,但没有增加其架构效率,因此它的功耗可能是巨大的。与此同时,机器的实际性能尚不清楚,因为即使在超级计算机世界中,横向扩展也有其局限性。
无锡国家超级计算中心尚未透露其新超级计算机的性能数据,目前很难对其性能做出任何估计。但值得一提的是,它的前身(2021 年推出的神威Oceanlite)预计可提供约 1 ExaFLOPS 的计算性能。
与此同时,工程师们透露他们将其应用于NASA的重大挑战问题,使用先进的非结构化求解器来解决具有16.9亿个网格组件和8650亿个自由度(变量)的高压涡轮序列。
考虑到模拟的复杂性,这台机器可能确实非常强大。同时,也没有透露仿真是采用 FP64 精度进行的,还是为了性能而牺牲精度的。
据介绍,GBP 授予在世界领先的超级计算机上使用最先进的软件和硬件技术进行的最有价值的科学计算。GBP 代表了评估的各个方面,如目标问题的重要性、性能优化、目标系统性能的最大利用率以及为广泛传播的平台提供的知识。
决赛入围者 1
量子精度的大规模材料建模: 金属合金中的准晶体和相互作用扩展缺陷的 Ab Initio 模拟
Sambit Das、Bikash Kanungo、Vishal Subramanian 等人(共八位作者),组成的团队成员包括密歇根大学、印度科学研究所和橡树岭国家实验室
在这项工作中,团队开发了一种混合方法,利用机器学习技术将密度函数理论(DFT)和量子多体(QMB)问题结合起来。这项工作实现了高精度计算,并通过将 QMB 方法与 DFT 相结合的逆-DFT 实现了大规模建模。他们实现了地面阶段的能量计算,同时保持了与 QMB 相称的精度,使用了橡树岭领导计算设施内 Frontier 超级计算机 60% 以上的资源。
决赛入围者 2
迈向涡轮机械流动的百亿亿级计算
Weiqi Shen, Jiahuan Cui, Yao Zheng等(共 19 位作者),来自浙江大学、清华大学、国家超级计算无锡中心、剑桥大学、佛罗里达大学团队
该团队开发了一种新的大涡流模拟代码,用于解决涡轮机械中的可压缩流。他们将该代码应用于美国国家航空航天局(NASA)的重大挑战问题,使用高阶非结构化求解器求解高压涡轮级联的 16.9 亿个网格元素和 8650 亿个自由度。该代码是在无锡的新神威超级计算机上计算的,该超级计算机每个节点拥有多达1920万个内核,其中每个计算节点由384个计算内核和6个控制内核组成。
决赛入围者 3
用于先进设计的百亿亿次级多物理场核反应堆模拟
Elia Merzaria、Steven Hamilton、Thomas Evans 等人(共 12 位作者)由来自宾夕法尼亚州立大学、橡树岭国家实验室、阿贡国家实验室和伊利诺伊大学厄巴纳香槟分校的团队组成
该团队模拟了一个先进的核反应堆系统,将辐射传输与热和流体模拟耦合在一起,包括高保真、高分辨率蒙特卡罗代码 Shift 和计算流体动力学代码 NekRS。Nek5000/RS在ORNL的Frontier系统上实现,实现了10亿个谱元和3500亿个自由度,而Shift则在8192个系统节点上实现了非常高的弱缩放。结果,他们计算了 214,896 个燃料棒区域中的 6 个反应,统计误差低于 1%,为蒙特卡罗运输应用提供了首个解决方案。
决赛入围者 4
通过前所未有的谱元模拟探索湍流瑞利-贝纳德对流的最终状态
Niclas Jansson、Martin Karp、Adalberto Perez 等人(总共 12 位作者),其中包括来自 KTH 皇家理工学院、弗里德里希·亚历山大大学、马克斯·普朗克计算和数据设施以及伊尔梅瑙工业大学的团队
该团队开发了高保真光谱元素代码 Neko,这对于对完全发展的湍流进行前所未有的大规模直接数值模拟至关重要,同时保持 GPU 加速平台上的高性能可移植性。他们应用了 GPU 优化的预处理器,其任务重叠用于压力泊松方程和原位数据压缩。他们还通过复杂的工作流程控制,在配备多达 16,384 个 GPU 的 LUMI 和 Leonardo 超级计算机上进行了大规模瑞利-贝纳德对流的初始运行。
决赛入围者 5
在 Cerebras CS-2 系统上使用代数压缩扩展多维地震处理的“记忆墙”
Hatem Ltaief、Yuxi Hong、Leighton Wilson 等人(总共六位作者)是阿卜杜拉国王科技大学和 Cerebras Systems Inc. 团队的成员。
这项工作利用人工智能 (AI) 定制的 Cerebras CS-2(注:目前为止这是世界上最大的芯片) 系统的高内存带宽进行地震处理,通过利用低秩矩阵近似来拟合 SRAM(静态随机存取存储器)晶圆级硬件上的问题,以及使用许多依赖于多维卷积算子的基于波动方程的算法。因此,该团队将标准地震基准数据集实施到 Cerebras 处理元件的小型本地存储器中,将最坏情况下的负载平衡整个应用程序执行推断到 35,784,000 个处理元件上的 48 个 CS-2 系统。这是在人工智能定制架构上运行的应用程序的一个重要示例,可以支持新一代地震算法。
决赛入围者 6
将深度等变模型的领先精度扩展到真实尺寸的生物分子模拟
哈佛大学约翰·A·保尔森工程与应用科学学院团队成员 Albert Musaelian、Anders Johansson、Simon Batzner 和 Boris Kozinsky
该小组开发了 Allegro 架构,以弥合原子模拟的精度与速度之间的权衡,并能够以量子保真度描述前所未有的复杂结构中的动力学。这是通过创新模型架构、大规模并行化和针对高效 GPU 使用而优化的模型实现相结合来实现的。Allegro 的可扩展性通过在国家能源研究科学计算中心的 Perlmutter 系统上对蛋白质动力学进行长达纳秒的稳定模拟以及完整、全原子、明确溶剂化的 HIV 衣壳的多达 4400 万个原子结构来说明。他们实现了高达 1 亿个原子的强大扩展。