Nvidia 在3月底的GTC上推出了其新的144核 Grace CPU Superchip,396MB缓存、1TB/s LPDDR5X ECC内存,功耗500W,这是其第一款专为数据中心设计的基于 Arm 架构的 CPU 芯片。
英伟达此前称 Grace 在SPECrate_2017 基准测试中快 1.5 倍比两个上一代 64 核 EPYC Rome 7742 处理器,但那毕竟是AMD的上一代产品了,架构还是Zen2,并且它将在 2023 年初到货时提供当今服务器芯片两倍的能效,AMD 已经有了更快的 EPYC Milan 发货。
那么Grace CPU Superchip性能究竟如何呢?
日前外媒在 Nvidia 加速计算业务部门副总裁 Ian Buck 的 GTC 演示中发现了 Grace 与 Intel Ice Lake 的基准。
该基准声称,在 HPC 中常用的天气研究和预报 (WRF) 模型中,Grace 比英特尔当前的 Ice Lake 快 2 倍,能效高 2.3 倍。
请记住,此性能测量特定于 Grace CPU 超级芯片:
Nvidia 表示,其对 144 核 Grace 芯片的模拟表明,在 WRF 模拟中,它将比两个 36 核 72 线程英特尔“Ice Lake”至强白金 8360Y 处理器快 2 倍,并提供 2.3 倍的功率效率。这意味着我们看到 144 个 Arm 线程(每个都在一个物理内核上),面对 144 个 x86 线程(每个物理内核两个线程)。
WRF 的各种排列是通常用于基准测试的实际工作负载,并且许多模块已被移植用于使用 CUDA 进行 GPU 加速。我们就这个特定的基准与 Nvidia 进行了跟进,该公司表示该模块尚未移植到 GPU,因此它以 CPU 为中心。此外,它对内存带宽非常敏感,这让 Grace 在性能和效率上都有优势。Nvidia 的估计是“基于标准 NCAR WRF,3.9.1.1 版移植到 Arm,用于 IB4 模型(伊比利亚半岛 4 公里区域预测)。”
Grace 巨大的内存吞吐量将在性能和能源效率方面带来红利,因为增加的吞吐量通过保持贪婪的核心获得数据来减少非活动周期的数量。与 Ice Lake 的 DDR4 相比,这些芯片还使用了低功耗的 LPDDR5X。
然而,与英特尔即将推出的 Sapphire Rapids 相比,Grace 可能没有那么大的优势——这些芯片支持 DDR5 内存,并且还有带有 HBM 内存的变体,可以帮助对抗 Grace 在一些内存带宽匮乏的 应用程序中的优势。AMD 还拥有具有 3D 堆叠 L3 缓存 (3D V-Cache) 的Milan-X,这对一些工作负载有好处,我们预计该公司将为 EPYC Genoa 系列制造类似的 SKU。
Nvidia 在 GTC 和其新闻稿中使用的基准测试显示比 AMD 的上一代 EPYC Rome 有 1.5 倍的增益,而不是使用比英特尔当前一代 Ice Lake 更大的 2 倍增益。相反,它将英特尔的比较隐藏在 GTC 演示文稿中。
有趣的是,Nvidia 尚未分享任何有关 Grace 在单线程工作中的实力的预测,而是更愿意暂时炫耀其纯粹的线程分量。
鉴于 AMD 是数据中心的领导者,也许 Nvidia 认为即使击败其上一代芯片也值得骄傲。