Mark Papermaster于2011年10月加入AMD,现任首席技术官兼执行副总裁。他负责微处理器设计、I/O和存储器、片上系统方法和高级研究等领域的产品开发和技术指导。他还负责监管IT部门,该部门负责提供公司的计算基础设施和服务。
在Papermaster 40多年的从业生涯中,他曾在思科(Cisco)和苹果担任领导职务——在前者领导硅片工程小组,在后者担任设备硬件工程高级副总裁。他还在IBM工作过26年,在技术和服务器开发方面担任过多个职务。
在AMD,Papermaster领导了工程流程的重新设计以及屡获殊荣的Zen高性能x86 CPU系列和高性能GPU的开发。
超级计算就是异构计算,Mark Papermaster指出。
Papermaster:超级计算一直是AMD的重点。大约十年前,我们就开始恢复我们的CPU路线图。我们重新设计了我们的工程流程,其中之一就是采用更加模块化的设计方法,即我们开发可重复使用的部件,然后根据应用需求将其组合在一起。
我们投资开发了一系列新的高性能CPU,同时还努力将GPU提升到更高性能。这两种类型的处理单元都很重要,因为超级计算就是异构计算。它需要CPU和GPU协调工作,共同完成最繁重的任务。
我们与美国能源部合作,首次大规模展示了我们的正确战略,我们在那里介绍了能够满足他们需求的基本概念。他们非常喜欢,我们最终赢得了现在世界上最大的超级计算机的竞标。这就是美国橡树岭国家实验室的“前沿”(Frontier)计算机。它的计算量超过了1exaFLOPS,也就是1000FLOPS一千倍的计算量。这真的是一个怪物。你需要这种计算能力来进行最困难的模拟,例如高精度天气预报和计算流体动力学。
我们现在提供这种商业技术,并在市场上取得了巨大成功。事实上,我们在超级计算机TOP500榜单上的排名同比增长了29%,并在绿色超级计算机TOP500榜单的前10位超级计算机中,为其中的7台提供支持。这是因为我们在提供最高的计算机性能的同时,还非常注重节能。
这是大家近年来目睹的AMD扭转乾坤的故事,我们不打算放慢脚步。我们有一个路线图,它将引领我们走向更大、更好的目标。
Papermaster:首先,能源效率是我们设计过程的重要组成部分——这是一种不同的思维方式。大家应该还记得,摩尔定律认为晶体管密度每24个月就会翻一番,因此使用晶体管的设备性能也会随之提高。能效也会相应提高。
出于物理原因,这一速度放缓了——晶体管正在达到分子极限,这意味着将晶体管组合在一起的旧方法无法像以前那样扩展。这就要求在能源使用方式上进行更多创新。我们认为,正确的方法就是我们所说的整体设计——将能效和高性能结合起来考虑。
当你设计一款新的计算机芯片时,您需要考虑从制造工艺到应用开发和部署的方方面面。在设计阶段,你就需要与制造商密切合作——例如,在设计控制时,当你正在运行的任务不需要晶体管时,它就会关闭并停止消耗能量。
在设计阶段,你还需要考虑应用,以便开发它们所需的电路。而一旦你交付了硬件,就必须帮助应用开发人员充分利用它。就人工智能而言,我们拥有先进的算法和数学格式,可以运行近似值,从而提高人工智能的能效——这在整个堆栈中都如此。因此,整体设计意味着在设计过程的各个方面,从性能到能效,一直至应用,都要考虑到。
芬兰的LUMI就是我刚才描述的一个例子,根据最新的TOP500榜单,它是欧洲最强大的超级计算机,世界排名第三。LUMI是一台基于AMD CPU和AMD GPU的超级计算机。我们与LUMI、图尔库大学和艾伦研究所建立了良好的合作伙伴关系。通过与这些合作伙伴合作,我们能够为LUMI升级,使其能够高效地运行AI工作负载。目前,他们正在使用LUMI对芬兰语和其他语言的大型语言模型进行训练。
Papermaster:支持最复杂、最精确的人工智能模型对越来越大的计算机的需求确实在增长。大型语言模型和其他类型的生成人工智能确实推动了超级计算机的大规模扩展。
一方面,大型语言模型的运行参数多达数千亿个,而且正在向万亿个参数迈进。随着它们的成长,它们所创建的内容和回答的问题之多令人叹为观止。但是,这种惊人的能力是有代价的。
大型语言模型需要摄取大量的训练数据,这就需要超级计算机级的计算能力。由于这种需求将持续增长,我们必须拥有更先进的节能超级计算技术。我所描述的整体设计是实现这一目标的最佳途径。
另一方面,人工智能模型的使用方式也将不断创新。你不需要一个通用语言模型来完成特定任务。相反,如果将数据集限制在公司或行业所需的范围内,就可以使用缩小范围的模型。缩小范围可以缩小模型大小,这也是提高人工智能计算能效的另一种方式。
Papermaster:对于AMD来说,这是一个非常强大的市场,而且AMD在这个市场上一直稳步前进。事实上,我们在运行商业应用的超大规模CPU集群中占据了大部分份额。目前,我们已经推出了第四代Zen系列高性能CPU,并在用于通用计算的第四代EPYC服务器中投入使用。
我们基于CPU的四代计算产品表现非常出色。我们每一代都增加了更多的CPU,最新一代EPYC服务器的每个芯片上都有96个CPU内核,并且每个内核上都运行两个工作线程。这意味着数据中心运营商通过每个芯片运行的工作线程数量立即翻了一番。最近,我们非常高兴地宣布了一个更加紧凑的版本,称为Zen 4c。我们让它在执行云原生任务时更加节能。
如果你在超大规模运行云原生应用,需要大量工作线程,那你就需要它们以非常节能的方式运行。我们的第四代处理器代号为贝加莫(Bergamo),CPU数量增至128个,并且每个芯片上的线程数量翻了一番。它非常高效,性能是竞争对手(例如同样为云原生工作负载设计的Ampere)的3.7倍。
回到我们如何根据应用领域的需求量身定制的问题上,针对科学计算,我们发布了AMD 3D V-Cache——我们采用了第四代x86内核并增加了额外的高速缓存。请记住,艰巨的科学任务需要数据非常接近处理核心。因此,我们垂直堆叠缓存,就在缓存在顶部。这极大地提高了电子设计自动化或计算机辅助设计工作负载的吞吐量。我们实现了显著的加速,这对Ansys等应用程序大有裨益。
附——Mark Papermaster采访视频:
查看专题文章——与英特尔、英伟达和AMD三位CTO的独家对话
(原文刊登于EDN姊妹网站EE Times欧洲版,参考链接:AMD's Mark Papermaster: "We Reengineered Our Engineering Processes" to Enable Modular Design,由Franklin Zhao编译。)
本文为《电子技术设计》2024年2月刊杂志文章,版权所有,禁止转载。免费杂志订阅申请点击这里。