Michael Kagan自2020年5月起担任Nvidia首席技术官,当时Nvidia收购了他在以色列共同创立的Mellanox公司。Mellanox为这家半导体制造商带来了加速网络技术,有助于支持“数据中心就是一台计算机”的概念,并有助于Nvidia构建数据中心的架构——从芯片和框架到支持应用高效执行的软件的方方面面。
Kagan拥有40年的行业经验,他的职业生涯始于英特尔,参与了从i860到Pentium MMX的架构设计。
对软件的投资将永久延续,Michael Kagan认为。
Kagan:我于1983年夏天开始在英特尔以色列工厂工作。我的第一个项目是N3矢量处理器,但这个项目最终作废了。然后,我被调到俄勒冈州,从事浮点单元的开发,这是英特尔80387SX数学协处理器的基础模块。一年后,我回到以色列,开始研究高性能矢量处理器,也即第二代Intel 860架构。
我是i860XP的架构师,它在硅片设计方面取得了巨大的成功。它是第一个能在第一块硅片上启动Linux的CPU,并在计算密集型工作负载上的性能比i486高出50倍。遗憾的是,英特尔没有开发软件和生态系统支持,因此该CPU最终停产了。i860的经历给了我一个基本的教训:如果没有软件,芯片只是昂贵的沙子。
我在英特尔的最后一个项目是奔腾MMX处理器,这是第一个在美国以外设计的主流英特尔CPU。在其成功推出后不久,我离开英特尔,与其他八位创始人一起创办了Mellanox公司,其中大多数人都是前英特尔工程师。
我们在创建Mellanox的过程中取得了巨大成功,在新冠疫情前一年,Nvidia宣布了收购我们的计划。因此,在了解到软件的重要性30年后,我加入了Nvidia。该公司生产最先进的矢量处理器或GPU(图形处理单元),同时也倡导软件的作用。Nvidia开发软件,在标准应用程序接口(API)上展现Nvidia GPU的性能和功能。此外,Nvidia还为高级工作负载开发了新的API,并在多代硅片上进行维护。一旦软件在Nvidia产品上开发完成,就能在未来几代产品上完整运行。对软件的投资将永久延续。
Kagan:计算机一直让我着迷。我那时还是个好奇的孩子,就对新技术和对这种能够加速人类处理数据的能力的机器非常着迷。从很小的时候起,我就想了解计算机的构造和工作原理。它能将人的能力加速到百万倍,令人叹为观止。Steve Jobs曾经说过,人类是工具制造者:人类制造工具,放大我们的能力。我无法想象计算改变世界的程度。我认为,80年代初的任何人都无法想象,几十年后计算机年销量将达到300亿台。
Kagan:1999年是互联网泡沫的顶峰。我经常拒绝各种初创公司的邀请。有一天,我接到了Eyal Waldman的电话,他是我在英特尔的同事。他为我提供了成为Mellanox联合创始人的机会。我知道,基于我从小养成的核心价值观——承诺、团队合作和卓越——我们可以一起创建一家伟大的公司。我接受了他的邀请,并于第二天向英特尔递交了辞呈。
Kagan:Mellanox的发展历程就像过山车。我们的愿景是建立一种技术,使计算和存储成为一种服务,就像电力一样。今天,这就是所谓的云。
在英特尔,我们学会了如何制造快速计算机并作为服务器和个人电脑出售。让数千台计算机成为一个无定形的计算资源池是一项挑战,而实现这一目标的关键技术是高效通信和快速网络。我们开始研究当时新制定的高性能网络行业标准InfiniBand,并开始开发基于InfiniBand网络标准的产品。
第一个亮点,也是真正的亮点,是我们的第二代网络产品。我们开发了最先进的网络解决方案,令所有竞争对手望尘莫及。从2003年开始,我们的Infini-Band网络使超级计算机大众化,弗吉尼亚理工大学团队利用我们的网络连接了1,000台苹果个人电脑,制造出了世界上第三快的计算机。随着时间的推移,我们的网络在超级计算机中变得越来越普遍,如今,它已成为高性能计算的事实标准。
随后,甲骨文公司(Oracle)基于Mellanox网络构建了自己的数据库机。这是我们在比超级计算机更广阔的市场上首次亮相,也是我们进入企业和云的切入点。
另一个亮点是利用InfiniBand技术并在标准以太网之上提供其价值。这为我们带来了新的机遇,因为几乎所有的云提供商都开始使用我们的网络。无论你去到互联网上的任何地方,都会经过我们的网络产品。
Kagan:Nvidia成立于1993年,是一家设计图形加速芯片的公司。我不确定“加速计算”这个词是什么时候创造出来的,但这正是Nvidia从一开始就做的事情。Nvidia开发了世界一流的可编程技术,用于高度并行处理。这种可编程性通过易于使用的接口CUDA展现出来,并在各代产品中保持稳定。
速度更快的处理器、移动性和移动设备生成的数据量共同激发了新数据处理技术的发展:人工智能。这种新的数据处理方式需要高度并行的计算技术。Nvidia将图像处理技术应用于人工智能。20多年前,GPU一词代表图形处理单元。在人工智能时代,GPU实际上是一个通用处理单元,在所有人工智能工作负载中都承担着繁重的数据处理任务。
为AI工作负载构建计算机需要高性能网络,因此Mellanox在15年前开始与Nvidia合作。我们密切合作,共同打造了世界上最快的超级计算机。Nvidia GPU正在处理海量数据,而Mellanox网络则为超级计算机提供数据。
Kagan:超级计算机工作负载是高度并行的工作负载。从早期开始,评估超级计算机性能的主要基准是LINPACK,这是一个用于执行数值线性代数的软件库,基本上是对巨大矩阵进行运算。这种类型的操作需要加速器来实现更高的性能和能效,而GPU天然适合这些工作负载。随着人工智能的发展,线性代数成为主流计算。Nvidia发现了这一机遇,并将GPU重塑为线性代数加速器,即没有显示端口的GPU。所有的硅片预算都用于线性代数。
随着摩尔定律逐渐失效,人工智能工作负载以每年10倍的速度推动计算需求,只有加速计算才能满足这一需求。这正是GPU的优势所在。
Kagan:今天的计算需求只能通过新的计算单元来满足。整个数据中心成为一个新的计算单元,运行的工作负载跨越数以万计的计算节点,每个节点包含多个GPU和CPU。这些GPU和CPU需要加速联网。这些计算节点运行分布式应用程序,即使数据传输延迟几纳秒,也会影响整个应用程序,造成计算资源浪费和功耗超标。Nvidia制造了世界上最大的计算机,而高性能网络是确保可预测的执行时间和功效以及改善TCO(总体拥有成本)的关键要素之一。
在收购之前,Mellanox已经与Nvidia紧密合作了10多年。在某些时候,成为一家公司更有意义。自收购以来,市场的发展证明这对各方来说都是一个极好的举措。
Kagan:这个问题提出的时机非常好!我们现在正在经历人工智能的“iPhone时刻”,因为ChatGPT将全世界的注意力都集中到了这项变革性技术上。生成式人工智能将产生巨大的影响——可能超过iPhone或互联网。
作为Nvidia的CTO,我的职责是通过丰富的Nvidia技术来构建未来的人工智能工厂。我们正在为21世纪的数据处理打造一个加速计算平台。基于人工智能的计算将作为云服务从数据中心、边缘设备、企业和移动设备等任何地方接入。人工智能和LLM(大型语言模型)将很快成为主流计算平台。
Kagan:Grace Hopper是一位令人印象深刻的女性。她是第一个编译器的创建者,是计算机编程领域的开拓者。她甚至创造了“bug”一词,用来指软件故障。为了纪念她对编程和软件开发的贡献,我们以她的名字命名了GH200 Grace Hopper超级芯片。
Kagan:Nvidia GH200 Grace Hopper超级芯片将Nvidia Hopper GPU的突破性性能与高能效、高性能的Nvidia Grace CPU相结合,并通过高带宽、内存相干的NVLink Chip-2-Chip(C2C)互连实现连接。这可提供高达900GB/s的总带宽,比加速系统中常用的标准PCIe Gen5通道高7倍,而且NVLink-C2C的功耗低5倍。GH200是要求最苛刻的生成式AI和高性能计算(HPC)应用的理想选择。
Kagan:客户需要一个多功能系统来处理最大的人工智能模型,并充分发挥其基础设施的潜力。GH200可处理最复杂的生成式人工智能和加速计算工作负载,涵盖大型语言模型、推荐系统、矢量数据库和高性能计算。
查看专题文章——与英特尔、英伟达和AMD三位CTO的独家对话
(原文刊登于EDN姊妹网站EE Times欧洲版,参考链接:Nvidia's Michael Kagan: Building on AI's "iPhone Moment" to Architect Data Processing's Future,由Franklin Zhao编译。)
本文为《电子技术设计》2024年2月刊杂志文章,版权所有,禁止转载。免费杂志订阅申请点击这里。