在EDN电子技术设计此前的报道中提到,TrendForce估计OpenAI的ChatGPT最终将需要超过3万块Nvidia显卡的算力以维持运行。
近日,这一分析得到了微软方面的验证。
周一,微软在官博上连发两文,亲自解密这台超级昂贵的超级计算机,以及Azure的重磅升级——加入成千上万张英伟达最强的H100显卡以及更快的InfiniBand网络互连技术。
微软指出,建造大型超级计算机能够允许 OpenAI 和其他依赖 Azure 的公司训练更大、更复杂的AI模型,并加速推出生成式AI应用。负责云计算和AI业务的微软副总裁Scott Guthrie表示,该公司在这个项目上花费了数亿美元。虽然这对于微软来说只是九牛一毛,但这无疑表明该公司对人工智能领域的热情,并愿意在该领域投入更多的资金。
在第一篇博文中,微软揭示了 OpenAI 的 ChatGPT 背后的 NVIDIA 超级计算技术的强大功能。
微软推出了 ND H100 v5 虚拟机,它支持按需大小不等的 8 到数千个 NVIDIA H100 GPU,这些 GPU 通过 NVIDIA Quantum-2 InfiniBand 网络互连。与我们上一代 ND A100 v4 VM 相比,客户将看到人工智能模型的性能显着提高,这些创新技术包括:
Azure HPC+AI 首席产品经理 Matt Vegas表示,对于 Microsoft 和 Inflection、NVIDIA 和 OpenAI 等致力于大规模部署的组织,此产品将启用一类新的大规模 AI 模型。
“NVIDIA 和 Microsoft Azure 通过多代产品合作,为全球企业带来领先的 AI 创新。“NVIDIA 超大规模和高性能计算副总裁 Ian Buck 表示,NDv5 H100 虚拟机将有助于推动生成人工智能应用程序和服务的新时代。
NVIDIA 表示,ND H100 v5 现已提供预览版,并将成为 Azure 产品组合中的标准产品,让任何人都能在云中释放 AI at Scale 的潜力。
在第二篇博文中,微软宣布推出集成最新 NVIDIA H100 Tensor Core GPU 和 NVIDIA Quantum-2 InfiniBand 网络的新虚拟机。
虚拟机是 Microsoft 向客户提供基础设施的方式,可以根据任何 AI 任务的规模进行扩展。Azure 的新 ND H100 v5 虚拟机为 AI 开发人员提供了卓越的性能和跨数千个 GPU 的扩展。
该基础设施包括数以千计的 NVIDIA AI 优化 GPU,这些 GPU 在基于 NVIDIA Quantum InfiniBand 通信的高吞吐量、低延迟网络中连接在一起,用于高性能计算。
"微软Azure高性能计算和人工智能产品负责人Nidhi Chappell说:"肯定有一个强大的推动力,让更大的模型训练更长的时间,这意味着你不仅需要拥有最大的基础设施,你必须能够长期可靠地运行它。
2019 年,当微软向 ChatGPT 开发商 OpenAI 投资 10 亿美元时,它同意为这家人工智能研究创业公司打造一台庞大的尖端超级计算机。唯一的问题是:微软没有 OpenAI 需要的那样的东西,也无法完全确定它能在 Azure 云服务中构建这么大的东西而不会破坏它。
当时,OpenAI 正试图训练一套规模越来越大的人工智能程序,也就是“模型”,后者正在吸收越来越大的数据量,学习越来越多的参数。这些参数是人工智能系统通过训练和再训练得出的变量。这意味着,OpenAI 需要在很长一段时间内使用强大的云计算服务。
“我们从研究中学到的一件事是,模型越大,拥有的数据越多,训练时间越长,模型的准确性就越好,”微软 Azure high 产品负责人 Nidhi Chappell 说。“因此,肯定有强烈的推动力让更大的模型接受更长时间的训练,这意味着你不仅需要拥有最大的基础设施,还必须能够长时间可靠地运行它。 ”
为了应对这一挑战,微软必须想方设法将数以万计的 Nvidia A100 图形芯片(用于训练 AI 模型的主力)串在一起,并改变其在机架上放置服务器以防止断电的方式。
负责云计算和人工智能的微软执行副总裁斯科特·格思里 (Scott Guthrie) 表示该项目成本“可能大于”数亿美元。
“我们构建了一个可以在非常大的范围内运行并且可靠的系统架构。这就是导致 ChatGPT 成为可能的原因,”Microsoft Azure AI 基础设施总经理 Nidhi Chappell 说。“这是从中得出的一个模型。还会有很多很多其他人。”
OpenAI 总裁兼联合创始人 Greg Brockman 表示:“与 Azure 共同设计超级计算机对于扩展我们苛刻的 AI 培训需求、使我们在 ChatGPT 等系统上的研究和调整工作成为可能至关重要。”
为了训练一个大型语言模型,计算工作量被分配到一个集群中的数千个 GPU 上。在此计算的某些阶段(称为 allreduce),GPU 会交换有关它们已完成工作的信息。InfiniBand 网络加速了这一阶段,该阶段必须在 GPU 开始下一个计算块之前完成。
“因为这些工作涉及数千个 GPU,所以你需要确保拥有可靠的基础设施,然后你需要在后端拥有网络,这样你才能更快地沟通,并能够连续几周这样做,”Chappell 说。“这不是你只需购买一大堆 GPU,将它们连接在一起就可以开始协同工作的东西。为了获得最佳性能,需要进行大量系统级优化,这需要几代人积累的丰富经验。”
系统级优化包括能够有效利用 GPU 和网络设备的软件。在过去几年中,Microsoft 开发的软件技术提高了使用数万亿参数训练模型的能力,同时降低了在生产中训练和服务它们的资源需求和时间。
微软及其合作伙伴也一直在逐步增加 GPU 集群的容量,发展 InfiniBand 网络。
微软 AI 平台公司副总裁 Eric Boyd 表示,如今,这种针对大型语言模型训练优化的 Azure 基础设施可通过云中的 Azure AI 超级计算功能获得。该资源提供了 GPU、网络硬件和虚拟化软件的组合,以提供为下一波 AI 创新提供动力所需的计算。
据称,针对 AI 优化的基础架构现在已成为整个 Azure 云计算结构的标准配置,其中包括针对 AI 工作负载优化的虚拟机组合、连接的计算和存储资源。
微软云和人工智能集团执行副总裁 Scott Guthrie 表示,构建这种基础设施释放了 OpenAI 的 ChatGPT 和新的 Microsoft Bing 等产品中的人工智能功能。
参考链接:
Azure previews powerful and scalable virtual machine series to accelerate generative AI
How Microsoft’s bet on Azure unlocked an AI revolution