ChatGPT背后：微软耗资数亿美元，用数万英伟达A100打造的超级计算机-EDN 电子技术设计

 EDN曾报道OpenAI的ChatGPT最终将需要超过3万块Nvidia显卡的算力以维持运行。近日，这一分析得到了微软方面的验证。

在EDN电子技术设计此前的报道中提到，TrendForce估计OpenAI的ChatGPT最终将需要超过3万块Nvidia显卡的算力以维持运行。xhbednc

近日，这一分析得到了微软方面的验证。xhbednc

周一，微软在官博上连发两文，亲自解密这台超级昂贵的超级计算机，以及Azure的重磅升级——加入成千上万张英伟达最强的H100显卡以及更快的InfiniBand网络互连技术。xhbednc

xhbednc

微软指出，建造大型超级计算机能够允许 OpenAI 和其他依赖 Azure 的公司训练更大、更复杂的AI模型，并加速推出生成式AI应用。负责云计算和AI业务的微软副总裁Scott Guthrie表示，该公司在这个项目上花费了数亿美元。虽然这对于微软来说只是九牛一毛，但这无疑表明该公司对人工智能领域的热情，并愿意在该领域投入更多的资金。xhbednc

该超级计算机使用数千个 NVIDIA A100 GPU 和 InfiniBand 网络来训练 ChatGPT

在第一篇博文中，微软揭示了 OpenAI 的 ChatGPT 背后的 NVIDIA 超级计算技术的强大功能。xhbednc

微软推出了 ND H100 v5 虚拟机，它支持按需大小不等的 8 到数千个 NVIDIA H100 GPU，这些 GPU 通过 NVIDIA Quantum-2 InfiniBand 网络互连。与我们上一代 ND A100 v4 VM 相比，客户将看到人工智能模型的性能显着提高，这些创新技术包括：xhbednc

8个NVIDIA H100 Tensor Core GPU通过下一代NVSwitch和NVLink 4.0互联
每个GPU有400 Gb/s的NVIDIA Quantum-2 CX7 InfiniBand，每个虚拟机有3.2Tb/s的无阻塞胖树型网络
NVSwitch和NVLink 4.0在每个虚拟机的8个本地GPU之间具有3.6TB/s的双向带宽
第四代英特尔至强可扩展处理器
PCIE Gen5到GPU互连，每个GPU有64GB/s带宽
16通道4800MHz DDR5 DIMM

Azure HPC+AI 首席产品经理 Matt Vegas表示，对于 Microsoft 和 Inflection、NVIDIA 和 OpenAI 等致力于大规模部署的组织，此产品将启用一类新的大规模 AI 模型。xhbednc

“NVIDIA 和 Microsoft Azure 通过多代产品合作，为全球企业带来领先的 AI 创新。“NVIDIA 超大规模和高性能计算副总裁 Ian Buck 表示，NDv5 H100 虚拟机将有助于推动生成人工智能应用程序和服务的新时代。xhbednc

NVIDIA 表示，ND H100 v5 现已提供预览版，并将成为 Azure 产品组合中的标准产品，让任何人都能在云中释放 AI at Scale 的潜力。xhbednc

xhbednc

采用 NVIDIA 的新 H100 GPU 和 Quantum-2 InfiniBand 网络来加速生成 AI

在第二篇博文中，微软宣布推出集成最新 NVIDIA H100 Tensor Core GPU 和 NVIDIA Quantum-2 InfiniBand 网络的新虚拟机。xhbednc

虚拟机是 Microsoft 向客户提供基础设施的方式，可以根据任何 AI 任务的规模进行扩展。Azure 的新 ND H100 v5 虚拟机为 AI 开发人员提供了卓越的性能和跨数千个 GPU 的扩展。xhbednc

该基础设施包括数以千计的 NVIDIA AI 优化 GPU，这些 GPU 在基于 NVIDIA Quantum InfiniBand 通信的高吞吐量、低延迟网络中连接在一起，用于高性能计算。xhbednc

"微软Azure高性能计算和人工智能产品负责人Nidhi Chappell说："肯定有一个强大的推动力，让更大的模型训练更长的时间，这意味着你不仅需要拥有最大的基础设施，你必须能够长期可靠地运行它。xhbednc

数亿投资，上万颗芯片支撑的算力

2019 年，当微软向 ChatGPT 开发商 OpenAI 投资 10 亿美元时，它同意为这家人工智能研究创业公司打造一台庞大的尖端超级计算机。唯一的问题是：微软没有 OpenAI 需要的那样的东西，也无法完全确定它能在 Azure 云服务中构建这么大的东西而不会破坏它。xhbednc

当时，OpenAI 正试图训练一套规模越来越大的人工智能程序，也就是“模型”，后者正在吸收越来越大的数据量，学习越来越多的参数。这些参数是人工智能系统通过训练和再训练得出的变量。这意味着，OpenAI 需要在很长一段时间内使用强大的云计算服务。xhbednc

“我们从研究中学到的一件事是，模型越大，拥有的数据越多，训练时间越长，模型的准确性就越好，”微软 Azure high 产品负责人 Nidhi Chappell 说。“因此，肯定有强烈的推动力让更大的模型接受更长时间的训练，这意味着你不仅需要拥有最大的基础设施，还必须能够长时间可靠地运行它。 ”xhbednc

为了应对这一挑战，微软必须想方设法将数以万计的 Nvidia A100 图形芯片（用于训练 AI 模型的主力）串在一起，并改变其在机架上放置服务器以防止断电的方式。xhbednc

负责云计算和人工智能的微软执行副总裁斯科特·格思里 (Scott Guthrie) 表示该项目成本“可能大于”数亿美元。xhbednc

“我们构建了一个可以在非常大的范围内运行并且可靠的系统架构。这就是导致 ChatGPT 成为可能的原因，”Microsoft Azure AI 基础设施总经理 Nidhi Chappell 说。“这是从中得出的一个模型。还会有很多很多其他人。”xhbednc

ChatGPT 靠的是超级计算机训练

OpenAI 总裁兼联合创始人 Greg Brockman 表示：“与 Azure 共同设计超级计算机对于扩展我们苛刻的 AI 培训需求、使我们在 ChatGPT 等系统上的研究和调整工作成为可能至关重要。”xhbednc

为了训练一个大型语言模型，计算工作量被分配到一个集群中的数千个 GPU 上。在此计算的某些阶段（称为 allreduce），GPU 会交换有关它们已完成工作的信息。InfiniBand 网络加速了这一阶段，该阶段必须在 GPU 开始下一个计算块之前完成。xhbednc

“因为这些工作涉及数千个 GPU，所以你需要确保拥有可靠的基础设施，然后你需要在后端拥有网络，这样你才能更快地沟通，并能够连续几周这样做，”Chappell 说。“这不是你只需购买一大堆 GPU，将它们连接在一起就可以开始协同工作的东西。为了获得最佳性能，需要进行大量系统级优化，这需要几代人积累的丰富经验。”xhbednc

系统级优化包括能够有效利用 GPU 和网络设备的软件。在过去几年中，Microsoft 开发的软件技术提高了使用数万亿参数训练模型的能力，同时降低了在生产中训练和服务它们的资源需求和时间。xhbednc

微软及其合作伙伴也一直在逐步增加 GPU 集群的容量，发展 InfiniBand 网络。xhbednc

微软 AI 平台公司副总裁 Eric Boyd 表示，如今，这种针对大型语言模型训练优化的 Azure 基础设施可通过云中的 Azure AI 超级计算功能获得。该资源提供了 GPU、网络硬件和虚拟化软件的组合，以提供为下一波 AI 创新提供动力所需的计算。xhbednc

据称，针对 AI 优化的基础架构现在已成为整个 Azure 云计算结构的标准配置，其中包括针对 AI 工作负载优化的虚拟机组合、连接的计算和存储资源。xhbednc

微软云和人工智能集团执行副总裁 Scott Guthrie 表示，构建这种基础设施释放了 OpenAI 的 ChatGPT 和新的 Microsoft Bing 等产品中的人工智能功能。xhbednc

参考链接：xhbednc

Azure previews powerful and scalable virtual machine series to accelerate generative AIxhbednc

How Microsoft’s bet on Azure unlocked an AI revolutionxhbednc

责编：Demi

阅读全文，请先

夏菲

Aspencore助理产业分析师，专注行业市场前沿及技术发展趋势。

进入专栏

产业前沿处理器/DSP 人工智能

上一篇： iPhone 15将用USB-C口充电，还会不会受到MFi认证限制？ 下一篇： 国产SSD主控芯片发布，让存算一体与可信计算兼得

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

使用MSO 5/6内置AWG进行功率半导体器件的双脉冲测试在本文中，宽禁带功率器件供应商Qorvo与Tektronix合作，基于实际的SiC被测器件 (DUT)，描述了实用的解决方案···
嵌入式Rust：我们如今身处何方？ Rust对于一般应用开发来说很有意义，但对于嵌入式软件团队来说真的有意义吗？Rust如今的情况如何，它是否就是大家所鼓吹的最美好的解决方案？
631.2亿美元的市场，创新制造工艺将为柔性电子带来什么？柔性电子设备的新型制造技术正在迅速涌现。有些人可能想知道它们是否比传统方法更好，以及它们什么时候会商业化，它们会影响电子设计工程师未来的创新吗？
NFC防伪技术：削弱假货对奢侈品行业的影响打击假冒伪劣最终需要奢侈品行业改进其产品认证方法。但是，随着越来越多的假冒产品不断涌入市场，奢侈品品牌该如何保护自己的知识产权和实体产品呢？
PCI Express Gen5：自动化多通道测试本文将重点介绍用于x16测试的RF开关配置。这些开关型号最多支持18条通道（PCIe最大通常为x16），也可支持更低的通道数···
为什么紫外线固化对于高质量电子产品至关重要？粘合剂粘接是电子产品制造中一个小而关键的部分。紫外线固化可提高该工艺的效率、耐用性和可靠性。
深入拆解一个Godox相机闪光灯发射器，富士专用在2024年三月份，著名的二手影像设备零售商KEH就举行了一次定期的“库存清理”活动，这次活动对其部分仓库库存提供15%的折扣。其中吸引我注意的是一个“Godox X1T-F TTL无线闪光灯触发发射器···
通嘉PD快充适配器高效能及小型化之氮化镓集成方案随着消费者对便携性和高效充电的需求增加，手机厂商和充电器品牌纷纷推出小型化PD快充产品，以满足市场需求···
横向对比考毕兹振荡器和克拉泼振荡器我们之前在“一起来简单聊聊考毕兹振荡器”和“再来谈谈克拉泼振荡器，和考毕兹振荡器有何不同？”中分别研究过这两个振荡器。而对这两个振荡器进行横向对比也是十分有必要的···
拆解一个Geek Bar Pulse电子烟，拆到最后竟然还能亮？电子烟(又称“vape”)的使用量在迅速增长，无论是新用户还是现有的香烟、雪茄、烟斗和嚼烟用户都在使用···
基于SiC的高电压电池断开开关的设计注意事项在本文中，我们将讨论在选择功率半导体技术和定义高电压、高电流电池断开开关的半导体封装时的一些设计注意事项，以及表征系统的寄生电感和过流保护限值的重要性···
来看看在这个电源，能通过单个PWM输出进行计算机编程可变稳压电源是电子实验室工作台上的一种便捷工具，能产生极性相反的相等电压输出的对称型电源更是如此···

机器人所需要的传感器有哪些？随着机器人技术的迭代升级，传感器的重要性将持续提升，其功能性、精度和适配性也将得到显著改进，作为机器人不可
2024年墨西哥市场分析，中国品牌崛起 2024年，墨西哥汽车市场以近10%的增长率展现了强劲的复苏势头，中国品牌的崛起为市场注入了新活力，当然现在的政
2025，大众汽车集团在中国如何转型？ 2024 年，大众汽车集团（中国）在复杂多变的市场环境中成功达成销量目标，向客户交付超过 290 万辆汽车，新能源汽车领
国产射频芯片公司汇总对于射频芯片这项卡脖子技术，国内很多公司在这方面努力，而且也做出了不错的成绩。一些射频芯片公司无论从研发
拆解报告：松下电器1200W电吹风松下EH-NW90电吹风内置10万转高速无刷电机，并具备三档风速和四档风温可选。电吹风内置纳诺怡技术，为秀发提供
拆解报告：白牌电动工具电池多功能放电转换器这款白牌多功能放电转换器适配得伟电动工具电池使用，将电动工具电池和放电转换器组装起来，即可组成移动电源和
拆解报告：MOMA猛玛LARK M2无线麦克风 MOMA猛玛LARK M2无线麦克风在外观方面，采用了极富创新的设计，提供了轻盈舒适的佩戴使用体验。发射器采用了夹
阿根廷2024年：销量下滑，北汽增长240.1%。 2024年阿根廷汽车市场在整体销量下滑的背景下，依然展现出多元化的发展趋势···
2025年第3周：全球最快四足机器人发布 2025年将成为机器人产业的关键时间点，业内预期27年人形机器人出货量可达50~100万台。从技术进步到供应链成熟
欧洲2024年汽车市场：微弱复苏和电动化加速并存 2024年，欧盟新车注册量小幅增长0.8%，达到约1060万辆，欧盟+英国+北欧国家的销量为1296.4万台，同比增长0.9%，整个欧
射频微波领域有哪些高质量期刊？今天我们结合网络上的资料一起整理一份射频微波领域的期刊列表，以便同学们投稿时可以选择···
拆解报告：Portal智能屏幕24W电源适配器 Portal智能屏幕电源适配器采用黑色直板机身，外观整洁，配有2米长黑色输出线。适配器采用美规固定插脚，支持100-2

性能飞跃！升级电流传感器NSM201x-P系列赋能汽车三电和光伏逆变器纳芯微推出全新车规级集成电流路径霍尔传感器NSM201x-P系列。该系列产品是对纳芯微已量产的NSM201x系列的完
意法半导体推出STSPIN32G0新列电机驱动器，满足工业自动化和家电市意法半导体STSPIN32系列集成化电机驱动器新增八款产品，满足电动工具、家用电器、工业自动化等应用的低成本、
Melexis推出性能先进的温度传感器，以红外技术创新实现电磁炉智能全球微电子工程公司Melexis宣布，推出专为电磁炉设计的非接触式红外温度传感器芯片MLX90617···
康佳特SMARC模块更新: 全新英特尔酷睿3处理器低功耗 SMARC 模块AI 加速和图形处理性能再次提升···
康佳特针对要求苛刻的实时应用推出新型高性能COM-HPC模块基于英特尔酷睿 Bartlett Lake S处理器的模块性能全面提升···
为汽车安全保驾护航，纳芯微推出基于AMR技术的ABS轮速传感器纳芯微宣布推出全新基于AMR（各向异性磁阻技术）的轮速传感器NSM41xx系列。该系列产品通过集成先进的磁性传感敏
Microchip推出全新Switchtec™ PCIe® 4.0 16通道交换机系列 PCI100x系列器件可为任何需要加速或专用计算的应用提供高性能和成本效益···
RK3576有多强？实测三屏八摄像头轻松搞定-米尔米尔基于他们推出的MYD-LR3576开发板开发了一个3屏异显，8路摄像头输入的DEMO，实测下来，RK3576轻松搞定了该任
SynQor®推荐先进的军用级三相输入UPS（UPS-1500-S-1U-T） SynQor的三相输入UPS电源能使单相负载在电源端呈现出符合MIL-STD-1399-300B标准的清洁、表现良好且几乎零反
村田开发超小尺寸、超低功耗的Type 2GQ GNSS模块，以匠心品质助在几年前，定位系统充斥于生活方方面面的情节还仅见于各式的科幻影片，而今具备这一功能的产品已经以各种形态步
瑞萨推出性能卓越的新型MOSFET 瑞萨全新晶圆技术可以帮助MOSFET实现导通电阻降低30%、栅漏电荷减少40%、封装尺寸缩小50%的目标···
加特兰集成 Cadence Tensilica ConnX 220 DSP 全面升级汽 ConnX 220 DSP 集成至基于下一代 Andes SoC 的加特兰雷达解决方案后，将带来显著优势，包括提高灵活性、

热门评论
最新评论

换一换

杂志声明

ChatGPT背后：微软耗资数亿美元，用数万英伟达A100打造的超级计算机

该超级计算机使用数千个 NVIDIA A100 GPU 和 InfiniBand 网络来训练 ChatGPT

采用 NVIDIA 的新 H100 GPU 和 Quantum-2 InfiniBand 网络来加速生成 AI

数亿投资，上万颗芯片支撑的算力

ChatGPT 靠的是超级计算机训练