此前早有传闻,微软在构建自己的芯片,用于训练大语言模型,以避免对英伟达的过度依赖。而就在11月15日这一传闻被证实了,微软在Microsoft Ignite全球技术大会上,发布了自研的AI加速器芯片Microsoft Azure Maia,其主要用于OpenAI模型、Bing、GitHub Copilot和 ChatGPT 等AI工作负载运行云端训练和推理。
据了解,Maia采用了台积电5nm工艺,拥有1050亿个晶体管,并支持微软首次实现的8位以下数据类型,即MX数据类型。在MXInt8格式下,Maia的算力可以达到1600 TFLOPS (每秒1600万亿次),在MXFP4格式下则为3200TFLOPS,基本上已经能够与英伟达的H100和AMD的MI300X一较高下了。不过可惜的是,Maia的显存带宽只有1.6TB/s,虽然高于Trainium/Inferentia2,但明显低于TPUv5,更不用说H100和MI300X了。此外,微软仅采用了4层HBM,而英伟达是6层,AMD是8层。
据介绍,Maia的亮点之一是网络设计,AMD和英伟达的Infinity Fabric和NVLink,主要用于小范围芯片的高速连接,而如果要将数以万计的GPU连接在一起,英伟达和AMD都需要用以太网/InfiniBand的网卡外接。Maia则完全不同,微软让每个芯片都拥有自己的内置RDMA以太网IO,每个芯片IO总计为4.8Tbps,在这方面直接超过了英伟达和AMD。也正因如此,Maia 100将PCIe通道减少到了8个,从而最大限度地扩大112G SerDes的区域,对应的英伟达的GPU有16个通道,多出的8个主要用于连接到以太网/InfiniBand。
Maia 100服务器机架和冷却系统
总结来看,Maia在算力方面基本与英伟达和AMD有了一战之力,在显存带宽方面还稍显落后,而在远距离的网络IO连接方面则遥遥领先,基本可以算是跻身进了AI加速器芯片的第一梯队,不过可惜的是微软暂不打算对外出售这些芯片,Maia主要还是用来为微软的Azure数据中心提供算力。