Facebook母公司Meta周一表示,其研究团队已经建造了一台新的人工智能超级计算机,认为在2022年中组装完成时将是世界上最快的。
据EDN了解,Meta公司在一篇博文中说,其新的人工智能研究超级集群AI Research SuperCluster(简称RSC)将帮助该公司建立更好的人工智能模型,可以从数万亿的例子中学习,在数百种语言中工作,并一起分析文本、图像和视频,以确定内容是否有害。
该公司在一篇博文中说:“这项研究不仅有助于今天在我们的服务中保证人们的安全,而且在未来,当我们为元宇宙而建设时,也会帮助我们。”
RSC 的第一阶段已经建成并投入使用,包括 760 个 Nvidia DGX A100 计算节点,总计约 6,080 个 Nvidia A100 GPU,全部与 Nvidia 的 Quantum 200Gb/s InfiniBand 联网。
在存储方面,该系统配备了 175PB 的 Pure Storage FlashArray、10PB 的 Pure Storage FlashBlade 和 46PB 的缓存存储在 Penguin Computing Altus 服务器中。Meta 表示,仅在第一阶段,他们“相信 [RSC] 是当今运行速度最快的 AI 超级计算机之一”
Meta 表示,随着第二阶段在 7 月左右完成,RSC 将包含总共 16,000 个 GPU(大概通过额外的 1,240 个 DGX A100 节点,Nvidia 认为这将使其成为 DGX A100 系统的最大客户安装)和一个完整的艾字节存储容量可容纳 16TB/s 的训练数据。Meta 表示 16,000 个 GPU 将是系统的最大配置。“这是由于网络配置减少了跳数,以确保我们提供 1:1 的超额订阅,”Meta 发言人告诉我们。
Meta 表示,第二阶段将使 RSC 的 AI 训练性能提高 2.5 倍以上(与 GPU 的 2.63 倍增长同步),巩固其作为世界上最快的 AI 超级计算机的地位。
与之前的系统不同,RSC 不仅适用于开源/公共数据集,还适用于来自 Meta 的真实内部生产数据。Meta 说,为此,他们将系统设计为与互联网隔离,所有连接都通过 Meta 自己的数据中心。用户生成的数据(经过匿名检查)从存储系统到 GPU 进行加密,并且仅在用于模型训练之前立即在内存中解密。
Meta 还开发了一种存储服务(称为 AI Research Store,或 AIRStore)来处理 RSC 不断增长的带宽和容量需求。AIRStore 为 AI 模型预处理训练数据,旨在优化传输速度。
在宣布 RSC 时,Meta 还悄悄详细介绍了其于 2017 年推出的第一代人工智能研究超级计算硬件。Meta 表示,未命名的集群拥有 22,000 个 Nvidia V100 GPU,每天执行 35,000 个训练工作。Meta 表示,与之前的系统相比,RSC 的早期基准测试显示计算机视觉工作流程提高了 20 倍,大规模 NLP 模型训练提高了 3 倍(Meta 说,这意味着节省了数周的时间)。
在计算力方面,Meta 估计 RSC 将提供近 5 exaflops 的混合精度 AI 计算能力。
Meta公司表示,它相信RSC是目前运行的最快的人工智能超级计算机之一。Meta发言人称,该公司与Nvidia、Pure Storage和Penguin Computing的团队合作,共同打造这台超级计算机。