英伟达和亚马逊云科技宣布,将共同推出首款云AI超级计算机,将英伟达的H200 Grace Hopper超级芯片与亚马逊UltraCluster扩展功能融合。
据悉,该合作项目代号为Project Ceiba,共计搭载了16384颗英伟达H200超级芯片,能够处理65 exaflops速度等级的AI运算,这个超级计算机是配备了H200 NVL32与Amazon EFA互连技术的大规模系统,将部署在亚马逊云科技之上。
这一合作项目的重要性得到了双方高层的亲自站台,亚马逊云科技CEO Adam Selipsky和英伟达CEO黄仁勋纷纷表示,他们共同的目标是发展生成式AI,为各个领域提供成本效益和先进的生成式AI。
亚马逊云科技首席执行官Adam Selipsky 表示:“今天,我们为图形、游戏、高性能计算、机器学习以及现在的生成式人工智能等工作负载提供最广泛的英伟达GPU 解决方案。我们继续与英伟达合作创新,将下一代英伟达Grace Hopper Superchips 与亚马逊云科技的 EFA 强大网络、EC2 UltraClusters 的超大规模集群以及 Nitro 的高级虚拟化功能相结合,使亚马逊云科技成为运行 GPU 的最佳场所。”
Ceiba项目是此次合作的基石,旨在创建世界上最快的 GPU 驱动的 AI 超级计算机,由 亚马逊云科技 托管,并专门为英伟达提供。这个雄心勃勃的项目将集成 16,384 个英伟达GH200 超级芯片(使用 GH200 NVL32 解决方案,包含 32 个 GH200 GPU 和 19.5 TB 统一内存),这些芯片将提供惊人的 65 个“AI ExaFLOPS”处理能力。这台超级计算机用于英伟达的生成式人工智能研发项目。
亚马逊云科技上托管的英伟达DGX 云是此次合作的另一个主要组成部分。该人工智能培训即服务平台是第一个将 GH200 NVL32 机器与 19.5 TB 统一内存结合在一起的商用实例。该平台为开发人员提供了单个实例中可用的最大共享内存,显着加速了高级生成人工智能和大型语言模型的训练过程,可能超过 1 万亿个参数。
此外,亚马逊云科技将率先提供 基于Nvidia GH200 Grace Hopper Superchips的基于云的AI超级计算机。这种独特的配置将使用 NVLink 连接每个实例 32 个 Grace Hopper Superchip。它将扩展到数千个 GH200 Superchips(和 4.5 TB HBM3e 内存),与 Amazon 的 EFA 网络连接,并得到高级虚拟化(亚马逊云科技 Nitro System)和超大规模集群(Amazon EC2 UltraClusters)的支持。
此次合作还将推出 新的英伟达支持的Amazon EC2实例。这些实例将配备 H200 Tensor Core GPU,具有高达 141 GB 的 HBM3e 内存,适用于大规模生成式 AI 和高性能计算 (HPC) 工作负载。此外,G6 和 G6e 实例分别配备 NvidiaL4 和 L40S GPU,专为从 AI 微调到 3D 工作流程开发等广泛应用而设计,并利用英伟达Omniverse 创建支持 AI 的 3D 应用程序。
此次合作将引入英伟达的先进软件 ,以加速亚马逊云科技上的生成式 AI 开发。其中包括用于创建聊天机器人和摘要工具的 NeMo LLM 框架和 NeMo Retriever 以及用于加速药物发现流程的 BioNeMo。
英伟达创始人兼首席执行官黄仁勋表示:“生成式 AI 正在改变云工作负载,并将加速计算作为多样化内容生成的基础。”在向每位客户提供经济高效的最先进的生成式人工智能这一共同使命的推动下,Nvidia和亚马逊云科技正在整个计算堆栈上进行合作,涵盖人工智能基础设施、加速库、基础模型和生成式人工智能服务。 ”
此外,亚马逊云科技还宣布了自家芯片的大升级,发布了Graviton4通用AI芯片。与上一代Graviton3相比,Graviton4的计算性能提高了30%,核心数量增加了50%,内存带宽增加了75%。这一芯片将应用于内存优化型的Amazon EC2 R8g实例,提升高性能数据库、内存缓存和大数据分析工作的效率。
另外,Trainum2芯片也亮相,主要用于拥有超大参数模型的训练。相比于上一代Trainium1,Trainum2在速度上提升了4倍,在能效方面也有2倍的提升。这一芯片将支持新的服务,为客户提供大规模的模型构建和训练能力。
亚马逊云科技不仅在硬件方面进行了升级,还发布了生成式AI应用搭建平台Bedrock。亚马逊云科技的Keynote演讲中,还展示了一款名为Amazon Q的工作版ChatGPT,专为企业用户设计,帮助员工利用公司的数据和专业知识获取答案、解决问题。