广告

特斯拉Dojo计算平台有哪些值得关注的?

2022-10-08 汽车电子设计 阅读:
Dojo这个特斯拉自己定制的超级计算平台,是从头开始构建的用于自动驾驶视频数据进行视频训练的平台。

在特斯拉AI Day发布会上,Dojo这个特斯拉自己定制超级计算平台,它的出现是从头开始构建,用于自动驾驶视频数据进行视频训练。主要两个目的:其一是比市售云计算更便宜;其二是比市售云计算更强大——从某种意义上,特斯拉和Jeff Bezos 是不对付的,所以特斯拉是希望与亚马逊 AWS 相提并论,使用在线提供的服务,可以用更少的钱、更快地训练模型。i6Cednc

特斯拉已有是基于 NVIDIA GPU 的大型超级计算机,新的 Dojo 定制计算机,是在设计层面做有效的突破。i6Cednc

i6Cednc

图1. Dojo的计算效果i6Cednc

Dojo Exapod规格:1.1 EFLOP、1.3 TB SRAM 和 13 TB 高带宽 DRAM。i6Cednc

从设计之初,硬件层面要为深度的神经网络训练做考虑,从芯片到机组再到机房的传输带宽都是非常扩展,将Occupancy网络应用于Dojo系统之中,实现了AI硬件与AI软件的更佳匹配,最后在降低延迟和性能损失上取得的效果十分惊人。i6Cednc

i6Cednc

▲图2. 特斯拉的ExaPOD效果图i6Cednc

Dojo超级计算机系统的未来路线图如下:i6Cednc

i6Cednc

▲图3. Dojo的整体Roadmapi6Cednc

i6Cednc

Part 1i6Cednc

电源和带宽设计i6Cednc

1)电源供给i6Cednc

在技术部分,好的计算模块需要非常特制的电源设计,在这里电压调节模块可以传输1000A电流,具有超高密度,利用多层垂直电源管理材料过渡。这个设计具有高性能、高密度(0.86A/mm²)、复杂集成性,未来的目标是减少54%的CTE,提升3倍性能。在这里提高功率密度是提升系统性能的核心和基石,有趣的是特斯拉在24个月内设计更新了14个版本。i6Cednc

在这个电源设计中,充分考虑了电容、时钟和振动特性。i6Cednc

 软端子连接电容来减少振动
● MEMS时钟可以有10倍更低的Q-Factor

 下一步优化开关频率i6Cednc

i6Cednc

▲图4. 配套的电源模块i6Cednc

i6Cednc

▲图5. Training Tile的结构i6Cednc

2)可扩展的系统i6Cednc

系统集合,包含了功率、结构和散热三部分,这个最小单元System Tray参数:75mm高度、54 PFLOPS(BF16/CFP8)、13.4 TB/S(对分带宽)、100+ KW Poweri6Cednc

Standard Interface Processor参数:32GB(高带宽动态随机存取存储器)、900 TB/S(TTP带宽)、50 GB/S(以太网带宽)、32GB/S(第四代PCI带宽)i6Cednc

High Interface Processor参数:640GB(高带宽动态随机存取存储器)、1TB/S(以太网带宽)、18 TB/S(Aggregate Bandwidth To Tiles)i6Cednc

i6Cednc

▲图6. System Trayi6Cednc

i6Cednc

▲图7. Dojo Host 接口i6Cednc

对应32GB高传输频宽存储、每秒900TB资料传输量,以及每秒可对应50GB资料传输量的网路传输频宽的Dojo接口处理器i6Cednc

i6Cednc

▲图8. Dojo的接口处理器i6Cednc

下图是Dojo的时间进度表。i6Cednc

i6Cednc

▲图9. Dojo 的时间进度i6Cednc

i6Cednc

Part 2i6Cednc

Dojo的软件系统i6Cednc

Dojo系统建立目标:解决很难形成规模的约束模型。i6Cednc

i6Cednc

▲图10. 软件的优化目标i6Cednc

单一的加速器到前向和后向通道、优化器、多个加速器上运行多个副本的流程。更大激活度的模型想运行前向通道时会遇到适合单个加速器的批量大小往往小于批量规范面的问题;多个加速器上设置同步批量规范模式。i6Cednc

高密度集成是为了加速模型的计算约束和延迟约束部分;Dojo网格的一个片断可以被分割出来运行模型(只要分片足够大);统一的低延迟中的细粒度同步原语加速跨集成边界的并行性;Tensors是以RAM的形式存储Chardon,并在各层执行时及时复制;张量复制的另一个数据传输与计算重叠,编译器也可重新计算层。i6Cednc

i6Cednc

▲图11. 网络模型i6Cednc

编译器以模型并行的方式映射,通信阶段从节点计算本地平均值和标准偏差开始;协调后继续并行。从编译器中提取通信树;真实硬件的时间节点,中间辐射减少的值由硬件加速;这个操作在25个Dojo编译器上只需要5微秒,同样的操作在24个GPU上需要150微秒。这是对GPU的一个数量级的改进。i6Cednc

i6Cednc

▲图12. 对比的结果i6Cednc

Dojo是为解决更大的复杂模型而建立的,当前两个GPU集群的使用模式,i6Cednc

● 自动标注网络(用于生成地面真相的离线模型)

 占有率网络(高算术强度的大型模型)i6Cednc

测试结果:多模系统上对GPU和Dojo进行的测量显示已经可以超越任何100个使用当前硬件运行的老一代PRMS的性能;A100的吞吐量翻了一番;关键的编译器优化达到M100的3倍以上的性能。i6Cednc

目前来看,一个Dojo可以取代6个GPU盒子上的ML计算机,而成本比一个GPU盒子还低,目前一个多月时间来训练的网络现在只需要不到一个星期i6Cednc

i6Cednc

▲图13. Dojo的特性对比i6Cednc

小结:这些信息感觉都是为了给全球的工程师的,也是给出了很多的技术发展的方向,有些像之前开放专利的模式,为了进一步招纳年轻的工程师准备的。i6Cednc

 i6Cednc

责编:Ricardo
文章来源及版权属于汽车电子设计,EDN电子技术设计仅作转载分享,对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。如有疑问,请联系Demi.xia@aspencore.com
汽车电子设计
博主和汽车电子的行业的工程师们一起交流、探讨、思考的小结,以作为技术交流和沟通的桥梁。
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
广告
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了