特斯拉Dojo计算平台有哪些值得关注的？-EDN 电子技术设计

 Dojo这个特斯拉自己定制的超级计算平台，是从头开始构建的用于自动驾驶视频数据进行视频训练的平台。

在特斯拉AI Day发布会上，Dojo这个特斯拉自己定制超级计算平台，它的出现是从头开始构建，用于自动驾驶视频数据进行视频训练。主要两个目的：其一是比市售云计算更便宜；其二是比市售云计算更强大——从某种意义上，特斯拉和Jeff Bezos 是不对付的，所以特斯拉是希望与亚马逊 AWS 相提并论，使用在线提供的服务，可以用更少的钱、更快地训练模型。Rr0ednc

特斯拉已有是基于 NVIDIA GPU 的大型超级计算机，新的 Dojo 定制计算机，是在设计层面做有效的突破。Rr0ednc

Rr0ednc

▲图1. Dojo的计算效果Rr0ednc

Dojo Exapod规格：1.1 EFLOP、1.3 TB SRAM 和 13 TB 高带宽 DRAM。Rr0ednc

从设计之初，硬件层面要为深度的神经网络训练做考虑，从芯片到机组再到机房的传输带宽都是非常扩展，将Occupancy网络应用于Dojo系统之中，实现了AI硬件与AI软件的更佳匹配，最后在降低延迟和性能损失上取得的效果十分惊人。Rr0ednc

Rr0ednc

▲图2. 特斯拉的ExaPOD效果图Rr0ednc

Dojo超级计算机系统的未来路线图如下：Rr0ednc

Rr0ednc

▲图3. Dojo的整体RoadmapRr0ednc

Rr0ednc

Part 1Rr0ednc

电源和带宽设计Rr0ednc

1）电源供给Rr0ednc

在技术部分，好的计算模块需要非常特制的电源设计，在这里电压调节模块可以传输1000A电流，具有超高密度，利用多层垂直电源管理材料过渡。这个设计具有高性能、高密度（0.86A/mm²）、复杂集成性，未来的目标是减少54%的CTE，提升3倍性能。在这里提高功率密度是提升系统性能的核心和基石，有趣的是特斯拉在24个月内设计更新了14个版本。Rr0ednc

在这个电源设计中，充分考虑了电容、时钟和振动特性。Rr0ednc

● 软端子连接电容来减少振动

● MEMS时钟可以有10倍更低的Q-Factor

● 下一步优化开关频率Rr0ednc

Rr0ednc

▲图4. 配套的电源模块Rr0ednc

Rr0ednc

▲图5. Training Tile的结构Rr0ednc

2）可扩展的系统Rr0ednc

系统集合，包含了功率、结构和散热三部分，这个最小单元System Tray参数：75mm高度、54 PFLOPS（BF16/CFP8）、13.4 TB/S（对分带宽）、100+ KW PowerRr0ednc

Standard Interface Processor参数：32GB（高带宽动态随机存取存储器）、900 TB/S（TTP带宽）、50 GB/S（以太网带宽）、32GB/S（第四代PCI带宽）Rr0ednc

High Interface Processor参数：640GB（高带宽动态随机存取存储器）、1TB/S（以太网带宽）、18 TB/S（Aggregate Bandwidth To Tiles）Rr0ednc

Rr0ednc

▲图6. System TrayRr0ednc

Rr0ednc

▲图7. Dojo Host 接口Rr0ednc

对应32GB高传输频宽存储、每秒900TB资料传输量，以及每秒可对应50GB资料传输量的网路传输频宽的Dojo接口处理器Rr0ednc

Rr0ednc

▲图8. Dojo的接口处理器Rr0ednc

下图是Dojo的时间进度表。Rr0ednc

Rr0ednc

▲图9. Dojo 的时间进度Rr0ednc

Rr0ednc

Part 2Rr0ednc

Dojo的软件系统Rr0ednc

Dojo系统建立目标：解决很难形成规模的约束模型。Rr0ednc

Rr0ednc

▲图10. 软件的优化目标Rr0ednc

单一的加速器到前向和后向通道、优化器、多个加速器上运行多个副本的流程。更大激活度的模型想运行前向通道时会遇到适合单个加速器的批量大小往往小于批量规范面的问题；多个加速器上设置同步批量规范模式。Rr0ednc

高密度集成是为了加速模型的计算约束和延迟约束部分；Dojo网格的一个片断可以被分割出来运行模型（只要分片足够大）；统一的低延迟中的细粒度同步原语加速跨集成边界的并行性；Tensors是以RAM的形式存储Chardon，并在各层执行时及时复制；张量复制的另一个数据传输与计算重叠，编译器也可重新计算层。Rr0ednc

Rr0ednc