广告

特斯拉在AI Day上发布人工智能训练芯片D1和人工智能计算机柜 DOJO Pod

2021-08-23 汽车电子与软件 阅读:
在今年的 AI Day上,特斯拉正式兑现了马斯克承诺的「一家人工智能公司」,发布了第一款汽车企业自研的人工智能训练芯片 D1,以及目前性能最强的人工智能计算机柜 DOJO Pod——它会为特斯拉的纯视觉 FSD 深度学习服务。
HXVednc

三、一切为了数据,为了数据的一切HXVednc

2021 CVPR 会议上,Andrej 表示特斯拉转向纯视觉深度学习之后,已经积累了超过 60 亿个物体标签,超过 1.5PB 的数据量——那还只是 6 月底。HXVednc

HXVednc

为了应对如此庞大的数据,特斯拉表示他们目前拥有一支 1000 人的数据标签队伍,与工程师一起工作,打造了完全定制化的数据标签&分析架构。HXVednc

在传统的 2D 图像标注基础上,特斯拉现在可以实现 4D,也就是立体空间+时间戳的四维标注,效果如图:HXVednc

HXVednc

另外,销量屡创新高,路上跑的车越来越多之后,特斯拉如今可以对同一条路做多次数据收集:HXVednc

HXVednc

加上墙壁、路障,和其他所有物体,再加上周边行人、车辆的闭环整合,一辆特斯拉眼中的数据世界,是这样的:HXVednc

HXVednc

四、Dojo,地表最强!HXVednc

终于来到本次发布会的重中之重了。HXVednc

HXVednc

目前特斯拉唯一一款自研芯片,是 FSD Chip。单芯算力 72TOPS,双芯组成的 Autopilot 硬件 3.0 算力 144TOPS。HXVednc

HXVednc

除了装在 SEXY 家族车型上,特斯拉还在用硬件 3.0 做 AI 评估,超过 3000 块 HW3.0 主板组成的 3 个数据中心,每周可以运行 100 万次循环。HXVednc

HXVednc

而前不久 Andrej「爆料」的,目前用于神经网络训练的超级计算机,则使用了英伟达 A100 GPU 方案,合计 5760 个 GPU 以及 12PB(1PB=1024TB)的 NVME 高速存储器。HXVednc

HXVednc

但在 Dojo 面前,它俩都像是上一个时代的产物——或者说本来就是。HXVednc

正式进入 Dojo 参数之前,我们先来强调一下:特斯拉对于 AI 训练计算机的核心诉求,并不是算力,而是带宽和延迟HXVednc

HXVednc

这一点,2019 年的 Pete Bannon 已经提到过:「自动驾驶运算需要极高的带宽,起码要达到 1TB 每秒,FSD 芯片(内部)可以达到 2TB 每秒」。HXVednc

 HXVednc

多芯片之间数据交换的带宽(类似于车道数)和延迟(类似于道路限速),是特斯拉在 AI 训练路上狂奔得足够久之后的深刻总结。HXVednc

HXVednc

Dojo 的设计原命题,就是带宽和延迟,这两个要素,是决定特斯拉能否达到「最佳 AI 训练性能、更大更复杂神经网络、能耗成本优化」目标的关键。HXVednc

HXVednc

再卖个关子,来看看英伟达的 A100 多芯片方案,多个芯片位于不同的 PCB 基板,用桥接器连接。这已经是目前最快的桥接器,速度达到了 600GB 每秒。HXVednc

 HXVednc

但对于特斯拉来说,这还远远不够。HXVednc

HXVednc

多芯片之间最理想的数据交换方式,就是「放在一起」,也就是位于同一块基板上,左邻右里排布。HXVednc

而特斯拉更进一步,不是将芯片们「放」在一起,而是「封装」在一起。HXVednc

 HXVednc

封装多个芯片有很多种方法,比如这颗英特尔处理器一样,两块芯片放在一个基板上:HXVednc

HXVednc

而特斯拉又进了一步,使用了台积电首次量产的 InFO-SoW 扇上晶圆直出封装技术,也就是直接从晶圆上刻出一个个芯片,然后整块晶圆摁在基板上。HXVednc

HXVednc

全部装起来之后,一个 Dojo 计算模组长这样:HXVednc

HXVednc

如果只刻一块芯片,那它叫 D1 Chip,长这样,基于台积电 7 纳米工艺打造,核心面积 645 平方毫米,内置了 500 亿个晶体管,内部线束长度高达 11+ 英里(约 18 公里):HXVednc

HXVednc

内部线束如此惊人,是因为 D1 芯片内和芯片间的通信带宽简直骇人听闻。这同时得益于台积电的封装技术(芯片之间的距离极短),以及特斯拉的芯片设计。HXVednc

一块 D1 芯片由 354 个训练节点组成,每个训练节点内部都起码有以下部分:HXVednc

64 位 4 路集相的多线程 CPU;HXVednc

1.25MB SRAM 缓存;HXVednc

低延迟数据交换结构;HXVednc

SIMD 单指令多数据流的浮点/整数单元HXVednc

D1 训练节点的一大特点,就在于这个「低延迟数据交换结构」。HXVednc

HXVednc

上图右上角有一个叫做「 NOC Router」的结构,这是训练节点之间交换数据的工具——特斯拉丧心病狂地给每一个小节点,都设计了上下左右各 64bit 的通道。HXVednc

 HXVednc

这是什么意思?我们还是直接看疗效:D1 的芯片内部带宽高达 10TB 每秒,芯片外带宽也高达 4TB 每秒!HXVednc

HXVednc

算力方面,每一个训练节点都拥有 1024GFLOPS 的 BF16/CF8 精度计算能力(这两个是较新的精度标准),或者 32GFLOPS 的 FP32 精度计算能力。HXVednc

 HXVednc

354 个训练节点构成的 D1 芯片,则可以实现高达 362TFLOPS 的 BF16/CF8 精度算力(FP32 精度 22.6T)——而 25 个 D1 芯片组成的 Dojo 计算模块,则将这块人手轻松举起来的「电脑」算力,推到了惊人的:HXVednc

9PFLOPS!HXVednc

HXVednc

这是什么概念?HXVednc

 HXVednc

最终成品的单个 DOJO 计算机柜,叫做 DOJO Pod,总算力超过 1.1EFLOPS(BF16 精度),内含 3000 个 D1 芯片,也就是只需要 120 片上图这样小巧的模组——就达到了超越全球超算排行榜第 5 名的 FP32 精度算力。HXVednc

HXVednc

而目前的第 5 名,隶属于美国国家能源研究科学计算中心(NERSC)的 Perlmutter,一共有 40 个机柜。HXVednc

 HXVednc

当然,马斯克说过的可是「1 exa flops at de facto FP32(货真价实的 1E FP32 精度算力)」。目前一个 Dojo Pod 可实现不了——但这次跳票也许真不怪马斯克,台积电目前有多紧俏,相信大家都有所耳闻。HXVednc

 HXVednc

哦对了,下一代 Dojo 和相关软件工具已经在研发了,目标又是 10 倍级别的系统级性能提升。HXVednc

HXVednc

文章来源及版权属于汽车电子与软件,EDN电子技术设计仅作转载分享,对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。如有疑问,请联系Demi.xia@aspencore.com
汽车电子与软件
汽车电子与软件
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
广告
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了