广告

如何搭建自动驾驶超算中心

2023-01-04 汽车电子与软件 阅读:
近日,由英伟达与IDC联合发布《现实+仿真,超大算力赋能自动驾驶》。该白皮书结合当下自动驾驶开发现状,深入挖掘自动驾驶开发过程中的业务需求与挑战,并综合分析车企及技术供应商如何通过搭建超算中心,满足自动驾驶开发对算力的需求,促进自动驾驶的高效开发与落地。

 Xsbednc

特斯拉超算中心拥有近2万张GPU,对自动驾驶训练效率产生立竿见影的效果,最大限度地提升了自动驾驶系统的开发效率。
蔚来智能计算中心,将推理速度提高至6倍,并节省了24%的资源;模型开发效率提升了20倍,助力其缩短了自动驾驶汽车的上市周期。
大陆集团的高算力集群,将开发周期从几周缩短至几个小时,使自动驾驶得以在中短期商业计划中落实;机器学习时间的缩短加快了新科技进入市场的速度。
......
当前,一个不争的事实就是,在自动驾驶领域具有长期规划的车企,无论是造车新势力还是传统品牌,或者技术供应商,都在搭建自己的超算中心,以掌握稳定的算力资源,缩短开发周期,加快自动驾驶产品的上市。
相反,如果没有超算中心,那么自动驾驶训练速度将明显放缓,自动驾驶企业间的差距也将愈发明显。
近日,由英伟达与IDC联合发布《现实+仿真,超大算力赋能自动驾驶》。该白皮书结合当下自动驾驶开发现状,深入挖掘自动驾驶开发过程中的业务需求与挑战,并综合分析车企及技术供应商如何通过搭建超算中心,满足自动驾驶开发对算力的需求,促进自动驾驶的高效开发与落地。
下文将对《现实+仿真,超大算力赋能自动驾驶》进行分析与解读,揭开自动驾驶超大算力的神秘面纱。

01

AI 技 术 推 动 自 动 驾 驶 行 业 发 展

白皮书IDC统计数据显示,截至2022年第一季度,L2及以上级别自动驾驶乘用车新车渗透率达到23.2%,并将在可预见的未来持续上升。我们再往前迈步,随着自动驾驶技术的进一步发展,最终达到自动驾驶的终局——规模化L4。
要实现L2以及更高级别的自动驾驶,甚至达到L4,必须进行大量的测试,以 " 行驶一亿公里出现一次致命事故的人类驾驶水平 " 为参考,自动驾驶汽车至少要进行千亿公里的测试——相当于 100 万辆车,以每天 10 个小时的频率不间断行驶 10年。这并不是只靠时间就能达成的目标,车辆还需解决百万长尾问题,才能确保乘客安全。
如此庞大的时间、人力、物力成本,怎样才能降低?只要有大量的数据,就可以解决大部分问题,以数据驱动软件算法持续升级迭代,降低研发的时间及人力物力成本。
正如白皮书指出的,自动驾驶系统的前期开发依赖大量道路环境数据的输入,形成贯穿感知、决 策、规划、控制多环节的算法。而后依然需要持续不断地输入数据,继续对算法的训练与验证,从而实现迭代,加速自动驾驶落地。而自动驾驶算法的训练需要在有限的时间内完成大量的运算,因而对算力形成极高的要求。高强度的算力不仅需要被用于模型的运行、更新、迭代,还需要支撑仿真测试中场景的搭建与渲染。
1.1、A I超算中心为自动驾驶系统的训练提供算力支持
想要利用数据,进行自动驾驶系统的训练及验证,就需要算力。算力直接影响着开发效率,决定产品的上市周期。
白皮书指出,数据中心承载着训练自动驾驶系统所需的巨大算力,为支撑人工智能计算提供了重要的硬件基础设施,其底层硬件技术路径包括GPU、ASIC、FPGA、NPU。通过调研,IDC发现汽车行业训练自动驾驶算法的硬件基础设施以GPU为主,其他为辅。
 
(人工智能计算中心硬件基础设施)
此外,GPU的发展伴生出大量的配套软件与服务,包括开发工具与平台,大大减少了开发者部署硬件设施时所需消耗在测试与优化上的时间成本,使汽车行业的终端用户得以更加快捷地部署算力。
看到这里,很多读者朋友可能要问,业界数据中心所使用的GPU及配套软件及服务有哪些。这里介绍一下NVIDIA DGX SuperPOD一体化方案。
为了满足 AI 模型算力需求,帮助企业构建 AI 数据中心,2021 年 4 月,NVIDIA 推出 DGX SuperPOD 云原生超级计算机,为用户提供一站式 AI 数据中心解决方案,是企业满足 AI 大模型计算的有力方案。
SuperPOD是一个支持从小规模迅速扩展的参考架构、持续的软件优化、消除数据中心复杂的“交钥匙”的方案,助力自动驾驶客户应对极具挑战性的 AI 和高性能计算 (HPC) 工作负载,同时助力客户将更多时间和精力聚焦在做算法上,去做算法迭代、软件迭代,而不是把精力花在构建数据中心。
该一体化方案包括20台DGX,GPU服务器、高速存储、 Mellanox IB网络,以及软件、调度平台、服务都是由NVIDIA直接提供,安装部署服务、调优服务、为客户所做的培训、为客户所做前期能力建设等等,以及专门的项目技术客户经理,很多服务都包含在里面。
1.2、数字孪生技术加强仿真测试
众所周知,目前实车数据的采集有两种方式,一是靠测试车采集,另一种是靠量产车回传数据。但对于刚开始做自动驾驶开发的企业,这两种方式都比较难。因为还没有足够的采集数据的车队以及能回传数据的量产车。
如果像上面那样没有大量用于实测的车辆,再加上实测也无法穷尽所有的Corner Case,同时受限于实测的成本、安全性限制,此时可以通过虚拟仿真解决部分成本及场景多样性的需求。其中,大规模的长尾场景需要数据中心提供充足的算力支持。同时,仿真场景对现实的回归过程,同样需要巨大的算力提供支持。
利用数字孪生技术可以加强仿真测试中虚拟环境的真实性。在仿真层对现实层的映射中,通过渲染技术使像素集更加贴近物理真实,借助算力生成对诸如地形、环境、天气,甚至光线的模拟,确保像素集与现实间的一致性。其次,基于物理仿真引擎,确保虚拟世界中的物理现象符合现实世界场景中的物理定律,保证虚拟世界中物体的物理属性准确。
那么,行业内自动驾驶企业都会利用什么工具做仿真测试呢?这里可参考NVIDIA DRIVE Sim。它是基于Omniverse(Omniverse是NVIDIA面向元宇宙所构建的一个平台)构建,具有以下特性:
一是云原生,这里是指为企业的内部云而构建,是中间数据中心的大规模集群,有数据中心级别的管理和任务分发,以及结果统计。
二是Scenario-based 基于场景,通过不断创建随机场景,去寻找自动驾驶里可能会出现问题的场景。
三是可扩展,随着开发量的增长,随着corner case越来越多,对集群的数量要求越来越大,所以需要扩展,支持从workstation到数据中心不同的应用。
四是这个软件有三个阶段的推出,即先推出合成数据、再推出软件在环仿真、再到硬件在环仿真,满足客户所需要的端到端的需求。具有
 

Xsbednc

( NVIDIA DRIVE Sim 工具)
DRIVE Sim的优点:一是快速,因为有大量的合成数据,就算没有采集数据,也可以开始着手做测试;二是准确,用机器打标,从上帝的视角查看打标的场景,准确率更高;三是多样性,可以覆盖下雨天、雾天、下雪天等天气去做模拟;四是低成本,通过仿真人工合成数据大大降低了数据采集的成本。

02

自动驾驶企业超算中心搭建状况

开发自动驾驶算法需要针对算力需求进行持续性的投资。通过调研 ,IDC发现搭建人工智能计算中心时,行业内最常见的问题是初始投资过高,这一问题对于自动驾驶行业独角兽尤为棘手。另一个行业内普遍存在的问题是难以找到合适的 解决方案提供商。此外,项目时间周期过长是车企和传统一级供应商经常面临的问题。
 
(搭建人工智能计算中心时遇到的问题)
2.1、有关搭建人工智能计算中心的初始投资
投资方面,主机厂及一级供应商对搭建人工智能计算中心的预算普遍超过(人民币)1亿元。与此同时,超过(人民币)2亿元的占五分之一多。科技公司的投入亦普遍以千万计,其中不乏过亿的情形。人工智能计算中心的投入对于行业内各方开发团队均形成了较大的资金压力。
 
(搭建人工智能计算中心投资金额 (人民币))
针对于人工智能计算中心搭建状况的初始投资的状况,NVIDIA认为对于人工智能计算中心搭建初始成本比较高,带来后期规模扩大时边际成本有所收敛。相对来讲,其他途径在初始投资时可能门槛稍低,但是到后期时边际成本会逐渐发展到不可控的状态。这种情况下,自动驾驶开发者基于长期在自动驾驶领域的规划做出权衡取舍,也就是说对自己的投入做个合理的规划。
2.2、有关搭建人工智能计算中心如何找到合适的解决方案提供商
针对这一问题,白皮书指出人工智能计算中心的搭建与运营过程复杂,技术门槛较高。需要同时兼顾GPU集群、存储、高速网络、软件调度、机房管理等不同的部分。其中每个部分均涉及大量的组件,不仅增加了设计的复杂性,还因为每个组件都有独立的交货周期,而使部署的时间出现极大的不确定性,这对于缺乏搭建经验的团队挑战巨大。同时,计算中心的运营也需要具备经验的团队指导,方能维持最大的运转效率。
2.3、有关搭建人工智能计算中心项目周期过长
目前搭建人工智能计算中心,市场的现状是普遍都在1个月以上,多数情形接近3个月,潜在可供优化的空间较大。NVIDIA认为一个比较成熟的方案能够缩短搭建时间,助力自动驾驶产品率先落地以抢占市场,为自动驾驶产品提供强大的先发优势。
 
(搭建人工智能计算中心时间投入)

03

IDC对行业的5大建议

为了使算力资源更加有效地支持自动驾驶系统的开发工作,IDC建议:
1、数据中心芯片的选型与网络的搭建涉及IT领域专业知识,企业需要具备相关知识储备
2、数据中心解决方案供应商应当推出一套集成的全栈式AI解决方案, 提供的不仅是设备,还包括设备搭建服务以及后期的售后服务。
3、基于市场上算力方案的供给以及自己自动驾驶解决方案对算力的需求,以及资金投入,在算力方面做个长期规划。
4、在超算中心搭建完成之后,就涉及到算力稳定性的问题。算力运营者需要有一套主动的方案去应对各种各样的突发状况,而不是被动地被各种突发状况牵着头走。
5、行业发展一定来自于行业生态的进步,要支撑行业生态各个主体的合作,就需要算力供给方提供开放式的平台,能够方便各方的合作。
在自动驾驶技术的发展进程中,算力成为驱动自动驾驶开发效率及产品快速落地的关键驱动力之一。在自动驾驶领域具有长期规划的车企或技术供应商,在算力方面做好长期的规划,并综合考虑硬件、网络、软件及服务等因素,搭建适合自己的超算中心,缩短研发时间,降低成本和风险,加速自动驾驶产品落地。
责编:Ricardo
文章来源及版权属于汽车电子与软件,EDN电子技术设计仅作转载分享,对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。如有疑问,请联系Demi.xia@aspencore.com
汽车电子与软件
汽车电子与软件
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
广告
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了