在2024年的GTC(GPU技术大会)上,元戎智行(一战成名的周总)展示了其在自动驾驶领域的最新进展,周老板核心想讲的就是:“tech vision”最重要,自己不随波逐流、不跟风抄大模型,我们看看在做啥吧。
备注:下面的意思是,在机器人中创造通用人工智能(AGI),并实现“酷”的事情。该公司专注于自动驾驶技术,致力于开发端到端(E2E)架构的自动驾驶解决方案
元戎智行的技术演进可以分为几个阶段:
● 规则基础阶段:依赖于更多的工程和较少的数据。
● 学习基础阶段:转向更少的工程和更多的数据,以实现更高级的控制、检测、定位、映射、规划和预测。
● 2022年:引入了早期融合网络,将控制、定位、映射、规划、预测和决策整合到一个统一的系统中。
● 2023年8月:进行了端到端系统的初步道路测试。
E2E得智能驾驶,可以做到以下特点:
● 礼貌且类似人类:驾驶行为模仿人类,提供平滑的驾驶体验。
● 端到端自动驾驶:从控制到决策,整个系统都是自动化的。
● 商业化:计划在今年发布到市场。
实现机器人通用人工智能(AGI)需要几个关键要素。
● 首先,它需要大量来自物理世界的数据,包括来自传感器、摄像头等的信息。
● 其次,AGI需要能够处理不同类型的数据,如视觉、听觉等,并将它们融合在一起。
● 最后,AGI还需要能够模拟物理世界以进行规划和决策。
AGI也有一些局限性。
● 首先,物理世界的数据通常是嘈杂和不完整的,这给训练和运行AGI模型带来了挑战。
● 其次,常用的视觉表示方法在处理复杂环境时存在限制,使得AGI机器人难以导航。
● 最后,许多世界模拟器只能模拟静态数据,难以处理动态事件。
为了克服这些问题,需要研究新的数据收集和处理技术,开发更复杂的多模态模型,以及改进世界模拟器的能力。
随着研究的进展,AGI机器人将变得更加智能和适用于更广泛的应用场景。
元戎智行的商业化路线图包括:
● 研发:继续开发端到端自动驾驶解决方案,并发布第一款大规模生产的乘用车模型。
● 实现AGI:进一步实现机器人中的通用人工智能,并在全球范围内发布5款以上的大规模生产车型。
● 推动AGI在机器人中的商业化:研发无需地图的自动驾驶解决方案。
关键技术与限制
● 多样化数据集:使用多样化的数据集来提高系统的鲁棒性。
● 标准地图先验:为车道感知提供标准地图先验,提高导航匹配精度。
● 感知网络输出:与定位和车道绑定,提高鲁棒性。
NVIDIA DRIVE Thor的重要性
NVIDIA DRIVE Thor是实现端到端自动驾驶的关键技术使能器。它将为深度路径AI提供以下支持:
● 通用感知网络:提供BEV(鸟瞰图)和Transformer支持的感知与推理能力。
● 兼容SD导航地图:与标准导航地图兼容。
● OTA升级:支持通过OTA(空中下载技术)升级到E2E系统,提供成本效益更高的视觉解决方案。
E2E架构驱动着高度优化的网络,以实现最高的驾驶性能。这将带来更类似人类的驾驶行为,提供更好的体验和可预测性,同时通过更好的语义理解和推理来增强安全性。
深度路径AI在2024 GTC上的展示,不仅展示了其在自动驾驶技术上的创新,也揭示了未来交通的发展方向。随着技术的不断进步和商业化的深入,我们有理由相信,自动驾驶汽车会成为我们日常生活的一部分。