商汤科技在上海举办的2025GDC全球开发者先锋大会上,发布了业内首个与世界模型协同交互的端到端自动驾驶技术路线——R-UniAD,基于强化学习,希望突破模仿学习的局限,实现超越人类驾驶的智能驾驶能力。
商汤绝影通过R-UniAD,结合强化学习和世界模型的交互,推动了端到端自动驾驶的跨越式发展。依托自研的"开悟"世界模型与多阶段强化学习框架,降低了数据规模门槛,提出了云端协同、车云一体的训练范式。
我们可以从技术演进逻辑、核心架构创新及产业影响三个维度,谈谈R-UniAD对智能驾驶产业的一些影响,看看后续中国企业是否能有更新的想法,为自动驾驶行业带来更高效、更具竞争力的解决方案。
强化学习的核心突破:
从模仿学习
到超越人类的驾驶能力
端到端自动驾驶的核心目标是通过模仿人类驾驶行为,赋能车辆在各种复杂道路环境下实现自动驾驶。
最初,商汤绝影的UniAD便是基于模仿学习技术,通过大量高质量的驾驶数据进行训练,尽可能还原人类驾驶员的操作。
当然模仿学习依然存在一定的局限性,主要体现在无法超越人类驾驶能力的天花板。例如,高质量数据的获取和数据本身的偏差,使得模仿学习的精度和应对复杂场景的能力始终受到限制。
简单来说,传统端到端自动驾驶技术依赖海量人类驾驶数据的"暴力模仿",能逼近人类驾驶行为,却面临三大根本性挑战:
● 数据规模壁垒:百万级量产车积累的10万P算力训练资源,形成难以逾越的基础设施鸿沟。
● 场景泛化瓶颈:现实世界中罕见事件的覆盖率不足,导致系统应对极端场景时安全性存疑。
● 性能天花板效应:模仿学习本质是"有限理性"的复现,无法突破人类驾驶员的决策局限。
DeepSeek-R1在春节期间的技术突破印证了强化学习的变革性价值,少量高质量标注数据即可启动多阶段训练,数据需求降低达1个数量级;通过奖励信号引导模型自主构建"长思维链",实现超越人类经验的决策优化;在线交互式训练框架支持系统持续学习新场景,突破离线数据的时空局限性。
与模仿学习不同,强化学习通过环境的反馈奖励来优化模型表现,R-UniAD便是基于这一理念,通过引入强化学习技术,拓宽了端到端自动驾驶的研究路径。
在R-UniAD的架构下,车辆通过与世界模型进行实时交互,不断探索和优化自己的驾驶策略,从而逐步突破人类驾驶员的极限,多阶段强化学习方法,通过“冷启动”模仿学习后,进一步利用强化学习对模型进行迭代和升级,大幅度提升了自动驾驶系统在复杂道路条件下的应对能力。
商汤绝影R-UniAD:
以世界模型为支撑,
推动端到端自动驾驶的全面突破
在自动驾驶领域,尤其是在强化学习的训练中,数据的质量和多样性直接决定了模型的表现,引入了“世界模型”作为支持,利用虚拟仿真环境生成高质量、多样化的训练数据,显著减少了数据采集的依赖,并降低了数据规模门槛。
世界模型的核心作用在于生成高保真场景数据,使得自动驾驶系统能够进行长时推演和多场景的模拟。这不仅解决了高质量数据稀缺的问题,还在增强训练数据多样性的同时,提升了训练效率。
商汤绝影的“开悟”世界模型,能够通过单个GPU生成相当于500台量产车数据采集效果的数据,为端到端自动驾驶的训练提供了巨大的数据支持。
同时,这一世界模型还能够与车辆端的端到端算法进行实时交互,形成一个“车云一体”的新范式,实现了云端与车端数据的闭环流转,进一步缩短了研发周期,降低了研发成本。
● 开悟"世界模型的升级构成R-UniAD的核心支撑:
◎ 多模态仿真能力:单GPU可生成相当于500辆量产车的传感器数据(包含11V摄像头、LiDAR等)。
◎ 物理引擎增强:精确模拟车辆动力学、光照变化等物理规律,支持厘米级场景重建。
◎ 长时一致性保障:通过事件驱动架构实现10秒以上的连续场景推演,突破传统仿真工具的时间限制。
R-UniAD技术路线的关键特点之一是其多阶段强化学习的训练方式,通过模仿学习进行基础的模型训练,利用少量的高质量数据进行“冷启动”。
通过强化学习,使得训练过程更加灵活和多元,模型能够根据在线生成的仿真数据进行不断的自我优化,强化学习的闭环反馈机制使得模型能够在真实驾驶场景中不断积累经验并提高驾驶表现。
通过高效的蒸馏技术,将云端的大规模自动驾驶模型转化为适合车端部署的小型化模型,为车企提供便捷、高效的自动驾驶解决方案。
● "冷启动→云强化→车端部署"的策略:
◎ 监督学习预训练:利用百万级标注数据(包含复杂城市道路、极端天气等场景)构建基础驾驶模型。
◎ 云端强化学习:在世界模型生成的虚拟环境中进行多智能体博弈训练,重点提升复杂场景决策能力。
◎ 车端蒸馏优化:通过知识蒸馏将云端大模型压缩为轻量化推理模块,适配车规级芯片算力要求。
强化学习技术,使得R-UniAD在性能上不仅能够达到人类驾驶员的水平,更有可能超越人类驾驶,达到更高的精度和安全性,由于强化学习具有更强的场景适应能力,R-UniAD能够不断探索新的驾驶风格和应对策略,极大地提升了自动驾驶系统的通用性和可扩展性。
一句话总结:这种范式转变使中小车企首次具备与头部企业竞争的技术可能性,从根本上改变了自动驾驶产业的游戏规则。