广告

自动驾驶新风向:VLA模型是如何崛起的?

2025-02-27 汽车电子设计 阅读:
VLA的出现标志着自动驾驶技术从模块化向通用AI的深刻转型,作为端到端2.0的代表,其可解释性、泛化性与复杂场景适应性为行业注入了新动能···
 

2025年,随着智能驾驶开始往深度和广度两个方向去卷,智能驾驶行业往迎来一个显著信号:端到端大模型迈向2.0时代,VLA(Vision-Language-Action,视觉-语言-动作模型)或将成为国内车企全面竞争的焦点。l0yednc

作为继VLM(视觉-语言模型)之后的进化形态,VLA通过整合视觉感知、大语言模型的推理能力与车辆动作控制,开辟了智能驾驶的新路径。l0yednc

相较传统模块化方案与初代端到端技术,VLA在可解释性、泛化性及复杂场景适应性上展现出显著优势。l0yednc

元戎启行、理想汽车等企业已明确布局VLA,Wayve等国际玩家也在同步推进,而小鹏、华为等头部车企或将快速跟进。l0yednc

本文将从VLA的技术本质与优势、行业布局现状以及其未来潜力三个维度,深入剖析这一技术趋势,并探讨其是否将成为自动驾驶的“最终归宿”。l0yednc

在技术迭代加速与市场竞争加剧的背景下,VLA的兴起不仅重塑了智能驾驶的技术逻辑,也为未来出行方式的定义提供了全新可能。l0yednc

01
 

VLA的技术本质与核心优势l0yednc

VLA,即Vision-Language-Action模型,是一种将视觉输入(Vision)、语言推理(Language)与动作输出(Action)端到端融合的智能驾驶方案。l0yednc

核心在于通过大模型技术,直接从摄像头、导航等输入信号生成车辆的控制指令(如速度与轨迹),摒弃了传统自动驾驶系统中感知、规划、控制的模块化分工。l0yednc

正如Google Deepmind的RT-2所展示的,VLA可视为VLM(视觉-语言模型)与机器运动数据(如RT-1)的结合,其技术架构包括视觉编码器、文本编码器、轨迹解码器与文本解码器。l0yednc

例如,视觉编码器提取图像的高级特征,文本编码器处理用户指令或导航信息,轨迹解码器输出未来10-30秒的驾驶路径,而文本解码器则解释决策原因,如“行人横穿马路,车辆减速等待”。l0yednc

相较于传统方案与初代端到端技术,VLA的优点尤为突出。l0yednc

可解释性是其最大亮点,传统规则系统或初代端到端模型往往如“黑箱”,难以说明决策依据,而VLA借助大语言模型的推理能力,能以人类可理解的方式解释动作逻辑。l0yednc

例如,在潮汐车道场景中,VLA可通过读取标志、分析上下文并与其他车辆交互,完成安全变道,并清晰说明每一步原因。l0yednc

这种透明度不仅提升了用户信任,也便于监管审查。l0yednc

VLA的泛化性显著增强。基于海量数据训练的大模型能够适应多样化场景,减少下游微调成本,而传统方案需针对不同车型与硬件反复收集数据,效率低下。l0yednc

此外,VLA在复杂场景下的适应性更强。元戎启行CEO周光指出,VLA利用全局信息与长上下文推理,能处理长尾问题(如行人违规横穿),这正是规则系统与高精地图方案的短板。l0yednc

● VLA的实现面临两大挑战:真实数据与实时响应。l0yednc

◎ 真实世界数据涵盖天气、光线、行人行为等变量,远超合成数据的覆盖能力。例如,闪电或违规横穿等关键状态难以模拟,需依赖量产车的大规模部署来积累。l0yednc

◎ 而实时性要求模型在100毫秒内响应,涉及数十亿参数的计算则需强大算力支持。技术特性决定了VLA的成熟度与落地速度高度依赖数据规模与算力投入。l0yednc

02
 

VLA的行业布局与竞争格局l0yednc

● VLA已在全球范围内引发关注,量产应用仍处于早期阶段。l0yednc

◎ 英国初创公司Wayve率先布局,其此前基于VLM的方案已积累经验,扩展至VLA顺理成章。Wayve的无图化思路与VLA的实时感知能力高度契合,或将成为欧洲市场的先行者。l0yednc

◎ 国内方面,理想汽车在2024年已量产VLM+端到端方案,被认为是最接近VLA的玩家,其下一步突破几成定局。l0yednc

◎ 元戎启行则更进一步,于2025年1月22日宣布与某头部车企合作,基于英伟达Thor芯片推出VLA量产车型,计划年内交付消费者,元戎还透露将在Robotaxi领域探索VLA应用,展现了技术普适性的野心。l0yednc

然而,Thor芯片量产推迟至2025年中,高性能版本或至年底,这可能影响VLA的部署节奏。l0yednc

预计2025年中旬,随着首批VLA车型亮相,国内智驾竞争将全面“开卷”,从技术储备转向用户体验与市场渗透的较量。l0yednc

VLA的兴起还伴随着行业逻辑的转变,VLA作为“端到端2.0”,继承了无图化与神经网络的优点,还通过语言推理填补了可解释性空白,恰逢自动驾驶洗牌期,行业正加速向通用AI靠拢。l0yednc

竞争格局下,数据与算力成为胜负手。中国市场独特的道路复杂性与高密度交通为VLA提供了天然“试验场”,但也对数据质量提出更高要求。l0yednc

FSD在北美表现流畅,其数据积累却难适应中国的人流与电动车密度。国内企业若能利用本土优势,快速迭代VLA,或将在全球竞争中占据先机。l0yednc

小结

VLA的出现标志着自动驾驶技术从模块化向通用AI的深刻转型,作为端到端2.0的代表,其可解释性、泛化性与复杂场景适应性为行业注入了新动能。l0yednc

2025年将成为VLA全面竞争的元年,当然VLA是否为自动驾驶的“最终归宿”尚难定论。从CNN到Transformer,再到VLM与VLA,技术迭代速度令人惊叹,未来的突破或许已在酝酿。l0yednc

责编:Ricardo
文章来源及版权属于汽车电子设计,EDN电子技术设计仅作转载分享,对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。如有疑问,请联系Demi.xia@aspencore.com
汽车电子设计
博主和汽车电子的行业的工程师们一起交流、探讨、思考的小结,以作为技术交流和沟通的桥梁。
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
广告
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了