MindVLA-U1 论文解读：语言模型如何重塑自动驾驶决策核心

2026-05-25阅读 0热度 0

MindVLA

自动驾驶进入大模型时代后，一个核心的演进方向正变得清晰：从传统的“感知、预测、规划、控制”模块化流水线，转向更智能、更统一的端到端系统。

过去，视觉-动作（VA）模型直接从视觉输入生成驾驶轨迹，在规划精度和实时性上表现出色。但它们更像一个“黑箱”，依赖隐式的视觉特征，难以解释决策背后的“为什么”，也难以应对那些需要语义理解和常识推理的复杂长尾场景。

想象一下：车辆在狭窄的居民区穿行，两侧停满车辆，行人可能随时从车缝中走出；或者在一个无保护左转路口，系统不仅要判断对向来车的速度，还要理解路权规则和潜在风险。面对施工区域、临时停靠的车辆，单纯从视觉到轨迹的映射往往力不从心。自动驾驶系统需要像人类司机一样，先“理解”场景的含义，再将这种理解转化为连续、可执行的控制动作。

这正是视觉-语言-动作（VLA）模型被寄予厚望的原因——它被认为是实现“会理解、会解释、会行动”自动驾驶的关键路径。然而，现实很骨感：许多VLA方法在引入语言能力后，往往在规划精度、动作连续性和推理速度之间难以兼顾，表现甚至不及纯VA模型。

正是在这一行业矛盾的背景下，香港中文大学MMLab、理想汽车与清华大学的联合研究团队带来了他们的最新工作：《MindVLA-U1: VLA Beats VA with Unified Streaming Architecture for Autonomous Driving》。这项研究直指一个核心问题：在自动驾驶中，语言理解究竟能否真正赋能动作规划，而不仅仅是作为一个事后的“解释器”？

研究团队没有选择简单粗暴地扩大模型规模，而是从架构设计这一根本问题入手。他们将视觉、语言、车辆状态、历史记忆和动作生成，统一整合到同一个视觉语言模型（VLM）骨干网络中。这使得模型不仅能理解道路场景，还能直接生成连续的驾驶轨迹。

更关键的是，他们通过“意图-条件流匹配”（Intent-CFG）机制，让语言侧预测出的驾驶意图（如直行、左转）能够参与并引导轨迹生成；通过“流式记忆”（streaming memory）模块，让模型能够像真实车辆一样逐帧处理连续视频流；并通过快/慢推理路径的切换，在需要实时控制的简单场景和需要深度语义推理的复杂场景之间取得平衡。

这意味着，当道路场景简单时，系统可以快速给出动作指令；当场景复杂、风险较高或需要解释时，系统则能调用语言推理能力，生成更有语义依据的轨迹。因此，这项研究不仅仅是一次模型性能的提升，更是在探索自动驾驶从“看见后执行”迈向“理解后行动”的全新架构范式。

港中文李鸿升团队论文 MindVLA-U1：VLA 不再输给 VA，语言真正进入自动驾驶决策

论文地址：https://arxiv.org/pdf/2605.12624

当 VLA 开始超过 VA

实验结果给出了有力的回答。在Waymo开放数据集端到端（WOD-E2E）自动驾驶基准测试中，MindVLA-U1展现了强大的整体规划能力。尤其是在加入强化学习（RL）优化后，其在验证集上的RFS（一种衡量轨迹人类偏好的指标）达到了8.20，而人类驾驶参考轨迹的RFS为8.13。这表明，在开环评估中，模型生成的轨迹质量已经超越了人类参考，凸显了统一VLA架构在轨迹规划上的优势。

在更具挑战性的最新测试集上，MindVLA-U1 + RL的RFS达到了7.87，取得了最佳表现。同时，其RFS-GT ADE（轨迹误差）指标为1.09 / 2.66米，低于大多数现有的VA和VLA方法。这证明该方法的有效性并非仅限于验证集，在隐藏测试集上也具备良好的泛化能力。

语言对动作的实际影响也得到了验证。普通MindVLA-U1的RFS为7.83，而在加入基于下一令牌预测（NTP）的意图预测后，RFS提升至7.92。这清晰地表明，语言侧预测的驾驶意图通过Intent-CFG机制，确实能够引导连续的轨迹生成，让语言信息真正融入了决策过程，而非仅仅作为附加输出。

流式记忆模块的作用同样显著。仅进行分块式单帧训练时，RFS为7.69；引入流式训练后提升至7.73；再结合记忆机制，则进一步提升到7.83。这说明，仅仅逐帧处理还不够，加入历史记忆后，模型能更好地利用时间上下文信息，从而改善连续驾驶场景中的长期规划效果。长时间轨迹预测的ADE指标也整体下降，例如25秒序列的ADE从1.54米降至1.50米。

快/慢路径实验则揭示了模型在效率与能力间的灵活权衡。慢路径保留了完整的语言推理能力，更适合处理复杂或高风险场景；快路径则跳过语言生成，直接进行动作规划，在保持较高规划质量的同时，让推理速度接近纯VA模型。这表明VLA模型并非注定“慢而重”，完全可以通过不同的推理模式，在语义理解与实时控制之间动态切换。

模型规模实验进一步指出，性能提升并非单纯依赖更大的骨干网络。在不同尺寸的模型中，结果并非越大越好，约20亿参数的模型表现较佳。90亿参数模型在默认训练设置下未显现明显优势，延长训练后性能有所恢复。这说明当前的瓶颈不仅在于模型大小，更与训练数据规模、训练时长、动作接口设计及任务适配方式等因素密切相关。

总体而言，MindVLA-U1的优势源于多个创新设计的协同作用：统一的视觉-语言-动作骨干网络、连续动作生成方式、连接语言与动作的Intent-CFG桥接、流式记忆机制、快/慢推理路径以及RL后训练。这些设计共同提升了VLA在自动驾驶轨迹规划中的精度、泛化能力、实时性和语义可控性。

让模型像真实车辆一样连续感知

这项研究基于Waymo开放数据集端到端（WOD-E2E）基准展开。该数据集源自真实自动驾驶场景，每段驾驶片段约20秒，包含多摄像头360度视觉输入，能够全面覆盖车辆周围环境。数据集中包含大量长尾场景，非常适合用于测试模型在复杂、不规则驾驶情况下的轨迹规划能力，而非仅限于常规、易预测的场景。

评测主要围绕两个方面：一是评估模型预测轨迹的质量，使用RFS衡量轨迹是否符合人类偏好，使用ADE衡量预测轨迹与参考轨迹之间的误差；二是评估语言输出质量，例如通过VQA任务的BLEU和ROUGE分数，来判断模型在保持规划能力的同时，是否仍具备良好的语言理解和应答能力。

模型的输入是一个多模态信息集合：当前多视角图像、车辆自身历史状态、文本问题或语言提示、流式历史记忆，以及带噪声的动作令牌。这些信息被统一送入模型，使其既能感知当前道路环境，又能利用车辆的历史运动状态和时序上下文信息。

模型的输出则包括语言回答和连续驾驶轨迹。关键在于，这两项任务由同一个共享骨干网络完成，而非先由一个模块进行语言理解，再将结果交给另一个独立模块规划动作。同时，动作不再被表示为离散的坐标令牌，而是直接生成连续轨迹，从而避免了离散化带来的精度损失。

在统一的骨干网络设计中，视觉、语言、车辆状态、记忆和动作令牌被共同输入VLM骨干。语言通过自回归方式生成，动作则通过流匹配（flow-matching）方式生成。两类任务共享模型的内部表示，使得语义理解与动作规划能够在同一模型内部深度融合。

流式记忆设计则模拟了真实驾驶的连续性。模型并非一次性处理固定长度的视频片段，而是逐帧处理当前画面，历史信息通过一个先进先出（FIFO）的记忆库保存并随车辆运动进行对齐。每一帧处理后，模型会写入新的记忆，使得历史上下文能在连续的驾驶过程中不断传递。这种方式更贴近真实自动驾驶的连续视频流输入，也减少了重复处理多帧视频带来的计算负担。

Intent-CFG设计是连接语言与动作的关键。模型首先预测当前的驾驶意图（如直行、左转、右转），然后将此意图作为条件，引导后续的动作扩散过程，并通过分类器无关引导（CFG）技术，让意图对最终的轨迹生成产生实质性影响。

实验对比了无意图、从轨迹派生的意图、真实意图（GT）以及模型预测的意图等多种情况。结果显示，由模型语言侧预测出的意图效果最佳，这说明由理解驱动的意图更能帮助模型生成合理的驾驶轨迹。

快/慢推理设计提供了部署灵活性。“vqa_first”模式先进行语言推理再规划动作；“action_first”模式先规划动作再生成语言解释；“action_only”模式则只生成动作，不产生语言。这些模式共享同一套模型权重，使得在实际部署中，可以根据场景复杂度灵活选择推理方式：简单场景使用更快的动作路径，复杂或安全敏感场景则保留完整的语言推理能力。

最后，在监督训练的基础上，研究人员进一步使用强化学习对模型进行优化。奖励信号主要来自RFS指标，旨在让模型生成的轨迹更符合人类驾驶员的偏好，并最终在验证集和测试集上取得了最佳结果。

自动驾驶 VLA 接口的重构

这项研究的意义，在于重新审视了VLA模型过去为何落后于VA模型。研究团队认为，VLA规划效果不佳，并非因为语言能力本身会损害控制能力，而是源于不合理的接口设计。例如，一些方法将需要高精度的连续轨迹离散化为语言令牌，导致动作表达受限于令牌精度；另一些方法则将语言模块与动作模块分离过远，使得语言理解的结果难以真正影响轨迹规划；还有一些方法在时间建模上依赖固定的视频片段，容易造成计算冗余和片段间的不连续。

基于这一判断，MindVLA-U1证明了VLA模型可以同时兼顾理解与控制。模型既保留了强大的语言理解能力，又保持了连续动作生成的高精度，无需为了获得语言接口而牺牲轨迹质量，也无需在推理时完全舍弃语言模块。

更重要的是，这项研究让语言真正进入了驾驶决策的闭环。过去许多VLA模型虽然拥有语言输出头，但语言并未明确影响动作，更多是作为事后的解释或辅助输出存在。而MindVLA-U1通过Intent-CFG，建立了一条从语言到动作的可测量路径。驾驶意图不再仅仅是对结果的说明，而是能够切实改变轨迹生成的方向，让语言侧的理解对连续控制产生实际作用。

该架构也更适合真实的自动驾驶部署环境。真实驾驶是连续的视频流，而非固定长度的片段。流式记忆机制让模型能够按帧处理场景，同时保留历史上下文，并减少了重复处理多帧视频带来的计算浪费，使模型的工作方式更接近真实车辆的持续感知与持续规划。

统一的快/慢系统方案同样具有重要实践意义。在简单场景下，系统可以走“action_only”快路径，直接生成动作以满足实时控制需求；在复杂或安全敏感场景下，则可以切换到包含语言推理的慢路径，让模型进行更充分的分析。一个模型即可覆盖不同计算需求，有助于在实际部署中平衡实时性与安全性。

整体来看，这项研究推动了自动驾驶VLA架构的发展。其重点不在于单个模块的改进，而在于对语言、视觉、记忆、动作的整体接口进行了统一重构，为后续的自动驾驶模型设计提供了有价值的参考。

当然，研究也留下了进一步的探索空间。当前工作主要在开环环境下进行评估，尚未充分验证其在闭环驾驶中的表现。目前仅使用了较简单的3类驾驶意图，而数据集中更丰富的20类意图、轨迹评价问答、思维链推理等资源尚未被充分利用。未来，在提升长尾场景处理能力、多模态动作选择能力以及闭环安全性方面，仍有很大的改进潜力。

MindVLA-U1 背后的研究者

这篇论文的通讯作者是李鸿升，现任香港中文大学电子工程系多媒体实验室副教授，同时兼任计算机科学与工程系副教授，并将于2026年8月1日起晋升为正教授。

他于2006年获华东理工大学自动化专业工学学士学位，2006年至2007年在上海交通大学模式识别与智能系统方向学习，随后赴美国理海大学攻读博士学位，并于2012年获计算机科学博士学位。

在职业经历方面，他曾任电子科技大学电子科学学院副教授，之后在香港中文大学电子工程系历任博士后、研究助理教授和助理教授，自2024年7月起担任副教授。他的研究方向长期聚焦于计算机视觉、医学影像、深度学习、多模态学习、生成模型、具身智能和机器人操作等领域。

在学术成果上，他在CVPR、ICCV、NeurIPS、ICML、ACL、EMNLP、AAAI等顶级会议持续发表高水平论文。2025年，他有13篇成果被NeurIPS接收，3篇被EMNLP主会接收，7篇被ICCV接收，4篇被ACL接收，3篇被ICML接收，11篇被CVPR接收。2026年，已有3篇成果被ACL接收，27篇成果被ICML、CVPR、ICLR、AAAI接收。

他曾获得2025年香港中文大学研究卓越奖、2024年香港中文大学青年研究员奖、2020年IEEE电路与系统学会杰出青年作者奖。并在2024年、2024年、2024年获得AI 2000计算机视觉领域最具影响力学者荣誉提名，2024年至2025年连续入选斯坦福大学全球前2%顶尖科学家榜单。

此外，他领导的团队曾获得ActivityNet Challenge 2020时空动作定位A VA赛道冠军、ImageNet视频目标检测挑战赛2015年冠军，以及ImageNet视频目标检测与跟踪挑战赛2016年冠军。近年来的研究覆盖网页生成评测、移动GUI智能体、多模态数学推理、图像生成、视觉生成编辑、自动驾驶场景生成和具身智能等多个前沿方向。

参考链接：https://www.ee.cuhk.edu.hk/~hsli/

另一位通讯作者是朱本金（Benjin Zhu），目前是理想汽车的研究科学家，同时在清华大学从事博士后研究，合作导师为代季峰教授。

他于2025年在香港中文大学电子工程系获得博士学位，博士期间隶属于多媒体实验室，导师为李鸿升教授和王晓刚教授。他于2018年在华南理工大学获得软件工程学士学位。

在职业经历方面，他于2019年1月至2024年5月在旷视研究院担任研究员，研究方向包括端到端目标检测、无监督/自监督学习和研究基础设施。2025年5月起，他在理想汽车担任高级研究工程师，主要关注世界模型、视觉语言动作模型和强化学习。

他的研究聚焦于视觉语言动作模型、扩散模型、世界模型和AI基础设施。在学术成果方面，他参与了多项计算机视觉、三维感知和自动驾驶相关研究，成果曾被ICCV、ECCV、CVPR等国际顶级会议接收。

此外，他还曾获得WAD CVPR 2019首届nuScenes 3D目标检测挑战赛冠军，并对多个开源计算机视觉框架作出了重要贡献，相关框架覆盖三维检测、视觉任务实验管理和通用深度学习研究基础设施。

参考链接：https://benjin.me/

MindVLA-U1 论文解读：语言模型如何重塑自动驾驶决策核心

当 VLA 开始超过 VA

让模型像真实车辆一样连续感知

自动驾驶 VLA 接口的重构

MindVLA-U1 背后的研究者

相关阅读

最新教程

最新资讯