小米汽车自动驾驶测评：AI大脑如何实现感知规划一体化？

2026-05-14阅读 0热度 0

小米汽车

驾驶的核心认知任务可以归纳为三点：理解交通场景的语义、精确感知物体的空间位置、规划安全的行驶轨迹。对人类驾驶员，这三者几乎同步完成；但对自动驾驶系统而言，如何让一个AI模型同时胜任这三项异质任务，一直是技术上的核心瓶颈。近期，华中科技大学与小米汽车的联合研究团队取得关键突破，他们成功开发出一个统一的AI系统，首次实现了对驾驶场景理解、物体感知与定位、轨迹规划决策三大能力的协同掌握。相关研究成果已发布于arXiv预印本平台（论文编号：arXiv:2604.02190v1），这标志着构建真正意义上的“智能驾驶大脑”迈出了实质性的一步。

主流自动驾驶架构通常采用模块化设计，如同一个条块分割的流水线：视觉感知模块负责识别物体，定位模块负责确定位置，规划决策模块负责生成路径。这种设计虽然职责清晰，但模块间的信息传递存在延迟与损耗，限制了系统整体性能的上限。更根本的挑战在于，当试图用一个统一的端到端模型来同时处理语言理解和空间感知时，两种任务会在神经网络参数层面产生严重干扰——抽象语义推理与精确几何计算所需的特征表示存在本质冲突，导致模型陷入“多任务诅咒”，各项性能均不理想。

研究团队精准诊断了这一问题的根源：语言模态的抽象逻辑与视觉空间的具体几何，在特征表征上存在固有差异。强行让它们在共享的模型参数中融合，不仅会损害感知的精度，更会削弱系统原本的语言理解能力。这种“模态冲突”是构建统一驾驶智能体的主要障碍。

“专家会诊”式架构：分工明确，协作有序

为解决上述冲突，团队提出了名为UniDriveVLA的创新架构。其设计哲学是“专业化分工，结构化协作”。这类似于一个顶尖的医疗团队：诊断专家、影像专家、手术专家各司其职，通过标准化的会诊流程高效协同。UniDriveVLA同样设立了三位核心“专家”：理解专家（负责场景语义解析）、感知专家（负责物体检测与定位）、行动专家（负责轨迹规划与决策）。

该架构的核心创新在于其“遮罩联合注意力机制”。这一机制为信息流动制定了严格的协议，确保了协作的有序性。理解专家首先处理驾驶指令和全局环境语义，其过程类似于人类的顺序阅读与推理。感知专家能够“听取”理解专家的输出，并在此基础上进行更聚焦、更准确的空间感知。最后，行动专家综合前两者的分析结果，输出最终的驾驶控制指令。这种设计从机制上隔离了不同思维模式的直接干扰，实现了高效协同。

从“记住每粒沙”到“关注关键点”：稀疏感知策略

在感知层面，团队采用了“稀疏感知”策略。传统密集感知方法试图重建环境的每一个细节，计算开销巨大，且大量无关细节会成为语义理解模块的噪声。稀疏感知则模拟了人类驾驶员的注意力机制：只关注对驾驶决策至关重要的关键实体，如车辆、车道线、交通标志、行人等。

具体实现上，系统通过多摄像头输入，智能地提取一系列关键的空间特征点。这些特征点如同经过高度提炼的“环境摘要”，既包含了规划所需的充分信息，又保持了表示的简洁性。尤为关键的是，这些空间特征被转换为与语言模态兼容的表示形式，这为不同专家模块之间的高效“对话”提供了统一的“语言”，极大促进了跨模态协作。

渐进式训练：像培养全能运动员一样塑造AI

如何训练这样一个复杂的多专家系统？团队设计了一套三阶段渐进式训练策略：

第一阶段：夯实语言基础：专注于强化系统的语言理解与推理能力，使用大规模驾驶对话数据及通用视觉-语言数据进行预训练。

第二阶段：谨慎引入新任务：逐步加入物体感知和路径规划任务，但采用温和的训练强度，小心翼翼地避免新任务破坏已建立起来的强大语言表征。

第三阶段：专项能力精炼：重点优化感知专家与行动专家的性能，同时稳固理解专家的能力，实现各项技能的均衡提升。

这一过程类似于培养一名十项全能运动员：先通过基础训练建立卓越的身体素质和协调性，再循序渐进地引入其他项目，并在专项训练中确保新技能的获得不会以牺牲原有优势为代价。

性能表现：不仅会开车，还能“理解”驾驶

在权威基准测试中，UniDriveVLA展现了卓越的性能。在基于真实世界数据的nuScenes开放集测试中，即便在没有额外车辆状态信息输入的情况下，系统也能准确预测未来轨迹。在Bench2Drive模拟环境的闭环驾驶测试中，其驾驶安全评分达到78.37，在不依赖特权信息（如未来轨迹）的方法中排名第一，其效率指标更是高达198.86。

更值得关注的是其在动态交互场景中的表现：变道超车成功率达到了80%，匝道汇流场景成功率为38.75%。这表明系统已具备处理需要实时判断与博弈的复杂场景的能力。

除了核心驾驶任务，UniDriveVLA还展现出强大的多任务泛化能力，可同步执行3D物体检测、在线局部建图、运动预测及驾驶场景问答。这种“一专多能”的特性，使其更接近人类驾驶员综合、连贯的认知模式，而非一个功能单一的自动化工具。

为何“分工”优于“统一”？数据揭示答案

为验证专家分工架构的必要性，团队进行了严格的对比实验。结果显示，当采用传统的共享参数模型时，系统内部出现了显著的“特征收敛”现象——语义特征与空间特征变得高度相似、难以区分，这意味着模型丧失了处理异质信息的专业化能力。而UniDriveVLA的专家分工设计成功避免了这一问题，各专家模块保持了其功能特征的独特性。

此外，通过组件消融实验，团队量化了各模块的贡献：引入车辆状态信息能显著提升轨迹预测精度；物体检测功能将碰撞率从0.21%降低至0.10%，主要提升了安全性；占据栅格预测则对轨迹平滑度贡献最大，说明密集的空间上下文信息对规划至关重要。

在驾驶场景理解任务中，系统展现了强大的推理能力。在DriveBench测试的感知、预测、规划、行为推理四个维度上，其平均得分达到51.97，证明它不仅能执行操作，还能理解和解释其决策背后的逻辑。

意义与展望：通向更智能的驾驶未来

这项研究的价值超越了单一的技术点创新。它提供了一种新的AI系统设计范式：不再依赖于简单的功能模块堆砌，而是通过精巧的架构设计，实现多种异质能力的有机统一与高效协作。这种“统一而不混乱，分工而不孤立”的设计哲学，对更广泛的复杂AI系统构建具有启发意义。

从工程化视角看，UniDriveVLA验证了用单一统一模型处理多重驾驶任务的可行性，这有望简化传统自动驾驶系统中复杂、脆弱的模块集成链路，降低系统的开发与维护复杂度。当然，挑战依然存在，例如在长时程运动预测等任务上仍有提升空间，如何进一步优化专家间的信息交换效率也是未来的重点。从实验室的基准测试走向复杂多变的真实道路部署，仍需完成大量的工程验证与鲁棒性提升工作。

UniDriveVLA代表了一个重要的技术里程碑。它不仅在原理上解决了感知与理解的特征冲突难题，更为构建真正智能、可靠、可解释的自动驾驶系统勾勒出一条清晰的技术路径。未来的自动驾驶汽车，或许将不再只是一个遵循规则的执行器，而是一个能深度理解环境、进行自然交互、并做出类人智能决断的出行伙伴。

Q&A

Q1：UniDriveVLA为什么要设计三个专门的专家而不是用一个统一的系统？

A：根本原因在于规避任务间的负迁移效应。语言理解依赖抽象符号推理，空间感知基于精确几何计算，这是两种截然不同的认知模式。强行融合到一个模型参数空间中，会导致性能相互制约。设立三个专家模块，让各自专注于核心领域，再通过结构化机制进行协作，如同组建一个高度专业化的跨学科团队，能在确保各领域性能最优的前提下实现系统级的高效协同。

Q2：这个系统在实际道路测试中的表现如何？

A：目前，UniDriveVLA的性能已在nuScenes真实世界数据集和Bench2Drive高保真模拟环境中得到验证。在Bench2Drive的闭环测试中，其驾驶评分达到78.37，变道超车成功率为80%，各项效率指标表现突出。这些结果充分证明了其在受控环境下的强大潜力与技术可行性。然而，从模拟测试到应对极端天气、罕见长尾场景的真实道路部署，仍需经历严格的实地测试、大量的数据迭代与系统工程优化。

Q3：稀疏感知和传统感知方法有什么区别？

A：核心区别在于信息处理的密度与焦点。传统密集感知方法致力于对环境进行像素级或体素级的重建，信息全面但计算负荷沉重，且包含大量决策无关的噪声。稀疏感知则转向以对象为中心的“关键点”策略，它像经验丰富的司机一样，只提取和跟踪对驾驶安全与决策至关重要的动态与静态元素（如车辆、行人、车道线、信号灯）。这种策略不仅大幅提升了系统的处理效率和实时性，更重要的是，它通过过滤冗余空间细节，有效防止了感知信息对语言理解模块造成干扰，是实现高阶语义理解与低层几何感知和谐共存的关键技术。