小米汽车自动驾驶测评:AI大脑如何实现感知规划一体化?

2026-05-14阅读 0热度 0
小米汽车

驾驶的核心认知任务可以归纳为三点:理解交通场景的语义、精确感知物体的空间位置、规划安全的行驶轨迹。对人类驾驶员,这三者几乎同步完成;但对自动驾驶系统而言,如何让一个AI模型同时胜任这三项异质任务,一直是技术上的核心瓶颈。近期,华中科技大学与小米汽车的联合研究团队取得关键突破,他们成功开发出一个统一的AI系统,首次实现了对驾驶场景理解、物体感知与定位、轨迹规划决策三大能力的协同掌握。相关研究成果已发布于arXiv预印本平台(论文编号:arXiv:2604.02190v1),这标志着构建真正意义上的“智能驾驶大脑”迈出了实质性的一步。

小米汽车团队突破自动驾驶核心难题:一个AI大脑同时掌管理解、感知和规划三大能力

主流自动驾驶架构通常采用模块化设计,如同一个条块分割的流水线:视觉感知模块负责识别物体,定位模块负责确定位置,规划决策模块负责生成路径。这种设计虽然职责清晰,但模块间的信息传递存在延迟与损耗,限制了系统整体性能的上限。更根本的挑战在于,当试图用一个统一的端到端模型来同时处理语言理解和空间感知时,两种任务会在神经网络参数层面产生严重干扰——抽象语义推理与精确几何计算所需的特征表示存在本质冲突,导致模型陷入“多任务诅咒”,各项性能均不理想。

研究团队精准诊断了这一问题的根源:语言模态的抽象逻辑与视觉空间的具体几何,在特征表征上存在固有差异。强行让它们在共享的模型参数中融合,不仅会损害感知的精度,更会削弱系统原本的语言理解能力。这种“模态冲突”是构建统一驾驶智能体的主要障碍。

“专家会诊”式架构:分工明确,协作有序

为解决上述冲突,团队提出了名为UniDriveVLA的创新架构。其设计哲学是“专业化分工,结构化协作”。这类似于一个顶尖的医疗团队:诊断专家、影像专家、手术专家各司其职,通过标准化的会诊流程高效协同。UniDriveVLA同样设立了三位核心“专家”:理解专家(负责场景语义解析)、感知专家(负责物体检测与定位)、行动专家(负责轨迹规划与决策)。

该架构的核心创新在于其“遮罩联合注意力机制”。这一机制为信息流动制定了严格的协议,确保了协作的有序性。理解专家首先处理驾驶指令和全局环境语义,其过程类似于人类的顺序阅读与推理。感知专家能够“听取”理解专家的输出,并在此基础上进行更聚焦、更准确的空间感知。最后,行动专家综合前两者的分析结果,输出最终的驾驶控制指令。这种设计从机制上隔离了不同思维模式的直接干扰,实现了高效协同。

从“记住每粒沙”到“关注关键点”:稀疏感知策略

在感知层面,团队采用了“稀疏感知”策略。传统密集感知方法试图重建环境的每一个细节,计算开销巨大,且大量无关细节会成为语义理解模块的噪声。稀疏感知则模拟了人类驾驶员的注意力机制:只关注对驾驶决策至关重要的关键实体,如车辆、车道线、交通标志、行人等。

具体实现上,系统通过多摄像头输入,智能地提取一系列关键的空间特征点。这些特征点如同经过高度提炼的“环境摘要”,既包含了规划所需的充分信息,又保持了表示的简洁性。尤为关键的是,这些空间特征被转换为与语言模态兼容的表示形式,这为不同专家模块之间的高效“对话”提供了统一的“语言”,极大促进了跨模态协作。

渐进式训练:像培养全能运动员一样塑造AI

如何训练这样一个复杂的多专家系统?团队设计了一套三阶段渐进式训练策略:

第一阶段:夯实语言基础:专注于强化系统的语言理解与推理能力,使用大规模驾驶对话数据及通用视觉-语言数据进行预训练。

第二阶段:谨慎引入新任务:逐步加入物体感知和路径规划任务,但采用温和的训练强度,小心翼翼地避免新任务破坏已建立起来的强大语言表征。

第三阶段:专项能力精炼:重点优化感知专家与行动专家的性能,同时稳固理解专家的能力,实现各项技能的均衡提升。

这一过程类似于培养一名十项全能运动员:先通过基础训练建立卓越的身体素质和协调性,再循序渐进地引入其他项目,并在专项训练中确保新技能的获得不会以牺牲原有优势为代价。

性能表现:不仅会开车,还能“理解”驾驶

在权威基准测试中,UniDriveVLA展现了卓越的性能。在基于真实世界数据的nuScenes开放集测试中,即便在没有额外车辆状态信息输入的情况下,系统也能准确预测未来轨迹。在Bench2Drive模拟环境的闭环驾驶测试中,其驾驶安全评分达到78.37,在不依赖特权信息(如未来轨迹)的方法中排名第一,其效率指标更是高达198.86。

更值得关注的是其在动态交互场景中的表现:变道超车成功率达到了80%,匝道汇流场景成功率为38.75%。这表明系统已具备处理需要实时判断与博弈的复杂场景的能力。

除了核心驾驶任务,UniDriveVLA还展现出强大的多任务泛化能力,可同步执行3D物体检测、在线局部建图、运动预测及驾驶场景问答。这种“一专多能”的特性,使其更接近人类驾驶员综合、连贯的认知模式,而非一个功能单一的自动化工具。

为何“分工”优于“统一”?数据揭示答案

为验证专家分工架构的必要性,团队进行了严格的对比实验。结果显示,当采用传统的共享参数模型时,系统内部出现了显著的“特征收敛”现象——语义特征与空间特征变得高度相似、难以区分,这意味着模型丧失了处理异质信息的专业化能力。而UniDriveVLA的专家分工设计成功避免了这一问题,各专家模块保持了其功能特征的独特性。

此外,通过组件消融实验,团队量化了各模块的贡献:引入车辆状态信息能显著提升轨迹预测精度;物体检测功能将碰撞率从0.21%降低至0.10%,主要提升了安全性;占据栅格预测则对轨迹平滑度贡献最大,说明密集的空间上下文信息对规划至关重要。

在驾驶场景理解任务中,系统展现了强大的推理能力。在DriveBench测试的感知、预测、规划、行为推理四个维度上,其平均得分达到51.97,证明它不仅能执行操作,还能理解和解释其决策背后的逻辑。

意义与展望:通向更智能的驾驶未来

这项研究的价值超越了单一的技术点创新。它提供了一种新的AI系统设计范式:不再依赖于简单的功能模块堆砌,而是通过精巧的架构设计,实现多种异质能力的有机统一与高效协作。这种“统一而不混乱,分工而不孤立”的设计哲学,对更广泛的复杂AI系统构建具有启发意义。

从工程化视角看,UniDriveVLA验证了用单一统一模型处理多重驾驶任务的可行性,这有望简化传统自动驾驶系统中复杂、脆弱的模块集成链路,降低系统的开发与维护复杂度。当然,挑战依然存在,例如在长时程运动预测等任务上仍有提升空间,如何进一步优化专家间的信息交换效率也是未来的重点。从实验室的基准测试走向复杂多变的真实道路部署,仍需完成大量的工程验证与鲁棒性提升工作。

UniDriveVLA代表了一个重要的技术里程碑。它不仅在原理上解决了感知与理解的特征冲突难题,更为构建真正智能、可靠、可解释的自动驾驶系统勾勒出一条清晰的技术路径。未来的自动驾驶汽车,或许将不再只是一个遵循规则的执行器,而是一个能深度理解环境、进行自然交互、并做出类人智能决断的出行伙伴。

Q&A

Q1:UniDriveVLA为什么要设计三个专门的专家而不是用一个统一的系统?

A:根本原因在于规避任务间的负迁移效应。语言理解依赖抽象符号推理,空间感知基于精确几何计算,这是两种截然不同的认知模式。强行融合到一个模型参数空间中,会导致性能相互制约。设立三个专家模块,让各自专注于核心领域,再通过结构化机制进行协作,如同组建一个高度专业化的跨学科团队,能在确保各领域性能最优的前提下实现系统级的高效协同。

Q2:这个系统在实际道路测试中的表现如何?

A:目前,UniDriveVLA的性能已在nuScenes真实世界数据集和Bench2Drive高保真模拟环境中得到验证。在Bench2Drive的闭环测试中,其驾驶评分达到78.37,变道超车成功率为80%,各项效率指标表现突出。这些结果充分证明了其在受控环境下的强大潜力与技术可行性。然而,从模拟测试到应对极端天气、罕见长尾场景的真实道路部署,仍需经历严格的实地测试、大量的数据迭代与系统工程优化。

Q3:稀疏感知和传统感知方法有什么区别?

A:核心区别在于信息处理的密度与焦点。传统密集感知方法致力于对环境进行像素级或体素级的重建,信息全面但计算负荷沉重,且包含大量决策无关的噪声。稀疏感知则转向以对象为中心的“关键点”策略,它像经验丰富的司机一样,只提取和跟踪对驾驶安全与决策至关重要的动态与静态元素(如车辆、行人、车道线、信号灯)。这种策略不仅大幅提升了系统的处理效率和实时性,更重要的是,它通过过滤冗余空间细节,有效防止了感知信息对语言理解模块造成干扰,是实现高阶语义理解与低层几何感知和谐共存的关键技术。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策