小米OneVL自动驾驶模型开源:业内首款统一VLA与多技术路线的权威测评
自动驾驶技术路线的融合路径正迎来关键突破。小米技术团队近期开源的Xiaomi OneVL框架,官方定义为“一步式潜空间语言视觉推理框架”。其核心创新在于,首次将视觉语言动作模型与世界模型这两条长期并行的技术路径,整合进统一的架构。
这一整合解决了行业内的一个关键瓶颈。传统VLA模型专注于实时环境感知与即时驾驶指令生成,如转向或制动。而世界模型则致力于多模态场景的未来状态预测。两者功能互补却始终难以深度融合。Xiaomi OneVL通过其潜空间推理技术,实现了感知决策与未来推演的同步进行。该模型在执行驾驶决策的同时,能并行推演该决策可能引发的后续环境变化。
从基准测试结果看,其性能表现突出。在ROADWork、Impromptu和Alpamayo-R1等涵盖感知、推理与规划的综合评测中,Xiaomi OneVL均取得了当前最优水平。在NA VSIM基准上也展示了卓越性能。值得注意的是,其精度超越了依赖显式思维链的模型,而推理速度则与仅输出最终结果的潜空间CoT方案相当,实现了精度与效率的平衡。
▲ 在 ROADWork、Impromptu、Alpamayo-R1 三项基准上均达到 SOTA,在 NA VSIM 上取得优越性能
除性能优势外,该框架显著提升了模型可解释性。针对自动驾驶系统常见的“黑箱”问题,Xiaomi OneVL提供了双通道解释机制:既可通过自然语言阐明决策依据,也能生成视觉化预测序列展示潜在后果。这种语言与视觉并行的解释能力,对于模型调试与安全验证具有重要价值。
▲ 为模型决策提供语言以及视觉的可解释性
目前项目代码与模型已在GitHub等平台开源。对于自动驾驶算法工程师而言,这提供了一个值得深入评估的集成化解决方案。技术路径的统一通常能降低系统复杂度并提升研发效率,Xiaomi OneVL的此次实践,可能为自动驾驶算法的下一代演进提供新的架构范式。


