小米OneVL自动驾驶模型开源：业内首款统一VLA与多技术路线的权威测评

2026-05-14阅读 0热度 0

xiaomi

自动驾驶技术路线的融合路径正迎来关键突破。小米技术团队近期开源的Xiaomi OneVL框架，官方定义为“一步式潜空间语言视觉推理框架”。其核心创新在于，首次将视觉语言动作模型与世界模型这两条长期并行的技术路径，整合进统一的架构。

这一整合解决了行业内的一个关键瓶颈。传统VLA模型专注于实时环境感知与即时驾驶指令生成，如转向或制动。而世界模型则致力于多模态场景的未来状态预测。两者功能互补却始终难以深度融合。Xiaomi OneVL通过其潜空间推理技术，实现了感知决策与未来推演的同步进行。该模型在执行驾驶决策的同时，能并行推演该决策可能引发的后续环境变化。

从基准测试结果看，其性能表现突出。在ROADWork、Impromptu和Alpamayo-R1等涵盖感知、推理与规划的综合评测中，Xiaomi OneVL均取得了当前最优水平。在NA VSIM基准上也展示了卓越性能。值得注意的是，其精度超越了依赖显式思维链的模型，而推理速度则与仅输出最终结果的潜空间CoT方案相当，实现了精度与效率的平衡。

▲ 在 ROADWork、Impromptu、Alpamayo-R1 三项基准上均达到 SOTA，在 NA VSIM 上取得优越性能

除性能优势外，该框架显著提升了模型可解释性。针对自动驾驶系统常见的“黑箱”问题，Xiaomi OneVL提供了双通道解释机制：既可通过自然语言阐明决策依据，也能生成视觉化预测序列展示潜在后果。这种语言与视觉并行的解释能力，对于模型调试与安全验证具有重要价值。

▲ 为模型决策提供语言以及视觉的可解释性

目前项目代码与模型已在GitHub等平台开源。对于自动驾驶算法工程师而言，这提供了一个值得深入评估的集成化解决方案。技术路径的统一通常能降低系统复杂度并提升研发效率，Xiaomi OneVL的此次实践，可能为自动驾驶算法的下一代演进提供新的架构范式。

上一篇Codex代码生成效率实测：对比人工开发，AI如何颠覆科研编程？ 下一篇Claude AI编程实战：揭秘自动化代码生成智能体的高效工作流

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

小米OneVL自动驾驶模型开源：业内首款统一VLA与多技术路线的权威测评

相关阅读

最新教程

最新资讯