小米OneVL自动驾驶模型开源:业内首款统一VLA与多技术路线的权威测评

2026-05-14阅读 0热度 0
xiaomi

自动驾驶技术路线的融合路径正迎来关键突破。小米技术团队近期开源的Xiaomi OneVL框架,官方定义为“一步式潜空间语言视觉推理框架”。其核心创新在于,首次将视觉语言动作模型与世界模型这两条长期并行的技术路径,整合进统一的架构。

这一整合解决了行业内的一个关键瓶颈。传统VLA模型专注于实时环境感知与即时驾驶指令生成,如转向或制动。而世界模型则致力于多模态场景的未来状态预测。两者功能互补却始终难以深度融合。Xiaomi OneVL通过其潜空间推理技术,实现了感知决策与未来推演的同步进行。该模型在执行驾驶决策的同时,能并行推演该决策可能引发的后续环境变化。

小米开源Xiaomi OneVL自动驾驶模型,业内率先实现VLA、世界模型等多技术路线统一

从基准测试结果看,其性能表现突出。在ROADWork、Impromptu和Alpamayo-R1等涵盖感知、推理与规划的综合评测中,Xiaomi OneVL均取得了当前最优水平。在NA VSIM基准上也展示了卓越性能。值得注意的是,其精度超越了依赖显式思维链的模型,而推理速度则与仅输出最终结果的潜空间CoT方案相当,实现了精度与效率的平衡。

小米开源Xiaomi OneVL自动驾驶模型,业内率先实现VLA、世界模型等多技术路线统一

▲ 在 ROADWork、Impromptu、Alpamayo-R1 三项基准上均达到 SOTA,在 NA VSIM 上取得优越性能

除性能优势外,该框架显著提升了模型可解释性。针对自动驾驶系统常见的“黑箱”问题,Xiaomi OneVL提供了双通道解释机制:既可通过自然语言阐明决策依据,也能生成视觉化预测序列展示潜在后果。这种语言与视觉并行的解释能力,对于模型调试与安全验证具有重要价值。

小米开源Xiaomi OneVL自动驾驶模型,业内率先实现VLA、世界模型等多技术路线统一

▲ 为模型决策提供语言以及视觉的可解释性

目前项目代码与模型已在GitHub等平台开源。对于自动驾驶算法工程师而言,这提供了一个值得深入评估的集成化解决方案。技术路径的统一通常能降低系统复杂度并提升研发效率,Xiaomi OneVL的此次实践,可能为自动驾驶算法的下一代演进提供新的架构范式。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策