小米OneVL自动驾驶模型开源发布:权威测评与核心技术解析

2026-05-14阅读 0热度 0
xiaomi

小米技术团队近日开源了Xiaomi OneVL,这是一个一步式的潜空间语言视觉推理框架。该框架创新性地将视觉语言模型、世界模型与潜空间推理技术整合于统一架构之下,在保持强大语言推理能力的同时,显著优化了推理速度与精度。其性能表现卓越,在精度上超越了传统的显式思维链方法,在推理速度上则可与高效的潜空间思维链方案相媲美。

过去,视觉语言模型和世界模型在自动驾驶领域通常各自发展:视觉语言模型精于实时场景理解与决策生成,而世界模型则专注于对未来场景演变的精准预测。Xiaomi OneVL通过其核心的潜空间推理技术,成功实现了这两大技术路径的深度融合。

在涵盖感知、推理与规划的多个权威评测基准中,Xiaomi OneVL均刷新了潜空间推理方法的性能记录。

如图所示,该框架在ROADWork、Impromptu、Alpamayo-R1等关键基准测试中均达到了领先水平,并在NA VSIM基准上展现了优异的性能。

Xiaomi OneVL的另一大亮点是提供了语言与视觉双维度的决策可解释性。系统不仅能以自然语言阐述其驾驶决策的逻辑依据,还能通过生成的预测画面,直观呈现对后续场景的推演,这极大地增强了模型行为的透明度和可信度。

上图清晰地展示了这种语言与视觉并行的可解释性输出。

目前,小米已全面开源Xiaomi OneVL的模型权重、训练代码及推理代码,相关资源如下:

技术报告:https://arxiv.org/abs/2604.18486
项目主页:https://Xiaomi-Embodied-Intelligence.github.io/OneVL
开源代码:https://github.com/xiaomi-research/onevl

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策