小米OneVL自动驾驶模型开源发布:权威测评与核心技术解析
小米技术团队近日开源了Xiaomi OneVL,这是一个一步式的潜空间语言视觉推理框架。该框架创新性地将视觉语言模型、世界模型与潜空间推理技术整合于统一架构之下,在保持强大语言推理能力的同时,显著优化了推理速度与精度。其性能表现卓越,在精度上超越了传统的显式思维链方法,在推理速度上则可与高效的潜空间思维链方案相媲美。
过去,视觉语言模型和世界模型在自动驾驶领域通常各自发展:视觉语言模型精于实时场景理解与决策生成,而世界模型则专注于对未来场景演变的精准预测。Xiaomi OneVL通过其核心的潜空间推理技术,成功实现了这两大技术路径的深度融合。
在涵盖感知、推理与规划的多个权威评测基准中,Xiaomi OneVL均刷新了潜空间推理方法的性能记录。
如图所示,该框架在ROADWork、Impromptu、Alpamayo-R1等关键基准测试中均达到了领先水平,并在NA VSIM基准上展现了优异的性能。
Xiaomi OneVL的另一大亮点是提供了语言与视觉双维度的决策可解释性。系统不仅能以自然语言阐述其驾驶决策的逻辑依据,还能通过生成的预测画面,直观呈现对后续场景的推演,这极大地增强了模型行为的透明度和可信度。
上图清晰地展示了这种语言与视觉并行的可解释性输出。
目前,小米已全面开源Xiaomi OneVL的模型权重、训练代码及推理代码,相关资源如下:
技术报告:https://arxiv.org/abs/2604.18486
项目主页:https://Xiaomi-Embodied-Intelligence.github.io/OneVL
开源代码:https://github.com/xiaomi-research/onevl


