雷军深度解析Xiaomi OneVL:多项基准测试刷新AI推理性能纪录
自动驾驶技术领域迎来一项关键开源框架。5月13日,小米技术正式发布并开源了Xiaomi OneVL一步式潜空间语言视觉推理框架。
小米集团创始人、董事长兼CEO雷军通过社交媒体分享了这一技术进展。他指出,Xiaomi OneVL在业内首次通过潜空间推理技术,将视觉语言动作模型与世界模型整合至统一框架。这一架构创新,实质上是提升了AI在复杂驾驶场景中进行理解与决策规划的连贯性与效率。
其性能表现更具突破性。雷军透露,在多项核心基准测试中,Xiaomi OneVL刷新了潜在推理方法的性能上限。这标志着该框架不仅在技术路径上实现融合,更在实证层面确立了新的性能标杆。目前,模型与代码已全面开源,雷军借此邀请全球开发者与研究人员共同推进自动驾驶大模型的演进。
根据小米技术团队的解读,Xiaomi OneVL的核心突破在于完成了技术路线的“大一统”。它将视觉语言动作模型、世界模型及潜空间推理等关键技术模块融合进单一框架。其基础是具备强大推理能力的XLA模型,而框架本身则显著优化了推理速度与精度。
这一开创性方案取得了实质性成果:在精度上超越了传统的显式思维链方法,同时在推理速度上可比肩高效的“仅答案”预测模式。这种兼顾高精度与低延迟的特性,正是实现可靠自动驾驶决策系统的关键。
目前,Xiaomi OneVL的模型权重、训练及推理代码已全部开源。相关技术资源可通过以下途径获取:
技术报告:https://arxiv.org/abs/2604.18486
项目主页:https://Xiaomi-Embodied-Intelligence.github.io/OneVL
开源代码:https://github.com/xiaomi-research/onevl


