小米OneVL自动驾驶模型开源发布:权威测评与新手入门指南
小米近期正式开源其自动驾驶核心模型Xiaomi OneVL。这一名为“一步式潜空间语言视觉推理框架”的技术,其核心价值在于将VLA(视觉-语言-动作模型)、世界模型与潜空间推理三大主流技术路线,整合进一个统一的架构。官方性能数据极具突破性:推理延迟最低仅0.24秒,为传统VLA自回归推理时间的5.4%;在精度上超越了需要逐步输出的“显式思维链”,速度则与直接输出结果的“仅答案”模式持平。这标志着大模型首次在高实时性要求的自动驾驶场景中,实现了速度与精度的双重突破。
OneVL的发布是小米技术路线的关键一步。今年3月,小米推出XLA认知大模型架构,旨在推动辅助驾驶从感知模仿向理解推理演进。仅两个月后,OneVL便在此基础上实现了关键的技术融合。
VLA、世界模型与潜空间推理三条技术路线长期各有利弊,导致行业面临取舍。VLA端到端决策能力强但推理慢;世界模型能预测场景变化却计算沉重;潜空间推理速度快但精度存疑。OneVL的解决方案是整合而非取舍:它利用潜空间推理的高效架构作为基础,同时承载VLA的决策能力与世界模型的场景理解。这一设计在单一框架内协同解决了精度与速度的矛盾。
对自动驾驶而言,延迟是核心安全指标。传统VLA的自回归推理需逐步输出思考过程,延迟常达数秒,无法满足车载实时需求。OneVL将延迟压缩至0.24秒量级,不仅进入车端部署的可行范围,更为实时决策开辟了新的可能性。
更重要的是,这一速度提升并未牺牲准确性。小米官方确认,OneVL的精度超越了“显式思维链”。后者过程透明但冗长;而OneVL在内部“潜空间”中完成所有复杂推理,无需输出中间步骤,最终能以更快的速度给出更准确的答案。这类似于顶尖棋手无需解释每一步计算,却能迅速落下制胜棋子。
与众多车企将智驾模型视为核心机密并严格闭源的做法不同,小米为OneVL选择了全面开源。这一决策背后蕴含着清晰的战略意图。
开源背后的战略考量
首先,开源是快速构建开发者生态的有效路径。吸引全球研究者与工程师基于OneVL进行迭代,能加速技术成熟与场景适配。其次,自动驾驶系统的完善极度依赖覆盖各种“长尾”场景的海量数据。开源社区的广泛参与,能以更低成本、更高效率帮助小米收集和处理这些边缘案例,持续反哺模型优化。最后,在行业普遍将算法视为核心壁垒的背景下,小米通过开源策略换取生态话语权与标准影响力,这与其在智能手机及IoT领域构建生态的成功经验一脉相承。
目前,OneVL的模型权重与推理代码已在技术社区公开。结合此前开源的XLA架构,小米正逐步搭建从底层认知大模型到上层端到端自动驾驶应用的完整开源技术栈。
回顾小米自动驾驶的布局,其节奏感十分明确。从2021年宣布造车,到2023年发布智能驾驶技术架构,再到2024年城市领航辅助驾驶(NOA)逐步落地,外界曾视其为追赶者。然而,从XLA到OneVL的快速迭代表明,小米正试图通过大模型路径重新定义自动驾驶的技术竞争规则。
当多数竞争者仍聚焦于城市NOA开城数量时,小米已将竞争引向底层的大模型推理架构。OneVL的发布不仅是一款产品,更是一份技术宣言:自动驾驶下一阶段的决胜关键,或许不在于更多的路测里程,而在于更优的模型效率与架构设计。
