小米汽车世界模型深度解析：智能驾驶技术全测评

2026-05-26阅读 0热度 0

xiaomi

Xiaomi Auto World Model是什么

自动驾驶系统的核心挑战，在于让机器精准地感知并预测三维动态环境。小米汽车推出的Xiaomi Auto World Model，正是针对这一挑战提出的创新性解决方案。它是一个专为辅助驾驶设计的端到端世界模型，其技术架构的核心突破在于首次将三维重建与视频生成两大模块进行了深度耦合。

具体而言，三维重建模块负责实时解析历史感知数据，构建出精确、稳定的三维场景表征；视频生成模块则基于此表征，进行未来场景的预测或对遮挡区域的补全。这种“重建”与“生成”的闭环设计，为系统同时赋予了物理世界的几何确定性与对未知时空的推理能力。

在性能上，该模型已在权威基准测试中取得领先：在Waymo数据集上的重建精度（PSNR 28.48）与在nuScenes数据集上的生成质量（FVD 64.97）均达到行业前沿水平。更重要的是，它已成功应用于合成数据生成、仿真测试与智能座舱交互三大实际业务场景。

Xiaomi Auto World Model的主要功能

该模型的功能体系围绕“精准感知”与“创造性预测”两大支柱构建，具体涵盖以下关键模块：

WorldRec 三维重建模块：其创新点在于采用稀疏3D查询锚点系统，替代了传统的稠密高斯建模。每个锚点主动融合多摄像头、多时序的特征信息，并通过可见性加权筛选最可靠的观测数据。这一设计从根本上解决了多视角不一致与“鬼影”问题，实现了高效重建——10秒视频流仅需10秒即可完成高质量三维场景解析。
WorldGen 视频生成模块：采用两阶段训练策略。首先通过全双向时序注意力进行预训练，建立对驾驶场景的全局时空认知；随后转为因果注意力进行自回归生成微调。通过ODE蒸馏技术，将每帧图像生成所需的去噪步数从50步压缩至4步，从而将单帧生成时间降至0.19秒，并能连续生成长达81帧（约1分钟）的未来场景或补全内容。
重建-生成深度耦合：这是模型实现高一致性的关键。重建模块为生成过程提供坚实的3D几何先验，确保生成结果的物理合理性；生成模块则能基于此先验，推理并补全传感器未观测的区域。两者在训练中相互约束，有效抑制了长时序预测中的累积误差漂移。
极端场景生成：针对暴雨、暴雪、浓雾及突发障碍物等长尾危险场景数据稀缺的痛点，模型能够高质量合成这些极端条件数据，为感知模型的鲁棒性训练提供关键数据支撑。
三大业务落地：技术已实现商业化闭环应用：一是合成数据生成，已产出超10万个高质量数据片段；二是用于高保真闭环仿真测试，精准复现事故场景以优化算法；三是集成至车机系统，作为“辅助驾驶学堂”的核心引擎，动态生成第一人称教学视频，提升用户认知与操作安全性。

Xiaomi Auto World Model的技术原理

支撑上述功能的是其底层的一系列关键技术原理：

WorldRec 稀疏锚点表征：摒弃对每个像素进行高斯预测的传统路径，转为在三维空间部署一组稀疏、可学习的查询锚点。每个锚点主动聚合所有摄像头在不同时刻的观测特征，并依据观测可靠性进行加权融合，从而建立起高效、一致的多视角跨时空表征。
4D Gaussian 全局表示：模型维护一个随车辆运动增量更新的4D高斯场景表示。这个动态的“世界地图”投影至当前视角后，即为生成模块提供确定性几何约束，确保生成内容符合物理规律。
WorldGen 两阶段训练：第一阶段利用全双向注意力进行“通识训练”，让模型学习驾驶场景的宏观分布；第二阶段转为因果注意力并进行教师强制训练，专注于序列预测任务。ODE蒸馏技术是关键加速器，在保证生成质量的同时将推理速度提升12倍，并缓解了自回归训练中的暴露偏差问题。
重建-生成闭环约束：两个模块通过结构化的联合损失函数进行深度耦合。重建的确定性目标校正生成的几何失真，而生成的目标则驱动重建表示更好地支持预测任务。这种双向约束是实现高稳定性与真实性的核心机制。

如何使用Xiaomi Auto World Model

对于终端用户，接触这一前沿技术的门槛已被大幅降低。目前，它已作为核心功能集成于小米汽车SU7等车型的智能座舱系统内。

上线平台：在车机系统中找到「辅助驾驶学堂」模块，其中的「实景模拟场景」功能即由Xiaomi Auto World Model驱动。
使用条件：用户需拥有搭载该功能的小米汽车。在车辆静止或确保安全的状态下，进入相应模块，即可体验由模型动态生成的各类复杂路况驾驶教学模拟视频。

Xiaomi Auto World Model的核心优势

在竞争激烈的自动驾驶世界模型领域，该方案凭借以下综合优势脱颖而出：

SOTA 性能：量化指标领先。在Waymo重建任务中，其PSNR 28.48的成绩较此前优秀方法（如DGGT）提升约1个点；在nuScenes的零样本泛化测试中，PSNR 26.54同样领先。生成质量方面，FVD分数低至64.97，超越了现有双向与自回归基线模型。
极速推理：效率优势显著。单视角生成速度达0.19秒/帧，三视角为0.46秒/帧。相较于同类自回归方法（如Epona的1.06秒/帧），速度提升5.6倍，为实时交互应用奠定基础。
超长时序：支持连续生成81帧（在10Hz或30Hz下最长约1分钟），远超多数基线模型8-16帧的限制，展现了卓越的长期时序一致性保持能力。
零样本泛化：在未经专门训练的nuScenes数据集上表现优异，证明其底层表征具备强泛化性，能适应新的城市场景，降低针对不同地域的重复训练成本。
已落地生产：技术优势已转化为商业价值。模型深度融入小米汽车的合成数据管线、仿真测试流程及智能座舱产品，形成了从研发到用户体验的完整业务闭环，区别于多数停留在论文阶段的研究项目。

Xiaomi Auto World Model的项目地址

研究人员与开发者可通过以下资源深入了解技术细节：

项目官网：https://JointWM.github.io/
arXiv技术论文：https://arxiv.org/pdf/2605.18137

Xiaomi Auto World Model的同类竞品对比

通过与行业标杆Waymo同期发布的世界模型进行横向对比，可以更清晰地定位其技术特点：

对比维度	Xiaomi Auto World Model	Waymo World Model
所属公司	小米汽车	Waymo（Alphabet/Google）
发布时间	2026年5月	2026年2月
技术路线	重建+生成深度耦合一体化架构（WorldRec + WorldGen 互相约束）	基于 Genie 3 的生成式世界模型（纯生成路线，后训练适配驾驶场景）
重建模块	WorldRec：稀疏 3D 锚点表征，10秒视频10秒重建，PSNR 28.48（Waymo数据集）	无独立重建模块，依赖 Genie 3 的预训练世界知识生成全场景
生成模块	WorldGen：4步去噪，0.19秒/帧，支持81帧（~1分钟）连续生成	基于 Genie 3 生成，支持多传感器输出（相机+LiDAR），可模拟极端场景
架构特点	重建给生成“打地基”（几何约束），生成给重建“扩边界”（补全未观测区域）	纯生成式，通过语言/动作/场景布局三种控制机制调整模拟
传感器支持	主要面向相机数据（多视角图像输入）	相机 + LiDAR 多传感器输出，可将普通行车记录仪视频转为多传感器模拟数据
基准测试	Waymo PSNR 28.48（超DGGT约1个点）；nuScenes FVD 64.97，FID 7.04	未公开具体量化指标，强调可模拟“从未见过”的长尾场景
生成速度	单视角 0.19秒/帧，三视角 0.46秒/帧	未公开具体推理速度，强调“可扩展推理”与高效变体
最大生成时长	81帧（10Hz/30Hz，最长约1分钟）	未明确公开，Genie 3 原生支持数分钟级别一致生成
极端场景能力	暴雨、大雪、浓雾、动物闯入等长尾场景生成	龙卷风、洪水、积雪金门大桥、大象/狮子等罕见物体、 reckless driver 等
业务落地	已落地三大场景：合成数据（10万+ clips）、仿真测试、辅助驾驶学堂	用于 Waymo Driver 训练与验证，支撑 robotaxi 扩张（2026年目标100万周订单）

对比可见，两者代表了不同的技术路径：Waymo模型依托强大的通用生成基础，侧重于多模态生成与场景控制的灵活性；小米模型则深耕驾驶垂直领域，通过重建与生成的深度耦合，在推理速度、量化精度与现有业务集成度上建立了独特优势。

Xiaomi Auto World Model的应用场景

该模型的价值已在其三大核心应用场景中得到具体体现，共同构成了自动驾驶研发与用户体验提升的闭环：

合成数据生成：直接解决长尾场景数据稀缺的行业痛点。模型能够按需生成高质量、高多样性的合成数据，针对性强化感知与预测模型在极端工况下的表现，是提升系统鲁棒性的关键工具。
仿真测试：为自动驾驶算法提供高保真、可重复的虚拟测试环境。模型能精准复现实测或事故场景，支持算法在闭环仿真中进行海量、极限、零风险的定向优化与验证，极大提升测试效率与安全性。
辅助驾驶学堂：创新性地将前沿技术应用于用户教育。在智能座舱内，系统能基于实时或预设的复杂路况，动态生成第一人称教学视频，直观演示系统能力边界与正确操作，有效提升人机共驾的安全性与用户信任度。