世界模型训练时间税：模态难题解决方案

2026-06-16阅读 0热度 0

其它

在刚闭幕的2026北京智源大会上，具身智能模型的新话题——世界模型，成了最受瞩目的焦點之一。自变量机器人联合创始人兼CTO王昊，分享了团队在“事件驱动的世界模型”方向上的前沿成果。

他抛出一个非常核心的观点：“所有的智能，本质上都是在特定尺度下涌现出来的。”其逻辑是，要通往多模态基础模型，不仅要找到不同模态各自最合适的表示尺度，还得靠规模化来放大这个效果。简单说，不是把所有数据一股脑扔给模型就行，得把语言、视觉、动作这三种不同维度的问题，先对齐到同一个“尺子”上。

过去在大语言模型领域有个说法叫“对齐税”——为了对齐人与模型的输入输出，模型需要付出额外的计算和训练成本。而在训练世界模型这件事上，业内绕不开的代价则是“时间税”。这是什么意思？就是以固定长度（比如100帧）来定义世界模型的预测长度，看起来很干净利落，但实际效果就像在用一把毫米刻度尺去量一个不规则几何体——有些复杂动作根本无处安放，效率大打折扣。

自变量近期发布的“事件级”世界模型WALL-WM，思路是直接放弃固定长度这个“强制对齐”的框架，改为以“事件”作为边界来拆分数据。这个选择的背后是一个有趣的发现：事件本身，就是连接语言、视觉和动作的天然尺度。王昊解释，事件通常基于语言表达而成，因此边界天然清晰；同时，视觉画面本身也由一个个事件分割，而同一事件内部的动作则更容易被预测规律捕捉。如果用事件做可变长度分割，三个模态就能自动对齐，不需要再额外加一层“对齐税”。

基于这个想法训练的WALL-WM，在多个基准测试上都拿出了相当不错的成果：在具身视频生成方面，它不仅在运动质量、语义一致性和物理合理性上全面超越了WAN 2.1和WAN 2.2这类通用模型；在隐式3D感知与多视角一致性上，也比当前开源视觉模型更稳。而在真机测试环节，它被丢进基础任务、推理任务、灵巧任务和泛化任务四大类操作评测中，每一项的分数都显著优于π 0.5和DreamZero。

从公开信息来看，自变量机器人在国内算是最早一批走通完全端到端技术路径的团队，专注于通用具身智能大模型。其近期开源的VLA模型Wall-OSS-0.5，在自家的硬件本体上已经展现出潜力：部分任务只需要预训练，就能达到过去需要后训练微调才能实现的零样本泛化水平。而开源的数采方案XRZero-G0，更是一套软硬一体化、全身无本体的数据采集与训练系统，能把数据采集成本压缩到原来的1/20——这对于该领域来说，是实打实的翻跟斗。

世界模型训练时间税：模态难题解决方案

相关阅读

最新教程

最新资讯