世界模型训练时间税:模态难题解决方案
在刚闭幕的2026北京智源大会上,具身智能模型的新话题——世界模型,成了最受瞩目的焦點之一。自变量机器人联合创始人兼CTO王昊,分享了团队在“事件驱动的世界模型”方向上的前沿成果。
他抛出一个非常核心的观点:“所有的智能,本质上都是在特定尺度下涌现出来的。”其逻辑是,要通往多模态基础模型,不仅要找到不同模态各自最合适的表示尺度,还得靠规模化来放大这个效果。简单说,不是把所有数据一股脑扔给模型就行,得把语言、视觉、动作这三种不同维度的问题,先对齐到同一个“尺子”上。
过去在大语言模型领域有个说法叫“对齐税”——为了对齐人与模型的输入输出,模型需要付出额外的计算和训练成本。而在训练世界模型这件事上,业内绕不开的代价则是“时间税”。这是什么意思?就是以固定长度(比如100帧)来定义世界模型的预测长度,看起来很干净利落,但实际效果就像在用一把毫米刻度尺去量一个不规则几何体——有些复杂动作根本无处安放,效率大打折扣。
自变量近期发布的“事件级”世界模型WALL-WM,思路是直接放弃固定长度这个“强制对齐”的框架,改为以“事件”作为边界来拆分数据。这个选择的背后是一个有趣的发现:事件本身,就是连接语言、视觉和动作的天然尺度。王昊解释,事件通常基于语言表达而成,因此边界天然清晰;同时,视觉画面本身也由一个个事件分割,而同一事件内部的动作则更容易被预测规律捕捉。如果用事件做可变长度分割,三个模态就能自动对齐,不需要再额外加一层“对齐税”。
基于这个想法训练的WALL-WM,在多个基准测试上都拿出了相当不错的成果:在具身视频生成方面,它不仅在运动质量、语义一致性和物理合理性上全面超越了WAN 2.1和WAN 2.2这类通用模型;在隐式3D感知与多视角一致性上,也比当前开源视觉模型更稳。而在真机测试环节,它被丢进基础任务、推理任务、灵巧任务和泛化任务四大类操作评测中,每一项的分数都显著优于π 0.5和DreamZero。
从公开信息来看,自变量机器人在国内算是最早一批走通完全端到端技术路径的团队,专注于通用具身智能大模型。其近期开源的VLA模型Wall-OSS-0.5,在自家的硬件本体上已经展现出潜力:部分任务只需要预训练,就能达到过去需要后训练微调才能实现的零样本泛化水平。而开源的数采方案XRZero-G0,更是一套软硬一体化、全身无本体的数据采集与训练系统,能把数据采集成本压缩到原来的1/20——这对于该领域来说,是实打实的翻跟斗。

