世界模型训练时间税:模态难题解决方案

2026-06-16阅读 0热度 0
其它

在刚闭幕的2026北京智源大会上,具身智能模型的新话题——世界模型,成了最受瞩目的焦點之一。自变量机器人联合创始人兼CTO王昊,分享了团队在“事件驱动的世界模型”方向上的前沿成果。

他抛出一个非常核心的观点:“所有的智能,本质上都是在特定尺度下涌现出来的。”其逻辑是,要通往多模态基础模型,不仅要找到不同模态各自最合适的表示尺度,还得靠规模化来放大这个效果。简单说,不是把所有数据一股脑扔给模型就行,得把语言、视觉、动作这三种不同维度的问题,先对齐到同一个“尺子”上。

过去在大语言模型领域有个说法叫“对齐税”——为了对齐人与模型的输入输出,模型需要付出额外的计算和训练成本。而在训练世界模型这件事上,业内绕不开的代价则是“时间税”。这是什么意思?就是以固定长度(比如100帧)来定义世界模型的预测长度,看起来很干净利落,但实际效果就像在用一把毫米刻度尺去量一个不规则几何体——有些复杂动作根本无处安放,效率大打折扣。

自变量近期发布的“事件级”世界模型WALL-WM,思路是直接放弃固定长度这个“强制对齐”的框架,改为以“事件”作为边界来拆分数据。这个选择的背后是一个有趣的发现:事件本身,就是连接语言、视觉和动作的天然尺度。王昊解释,事件通常基于语言表达而成,因此边界天然清晰;同时,视觉画面本身也由一个个事件分割,而同一事件内部的动作则更容易被预测规律捕捉。如果用事件做可变长度分割,三个模态就能自动对齐,不需要再额外加一层“对齐税”。

基于这个想法训练的WALL-WM,在多个基准测试上都拿出了相当不错的成果:在具身视频生成方面,它不仅在运动质量、语义一致性和物理合理性上全面超越了WAN 2.1和WAN 2.2这类通用模型;在隐式3D感知与多视角一致性上,也比当前开源视觉模型更稳。而在真机测试环节,它被丢进基础任务、推理任务、灵巧任务和泛化任务四大类操作评测中,每一项的分数都显著优于π 0.5和DreamZero。

从公开信息来看,自变量机器人在国内算是最早一批走通完全端到端技术路径的团队,专注于通用具身智能大模型。其近期开源的VLA模型Wall-OSS-0.5,在自家的硬件本体上已经展现出潜力:部分任务只需要预训练,就能达到过去需要后训练微调才能实现的零样本泛化水平。而开源的数采方案XRZero-G0,更是一套软硬一体化、全身无本体的数据采集与训练系统,能把数据采集成本压缩到原来的1/20——这对于该领域来说,是实打实的翻跟斗。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策