机器人能否像人一样预见未来？武汉大学等联合研究榜单

2026-06-17阅读 0热度 0

武汉大学

这项由武汉大学、上海创新研究院、东南大学、复旦大学和华东师范大学联合推进的研究，以预印本形式于2026年6月发表在arXiv平台，论文编号为arXiv:2606.08242。读者可通过此编号检索完整论文内容。

初次目睹机械臂在实验室中流畅抓取物品、完成复杂动作序列时，许多人会误以为这只是简单的“指令执行”。实际上，让机器人真正理解任务目标并灵活应对动态环境，涉及一个前沿挑战：机器人能否像人类一样，在执行操作前就在脑中“预演”后续事件？

本研究正是围绕这一核心问题展开。研究团队提出了Light-WAM系统——其中“WAM”代表“World Action Model（世界动作模型）”，“Light”则意味着该框架比现有同类技术更轻量化。其核心策略是：通过训练机器人“预测未来视频”，使其在内部建立对物理世界的理解，从而做出更精准的动作；而在实际控制时，仅需极低的计算开销即可快速响应。整个模型仅含4.4亿个可训练参数（衡量AI复杂度的指标，数值越小越轻便），推理延迟仅72毫秒，峰值显存占用仅4.1GB，较同类方案效率大幅提升。

一、机器人的“大脑”如何运作

设想你是一名新入职的快递分拣员：根据包裹外观、标签和货架位置决定放置点。你的大脑不仅处理当前视觉信息，还会持续预测——若将包裹这样放置，货架是否会倾斜？相邻包裹是否会滑落？这种“边行动、边预判未来”的能力，正是人类在复杂环境中游刃有余的关键。

机器人领域有一类技术称为视觉语言动作模型（VLA），相当于为机器人装上“会看文字的眼睛”——它能解读语言指令，识别眼前视觉场景，并输出具体机械动作。然而，这类模型的局限在于主要依赖“当前帧”决策，缺乏对“后续事件”的理解。

为弥补这一缺陷，研究人员提出了“世界动作模型”（WAM）概念。其核心逻辑是：在训练机器人执行动作的同时，额外要求其预测未来视频画面。这就好比不仅要求分拣员放对包裹，还要提前画出“摆放后货架的形态”。这种额外任务迫使模型真正理解场景中物体的运动方式、物间关系及任务进展状态，而非仅靠记忆反射应对。

然而，现有WAM系统存在显著问题：为实现这种“未来预测”，它们往往依赖庞大的生成式架构，训练成本极高，推理速度极慢，硬件要求极为苛刻。这使得它们难以部署在真实的闭环控制场景中——机器人无法等待两三秒才能迈出下一步。

二、核心发现：测试阶段的“预想”可以省去

研究团队从关键洞察出发：已有研究表明，在实际运行时生成未来视频对机器人最终表现并无决定性帮助。真正重要的是在训练阶段通过“预测未来”任务，让模型学习更丰富的世界表示。

用通俗比喻来说：乒乓球运动员在日常训练中会大量分析对手打法、预判落点；但比赛时，他依赖训练积累的直觉直接反应，而非停下来分析。WAM的“未来预测”相当于训练中的分析环节，而非实时思考过程。

基于这一认识，研究团队设计Light-WAM：在训练时保留“预测未来视频”目标，充分利用其对表示学习的好处；而在实际推理时，完全抛弃未来视频生成步骤，让机器人直接根据当前观测输出动作。这一取舍使得推理端极为轻便，同时保留了WAM范式的核心优势。

三、“压缩版”未来预想：潜空间中的轻量监督

研究团队面临的第一个工程挑战是：即便仅在训练时保留视频预测，该过程本身仍消耗大量计算资源。生成高分辨率未来视频帧需处理海量视觉token（图像被切分成小块后的数字表示），计算代价极高。

研究团队的解决方案是：在“缩小版”空间中进行未来预测，而非在原始分辨率上操作。具体做法是：通过编码器将视频画面压缩为紧凑的“潜变量”（latent，高度浓缩的数学表示），再对该潜变量进行2倍空间下采样，使其进一步缩小。随后，视频预测分支在此更小的潜变量空间内完成训练监督。

如此处理的效果是：token数量大幅减少，训练计算量随之下降，但模型仍能通过这种压缩版未来预测学习物体运动、场景变化等规律性知识。相当于学生通过大量简化版练习题，虽然题目比真题简单，但核心能力依然得到训练。

至于实际控制用的“当前帧”输入，则保留原始分辨率，不做下采样，确保机器人执行动作时拥有足够清晰的视觉信息。这种“训练时用缩图、推理时用原图”的非对称设计，在节省训练开销的同时，不牺牲操控精度。

四、聪明的“取读”方式：多层状态融合动作专家

Light-WAM的另一个重要创新，在于如何将视频理解模型的输出转化为机械臂动作指令。该模块名为StateFusionActionExpert（状态融合动作专家）。

研究团队选用Wan2.1-T2V-1.3B作为视频骨干网络——这是一个专为视频生成任务预训练的大型Transformer模型，参数量约13亿。它具备强大的时序变化与空间关系理解能力。为使其适配机器人任务而不破坏原有能力，团队采用LoRA（低秩适配，一种仅训练少量额外参数的技术，类似给成熟软件打轻量化功能补丁）对所有注意力层和前馈层进行微调，同时在模型第8、16、24层各插入一个轻量级“WAM适配器”（小型瓶颈MLP网络），为这些层额外增加机器人领域适配能力。

此处有一个精心设计：研究团队并非仅取最后一层输出预测动作，而是同时提取第8、16、24层的输出。这好比厨师不仅品尝成品，还会在半熟时尝味、加调料后再尝——不同阶段的中间状态携带不同层次的视觉信息：浅层更关注低级纹理和边缘，深层更关注高级语义和任务进度。将这些不同深度的表示综合起来，动作预测模块能获得更全面的视觉理解。

但直接将这三层的全部视觉token送给动作模块，会产生大量冗余信息。为此，团队为每一层设计了一组可学习的“查询向量”（每层16个），通过多头注意力机制，让这些查询向量“有选择地”提取对应层中的关键信息，然后对所有查询输出取平均，得到一个固定大小的紧凑表示。这就像一群记者采访新闻发布会后，各自挑出最重要信息汇总成一份简报。

随后，三层的简报分别经过投影，拼接成6144维的统一状态向量，再经残差MLP模块处理。最终，通过为每个动作步骤添加位置编码，模型一次性输出整个动作序列（即“动作块”，action chunk），无需迭代去噪，整个动作分支推理仅需2.1毫秒。

五、实验结果：又轻又快，效果不减

研究团队在两个标准测试平台上评估了Light-WAM的表现。

第一个是LIBERO，机器人操控领域广泛使用的基准测试，包含四个子任务集：空间任务（Spatial）、对象任务（Object）、目标任务（Goal）和长程任务（Long）。Light-WAM在不使用任何额外大规模机器人预训练数据的情况下，四个子集成功率分别达到98.2%、99.6%、97.8%和93.0%，平均成功率97.2%。该成绩在所有未使用大规模机身预训练的方法中排名第一，在全部比较方法中排名第三，仅次于拥有53亿参数的LingBot-VA（98.5%）和8B参数的Motus（97.7%）。值得注意的是，长程任务对所有方法最具挑战，更大模型在此确实有优势，这也是Light-WAM的相对短板。

第二个测试平台是RoboTwin 2.0，这是一个更具挑战性的多任务评估环境——单个策略需同时学习50种双臂协作操控任务，还要应对随机化的视觉和物理条件。Light-WAM在此取得76.4%的平均成功率（干净场景76.4%，随机化场景76.3%）。相比之下，Fast-WAM成绩为91.9%，使用机身预训练的LingBot-VA更高达92.2%，Motus为87.8%。Light-WAM的绝对成绩虽不及这些大模型，但在没有机身预训练的前提下，超越了π0（62.2%）和X-VLA（72.9%），与未使用机身预训练的Motus（74.9%）相近。

效率方面的对比数据更具直观性。与Fast-WAM相比，Light-WAM将可训练参数从60.2亿压缩至4.4亿，降幅达13.7倍；训练吞吐量从每秒0.49步提升至2.08步，提升4.25倍；推理时峰值显存从12.7GB降至4.1GB；推理延迟从404.62毫秒降至72.03毫秒。若与需同步生成未来视频的LingBot-VA相比，推理延迟差距超40倍——LingBot-VA单次推理需超3秒，而Light-WAM仅需0.072秒。

六、消融实验：每个设计均有其合理性

研究团队在LIBERO-Spatial子集上开展了一系列对比实验，专门验证各个设计选择的必要性。

关于视频监督的分辨率：若不进行下采样，保留原始分辨率做视频监督，成功率从98.2%提升至99.0%，说明更高分辨率监督确能带来更好的表示质量。但如表3中训练效率数据显示，全分辨率视频监督会大幅推高训练成本。团队最终采用2倍下采样，作为性能与效率的平衡点。

关于适配器层数：将WAM适配器从3层增加到5层（设置在第4、8、16、20、24层），成功率几乎无变化（从98.2%变为98.0%），表明在此任务上稀疏三层已足够，增加适配器只会平添参数与计算量。

关于查询数量：将每层可学习查询数量从16个减少到8个，成功率明显下降，从98.2%降至95.4%。这说明查询数量需足够多，才能从密集视觉token中提取丰富操控相关信息；若查询太少，信息瓶颈会过度压缩视觉细节，导致动作预测失误。

七、可视化分析：模型真正“注视”关键区域

研究团队还对模型内部行为做了可视化分析，分为两部分。

第一部分是未来视频预测效果。对每个任务，他们比较模型预测的未来帧与环境实际滚出的未来帧（以t=+8、+16、+24、+32帧为时间节点）。预测画面比真实画面稍显模糊——这是下采样导致的自然结果——但主要运动趋势和场景变化均被正确捕捉，如机械臂运动轨迹、物体被推动后的大致位置变化。这表明视频预测分支确实学到了有意义的时序动态知识。

第二部分是可学习查询向量的注意力可视化。研究团队将第8、16、24层的查询注意力权重投影回图像坐标，生成热力图。有趣的是，三层的注意力焦点明显不同：浅层（第8层）更关注被操控物体本身；中层（第16层）的关注范围扩展至夹爪区域；深层（第24层）则更多关注目标摆放位置等任务目标区域。这种层次化的注意力分工，恰好与团队多层融合的设计动机相吻合——不同深度的特征确实携带互补的视觉信息。

八、真实机器人上的表现

除仿真环境外，研究团队还在真实双臂机器人平台（IMETA Y1）上进行了测试，设计了三个实际操控任务：将纸球扫入垃圾桶、叠碗后放入篮子、将水瓶递入篮子。每个任务收集50条演示数据进行训练，并与π0.5（一个强大的基线方法）在同等条件下对比。

结果显示：在“扫纸球”任务中，Light-WAM成功率为80%，π0.5为67%；在“叠碗放篮”任务中，Light-WAM为87%，π0.5为93%；在“水瓶递接”任务中，Light-WAM为60%，π0.5为53%。整体来看，两种方法各有胜负，Light-WAM在真实世界场景中具备可用操控能力，并未因结构轻量而出现系统性退步。

归根结底，Light-WAM这项研究回答了一个实际问题：机器人是否需要在每次行动前都“脑补”一遍未来？答案是否定的。关键学习发生于训练阶段——当模型在训练时反复预测“接下来会发生什么”，它已将对世界的理解内化为感知能力；到实际操控时，它完全可凭借这种内化的直觉快速行动，无需每次都重新“脑补”。

这一思路带来的收益显著：推理速度提升5倍以上，显存需求压缩至原来三分之一，训练效率翻四倍多，而任务成功率仅有有限下降。对于希望在真实硬件上部署机器人策略的工程师而言，这是一个值得密切关注的方向。

当然，研究团队也诚实指出了局限：在更复杂的多任务场景下，更大参数量的模型和大规模机器人预训练数据仍具有不可替代的优势；Light-WAM目前也未在专门测试鲁棒性和泛化性的基准（如LIBERO-Plus）上进行验证，未来还需引入数据增强和鲁棒性训练以进一步提升表现。

对于希望了解更多细节的读者，可通过arXiv编号2606.08242找到完整论文，代码已开源在GitHub上，搜索“L1ziang/Light-WAM”即可访问。

Q&A

Q1：Light-WAM与Fast-WAM相比，具体节省了多少计算资源？

A：Light-WAM相比Fast-WAM，可训练参数从60.2亿降至4.4亿，减少约13.7倍；训练吞吐量从每秒0.49步提升至2.08步，提高4.25倍；推理时峰值显存从12.7GB降至4.1GB；整体推理延迟从404毫秒缩短至72毫秒。这些改进使Light-WAM可在消费级GPU上运行，推理延迟满足闭环控制的实时需求。

Q2：StateFusionActionExpert为什么要从多个网络层取特征，只用最后一层不行吗？

A：不同深度的网络层携带不同层次的视觉信息，浅层更关注低级纹理和边缘，深层更关注语义和任务目标。实验中注意力可视化也证实三层的关注区域各不相同：第8层聚焦被操控物体，第16层关注夹爪，第24层关注目标位置。只用最后一层会丢失这些互补的中间层信息，影响动作预测的准确性。

Q3：Light-WAM训练时用的“视频下采样”会不会让机器人看不清细节？

A：视频下采样仅用于训练阶段的“未来视频预测”分支，目的是降低计算成本。在推理阶段，机器人用于决策的“当前观测帧”保留原始分辨率，不做下采样。消融实验也显示，使用原始分辨率监督仅能将LIBERO-Spatial成功率从98.2%提升到99.0%，而训练成本却大幅上升，2倍下采样是性能与效率的合理平衡点。