自回归因果世界模型突破：蚂蚁灵波用50条数据解锁通用机器人操控

2026-06-20阅读 0热度 0

世界模型

机器人要真正融入日常物理环境，仅靠视觉感知远远不够，还必须具备因果推理能力——比如预判推倒杯子会导致水洒出。这种对物理因果链的深刻理解，正是通用机器人操作智能的关键。最近，蚂蚁灵波与香港科技大学等机构的研究团队推出了一项名为 LingBot-VA 的工作，其核心思路简洁直接：将视频帧预测与动作推理整合进统一框架，使机器人通过自回归扩散机制，学会“边思考边行动”。

借助自回归扩散框架，机器人实现了“边思考边行动”的智能闭环。

通用机器人控制面临的核心挑战相当直白：模型不能仅满足于理解当前画面，必须能准确预判接下来几帧的变化。如果一个系统无法内化“推倒杯子会导致水洒”这种常识性物理关系，那么在复杂环境中进行长程规划时，错误会层出不穷。然而，构建稳健的物理推理与预测能力，长期以来一直是瓶颈。特别是在长程任务、高精度操作以及柔性物体处理等场景下，机器人往往表现得笨拙迟缓，难以适应动态变化的环境。

当前主流的视觉-语言-动作（VLA）模型，通常直接将视觉观测映射为动作，或依赖单帧、短时间窗口的预测。但这种端到端范式缺少显式的物理过程建模，模型容易陷入“轨迹记忆”陷阱而不自知。更棘手的是，许多方法将任务简化为马尔可夫过程，丢弃历史信息，导致在部分可观测和长程任务中歧义频发。此外，现有视频生成模型常采用破坏因果关系的双向注意力机制，推理延迟较高，难以满足机器人高频控制的需求。

针对这些痛点，来自蚂蚁灵波科技、香港科技大学等机构的研究团队提出了 LingBot-VA——一种全新的自回归视频-动作世界模型。其核心逻辑在于：将视频动态预测与动作推理统一起来，直接把物理世界的因果结构嵌入机器人控制中。与直接学习动作分布不同，该模型先预测视觉世界的演变方式，再基于这些预测结果推导出具体动作。这种解耦设计的好处显而易见：可以利用大规模视频数据学习物理先验，仅需少量机器人演示数据即可将这些先验转化为可执行的动作。

论文链接：https://arxiv.org/abs/2601.21998
项目主页：https://technology.robbyant.com/lingbot-va

LingBot-VA：视频与动作的联合自回归生成

LingBot-VA 的精髓在于，它将视频与动作标记交错排列成一条单一的因果序列，通过自回归方式联合建模环境动态与机器人动作。为弥合现有方法与真实世界复杂性之间的差距，研究团队在设计之初就将“真实模拟并预测物理世界的完整交互流程”作为核心目标。

交错式自回归生成：采用创新的混合 Transformer（Mixture-of-Transformers, MoT）架构。视频流与动作流被解耦但交错处理，特定模态的专家在严格的因果掩码下运作——高容量视频专家根据观测-动作历史预测未来视觉状态，轻量级动作专家则推断与这些预测一致的动作。这种非对称设计既能捕捉复杂的场景过渡，又能保持极低的单步动作解码成本。
持久且高效的历史整合：与固定长度窗口方法不同，LingBot-VA 的因果公式允许每次预测都基于完整的过去观测-动作流。推理时，模型只将真实观测结果输入到 KV 缓存中，从而把策略锚定在实际的交互历史里。KV 缓存大幅分摊了长序列生成的计算成本，赋予了模型强大的时间记忆能力。
噪声潜在增强实现快速推理：视频去噪是推理时的主要计算瓶颈。研究团队敏锐发现，机器人控制真正需要的是高级语义结构，而非像素级完美细节。因此，他们在训练中引入了噪声潜在增强策略，允许动作专家直接从部分去噪的视频潜在表示中解码动作。部署时，模型可提前截断视频去噪过程，在保持动作精度的同时大幅提升推理速度。

LingBot-VA 的实现遵循一套严谨流程，确保高质量与可靠性：

1、统一架构设计：采用基于视频生成预训练模型初始化的视频流与较小动作流组成的双流 MoT 架构。
2、状态编码与对齐：使用因果视频 VAE 将原始视觉观测压缩为紧凑的潜在标记，并通过 MLP 将动作向量投影到相同维度，实现跨模态的统一交错。
3、两阶段预测机制：第一阶段（视觉动态预测）学习给定历史预测未来视觉观测；第二阶段（逆动力学）从期望的视觉过渡中解码出具体动作。
4、高效训练策略：采用教师强制与流匹配技术，在单一前向传递中并行优化视频和动作组件。

实验验证与模型性能：

50条数据解锁真实世界操控

研究团队在真实物理平台及多个仿真基准上对 LingBot-VA 进行了全面评估。

在真实世界部署中，LingBot-VA 执行了三类极具挑战性的任务：长程任务（如做早餐、拆快递）、高精度任务（如插入管子、捡螺丝）以及柔性物体操作（如叠衣服、叠裤子）。令人瞩目的是，每个任务仅使用 50 个真实世界演示数据进行微调。

实验结果表明，LingBot-VA 在全部六项任务的成功率和进度得分上均刷新了 SOTA 纪录，显著超越了强基线模型 π0.5 和 Genie-Envisioner。特别是在长程任务上的卓越表现，充分验证了其强大的时间记忆能力；在柔性物体上的稳健表现，则凸显了视频生成作为隐式引导预测物体动态的巨大价值。

在 RoboTwin 2.0 这一包含 50 个任务的双臂操控基准测试中，LingBot-VA 同样展现了统治力。在 Easy 设置下，其平均成功率达到 92.0%；在更具挑战性的 Hard 设置下，成功率仍高达 91.1%。随着任务复杂度的增加，LingBot-VA 的优势愈发明显，其自回归机制有效维持了长程时间记忆，确保了多步推理的连贯性。

此外，在 LIBERO 基准的四个任务套件（Spatial, Object, Goal, Long）中，LingBot-VA 平均成功率达到 98.5%。

消融实验进一步证实了核心设计的必要性：移除视频预测模块会导致成功率从 92.93% 断崖式下跌至 48.31%；而放弃因果公式采用双向注意力，也会使性能显著下降至 81.46%。

LingBot-VA 不仅性能强大，而且极其高效。在低数据量（仅 10 个演示）条件下，它依然稳定超越基线模型，展现出惊人的样本效率。在推理延迟方面，得益于噪声潜在增强策略，在单张 RTX 5880 Ada GPU 上，每次闭环控制步骤仅需约 0.5 秒，实现了约 2Hz 的有效控制频率，完全满足真实世界部署需求。

总结与未来展望

研究团队提出的 LingBot-VA 为通用机器人控制中的物理推理与长程规划问题提供了一套全新且高效的解决方案。通过将视频动态预测与动作推理统一在自回归扩散框架下，LingBot-VA 不仅在理论上实现创新，更通过充分实验证明了其卓越性能与数据效率。它成功将生成式世界模型的强大预测能力引入机器人具身操作，向实现机器人“边思考边行动”迈出了坚实一步。

未来，研究团队计划探索更高效的视频压缩方案以进一步降低计算开销，并尝试融入触觉、力觉、音频等多模态传感器输入，以应对具有复杂接触动力学的更广泛应用场景。LingBot-VA 的出现，无疑为具身智能与通用机器人的发展注入了强劲新动力。

自回归因果世界模型突破：蚂蚁灵波用50条数据解锁通用机器人操控

LingBot-VA：视频与动作的联合自回归生成

实验验证与模型性能：

50条数据解锁真实世界操控

总结与未来展望

相关阅读

最新教程

最新资讯