蚂蚁灵波LingBot-VA论文入选RSS 2026：机器人推演与行动融合新范式

2026-05-27阅读 0热度 0

机器人

蚂蚁灵波科技与香港科技大学等机构合作的论文《Causal World Modeling for Robot Control》已被国际机器人顶级会议Robotics: Science and Systems (RSS) 2026正式接收。

RSS以其在机器人学习、控制与感知领域的权威性著称，录用门槛极高。论文入选不仅标志着其学术创新性获得认可，也代表了国际同行对该研究方向的肯定。

这项研究致力于解决机器人控制的一个根本问题：如何让机器人在行动前，具备对世界状态变化的预测能力。团队为此构建了一个面向机器人控制的因果世界建模框架，并据此发布了全球首个开源的自回归视频-动作世界模型——LingBot-VA。该模型的核心在于，使机器人能够在任务执行过程中，持续预测环境演变，并基于预测生成后续动作指令，从而实现观察、判断与行动的闭环协同。

对蚂蚁灵波科技而言，论文入选RSS 2026是对其“世界模型驱动机器人控制”技术路线的有力验证。这进一步确认了LingBot-VA作为具身智能基础模型的技术潜力。从长远看，该路径有望推动机器人从依赖精确编程的执行器，向具备环境理解、任务泛化与自主决策能力的智能体演进。

机器人技术的深层挑战，往往在于对动作后果的推理。例如，拿起杯子会腾空桌面区域，推开抽屉会改变内部物品的布局。LingBot-VA的关键进展，正是将这种对未来状态的因果预测能力整合进了控制回路。它使机器人能够先模拟推演世界状态的变化，再依据推演结果规划当前动作。

这也凸显了论文中“因果”建模的重要性。真实世界遵循严格的时间因果律，因此机器人的预测必须沿时间序贯展开。LingBot-VA将这种因果关系内置于模型架构，确保每一步预测都严格依赖于先前的观察与动作，从而生成连贯的因果轨迹。这种设计不仅提供了决策依据，也增强了模型的长期记忆能力，这对于步骤复杂、耗时较长的实体任务至关重要。

在模型架构上，LingBot-VA采用了混合专家Transformer（MoT）设计，将视频预测与动作生成统一在一个自回归扩散框架内。此外，模型引入了闭环推演机制，能在任务执行中持续融合真实环境反馈，有效抑制长时预测中的误差累积。

为全面评估性能，研究团队在仿真基准与真实机器人任务上进行了系统测试。在RoboTwin 2.0的50个双臂操作任务中，LingBot-VA在Easy和Hard设置下的平均成功率分别达到92.0%和91.1%；在LIBERO基准上的成功率为98.5%。

在更复杂的真实世界评测中，面对长时序、高精度及柔性与关节物体操控三大类共6项高难度任务，LingBot-VA仅需50条真实示范数据即可完成适配。其整体成功率较主流基线方法π0.5提升超过20个百分点，展现出卓越的数据效率与泛化性能。

目前，LingBot-VA的模型权重、训练及推理代码已全面开源。研究人员与开发者可通过Model Scope、Hugging Face及GitHub平台获取相关资源。

论文链接：https://arxiv.org/abs/2601.21998

项目主页：https://technology.robbyant.com/lingbot-va

蚂蚁灵波LingBot-VA论文入选RSS 2026：机器人推演与行动融合新范式

相关阅读

最新教程

最新资讯