蚂蚁灵波LingBot-VA论文入选RSS 2026:机器人推演与行动融合新范式
蚂蚁灵波科技与香港科技大学等机构合作的论文《Causal World Modeling for Robot Control》已被国际机器人顶级会议Robotics: Science and Systems (RSS) 2026正式接收。
RSS以其在机器人学习、控制与感知领域的权威性著称,录用门槛极高。论文入选不仅标志着其学术创新性获得认可,也代表了国际同行对该研究方向的肯定。
这项研究致力于解决机器人控制的一个根本问题:如何让机器人在行动前,具备对世界状态变化的预测能力。团队为此构建了一个面向机器人控制的因果世界建模框架,并据此发布了全球首个开源的自回归视频-动作世界模型——LingBot-VA。该模型的核心在于,使机器人能够在任务执行过程中,持续预测环境演变,并基于预测生成后续动作指令,从而实现观察、判断与行动的闭环协同。
对蚂蚁灵波科技而言,论文入选RSS 2026是对其“世界模型驱动机器人控制”技术路线的有力验证。这进一步确认了LingBot-VA作为具身智能基础模型的技术潜力。从长远看,该路径有望推动机器人从依赖精确编程的执行器,向具备环境理解、任务泛化与自主决策能力的智能体演进。
机器人技术的深层挑战,往往在于对动作后果的推理。例如,拿起杯子会腾空桌面区域,推开抽屉会改变内部物品的布局。LingBot-VA的关键进展,正是将这种对未来状态的因果预测能力整合进了控制回路。它使机器人能够先模拟推演世界状态的变化,再依据推演结果规划当前动作。
这也凸显了论文中“因果”建模的重要性。真实世界遵循严格的时间因果律,因此机器人的预测必须沿时间序贯展开。LingBot-VA将这种因果关系内置于模型架构,确保每一步预测都严格依赖于先前的观察与动作,从而生成连贯的因果轨迹。这种设计不仅提供了决策依据,也增强了模型的长期记忆能力,这对于步骤复杂、耗时较长的实体任务至关重要。
在模型架构上,LingBot-VA采用了混合专家Transformer(MoT)设计,将视频预测与动作生成统一在一个自回归扩散框架内。此外,模型引入了闭环推演机制,能在任务执行中持续融合真实环境反馈,有效抑制长时预测中的误差累积。
为全面评估性能,研究团队在仿真基准与真实机器人任务上进行了系统测试。在RoboTwin 2.0的50个双臂操作任务中,LingBot-VA在Easy和Hard设置下的平均成功率分别达到92.0%和91.1%;在LIBERO基准上的成功率为98.5%。
在更复杂的真实世界评测中,面对长时序、高精度及柔性与关节物体操控三大类共6项高难度任务,LingBot-VA仅需50条真实示范数据即可完成适配。其整体成功率较主流基线方法π0.5提升超过20个百分点,展现出卓越的数据效率与泛化性能。
目前,LingBot-VA的模型权重、训练及推理代码已全面开源。研究人员与开发者可通过Model Scope、Hugging Face及GitHub平台获取相关资源。
论文链接:https://arxiv.org/abs/2601.21998
项目主页:https://technology.robbyant.com/lingbot-va
