2026机器人模型R1权威测评：物理推理能力深度解析与排行榜单

2026-05-11阅读 0热度 0

LIBERO

要让机器人真正在物理世界中自主作业，仅仅执行预设动作是远远不够的。由至简动力、北京大学和香港中文大学联合研发的LaST-R1项目，正致力于为机器人注入“先思考后行动”的认知能力。这项研究在机器人操作领域取得了突破性进展：仅需1条轨迹进行预热强化学习，就在LIBERO基准测试中实现了99.9%的平均成功率；在真实机器人任务中，成功率更是从52.5%跃升至93.75%，全面超越了现有技术方案。

这一成就的核心，在于为具身大模型的强化学习后训练开辟了新路径：优化目标不再局限于动作的精准度，而是提升机器人对物理因果关系的理解能力。当环境反馈能够持续优化其内在的推理过程时，机器人便超越了单纯模仿演示数据的阶段，开始在交互中构建自己的“物理直觉”。这标志着具身智能正从“动作模仿”向“因果推理”演进，是迈向实用化、走出实验室的关键技术突破。

从“模仿轨迹”到“理解物理”

以“拉开拉链”这一简单指令为例。现有许多模型能够执行伸手动作，但它是否真正理解了“拉链必须沿袋口轨迹运动”这一物理约束？

近年来，OpenVLA、π0等具身模型已成功整合视觉、语言与动作模块。然而，一个根本性挑战日益凸显：模仿能力不等于适应能力。机器人往往学会的是“看起来像在拉拉链”的轨迹模式，而非“拉链如何运动”的物理规律。一旦袋子的位置、拉链角度或光照条件发生变化，动作就可能失效——因为变化的是物体间的物理关系，而非像素排列。

多数现有模型采用“观测→动作”的端到端管道。机器人缺失的关键环节，正是行动前的“物理推理”步骤。LaST-R1的设计目标，正是填补这一认知空白，让机器人在物理环境中实现“先推理，后执行”的闭环。

LaST-R1：强化“推理”与“动作”

LaST-R1的核心设计理念清晰而深刻：不仅要优化机器人的“执行器”如何操作，更要优化其“决策系统”如何进行物理推理。

具体而言，模型在生成动作指令前，会在一个连续的隐空间中进行“隐空间思维链”推演。这个过程建模场景结构、物体关系并预测未来物理动态，随后基于推理结果生成动作序列。相较于语言思维链，这种隐式推理更适合机器人操作，因为接触力、摩擦系数、位姿变换等物理信息难以用语言精确描述，却能在连续隐空间中得到高效表征。

更具创新性的是其提出的LAPO优化框架。传统具身模型的强化学习主要优化动作空间：成功则强化对应动作。LAPO则让环境奖励同时优化两个维度：动作本身，以及生成该动作前的隐空间物理推理。这意味着，一条成功的轨迹不仅会强化“有效动作”，也会强化催生该动作的“正确推理”；反之，失败则会引导模型调整其内部的物理理解模型。

此外，LaST-R1引入了“自适应隐空间思维链”机制。简单任务分配较少推理资源，复杂接触操作则进行深度思考，使机器人能够自主分配“认知预算”。

实验数据充分验证了这一架构的有效性。在LIBERO基准测试中，LaST-R1仅用1条轨迹预热，通过在线强化学习后训练即达到99.9%的平均成功率。在真实机器人任务中，仅用30条轨迹预热便将平均成功率从52.5%提升至93.75%，性能甚至超越了使用100条专家轨迹训练的π0.5模型。更重要的是，在面对未见物体、变化背景和光照干扰时，LaST-R1的性能衰减更小，这表明它习得的不是特定的轨迹记忆，而是更具泛化能力的空间语义与物理动态理解。

技术框架：推理、优化与自适应

LaST-R1的整体框架可归纳为三个紧密耦合的技术阶段。

第一阶段：先推理，后行动

给定当前视觉观测和语言指令，LaST-R1不会直接输出动作。它首先生成一段“隐空间物理思考”嵌入序列，用于建模物体关系、预测未来状态和操作动态。随后，模型基于这些推理结果并行生成动作令牌。这一设计确保动作生成建立在物理理解的基础之上。

第二阶段：LAPO——联合优化推理与动作

这是LaST-R1的核心算法创新。传统方法主要优化动作空间，而LAPO将隐空间推理也纳入强化学习的目标函数，使环境奖励同时塑造“推理过程”与“执行动作”。

其关键技术在于“隐空间层级比率替代”方法，确保成功轨迹能同时强化对应的动作序列及其背后的推理过程。最终，通过裁剪目标函数将隐空间推理和动作生成的优化统一起来。这意味着，LaST-R1的后训练不仅在优化机器人的动作结果，更在持续优化其行动前的物理推理质量。

第三阶段：自适应的思考长度

不同操作任务所需的认知深度不同。LaST-R1通过特殊的结束标识符令牌，使模型能够动态决定何时停止推理并开始生成动作。为优化这一自适应机制，训练目标中加入了相应的损失函数。这使得机器人能够根据任务复杂度，自主决策是快速执行还是深度推演。

实验结果：仿真、真机与泛化能力

仿真实验：接近完美的成功率

在LIBERO基准的四个任务套件评估中，LaST-R1在仅有一次演示热启动后，通过在线强化学习，分别取得了99.8%、100.0%、100.0%和99.8%的成功率，平均高达99.9%。相比仅优化动作空间的基础方法，LaST-R1收敛速度更快、最终性能更高，这表明隐空间推理与动作生成的联合优化，为处理复杂长程操作任务提供了更稳定的“认知缓冲区”。

真机实验：数据效率的飞跃

在包含高精度插入、双臂协同等复杂物理交互的真实机器人任务上，LaST-R1仅用30条轨迹预热，再经强化学习优化，就将平均成功率从52.5%提升至93.75%，显著优于使用100条专家轨迹训练的SOTA模型。这证明其技术优势不仅能体现在仿真环境中，更能迁移到充满不确定性的真实物理世界，形成更鲁棒的执行策略。

泛化实验：应对未知变化的稳健性

在分布外泛化测试中，仅优化动作的方法容易陷入性能停滞，而LaST-R1则能持续提升，说明其隐空间推理帮助模型学到了更本质、可迁移的物理动态规律。

面对真实世界中未见过的物体、变化的背景和光照条件，LaST-R1的性能下降幅度远小于基线模型。这强有力地表明，它并非简单地记忆训练轨迹，而是构建了更为鲁棒的物理推理与动作生成能力。

结语：迈向“会思考”的具身智能

LaST-R1的价值，远不止于性能指标的提升。它真正重要的是确立了一种新范式：强化学习不应仅优化机器人的“执行末端”，更应优化驱动这些动作的“认知核心”——即动作背后的物理推理过程。

过去，我们主要评估机器人“能否做出正确动作”。现在，LaST-R1促使我们深入探究：机器人“能否在行动前进行正确的物理思考”？通过LAPO框架，环境奖励得以直接塑造其隐空间推理；通过自适应机制，机器人学会了为不同任务分配恰当的“认知资源”。这意味着，机器人开始从被动的数据复现者，转变为能在交互中持续积累物理直觉的主动学习者。

从这个视角看，LaST-R1推动具身大模型的强化学习，从“感知-动作”的反射模式，演进为“推理-决策-执行”的认知模式。当机器人学会在隐空间中“深思熟虑”，它距离真正自主、灵活地理解与改造物理世界，无疑迈出了更具决定性的一步。