2026机器人模型R1权威测评:物理推理能力深度解析与排行榜单
要让机器人真正在物理世界中自主作业,仅仅执行预设动作是远远不够的。由至简动力、北京大学和香港中文大学联合研发的LaST-R1项目,正致力于为机器人注入“先思考后行动”的认知能力。这项研究在机器人操作领域取得了突破性进展:仅需1条轨迹进行预热强化学习,就在LIBERO基准测试中实现了99.9%的平均成功率;在真实机器人任务中,成功率更是从52.5%跃升至93.75%,全面超越了现有技术方案。
这一成就的核心,在于为具身大模型的强化学习后训练开辟了新路径:优化目标不再局限于动作的精准度,而是提升机器人对物理因果关系的理解能力。当环境反馈能够持续优化其内在的推理过程时,机器人便超越了单纯模仿演示数据的阶段,开始在交互中构建自己的“物理直觉”。这标志着具身智能正从“动作模仿”向“因果推理”演进,是迈向实用化、走出实验室的关键技术突破。
从“模仿轨迹”到“理解物理”
以“拉开拉链”这一简单指令为例。现有许多模型能够执行伸手动作,但它是否真正理解了“拉链必须沿袋口轨迹运动”这一物理约束?
近年来,OpenVLA、π0等具身模型已成功整合视觉、语言与动作模块。然而,一个根本性挑战日益凸显:模仿能力不等于适应能力。机器人往往学会的是“看起来像在拉拉链”的轨迹模式,而非“拉链如何运动”的物理规律。一旦袋子的位置、拉链角度或光照条件发生变化,动作就可能失效——因为变化的是物体间的物理关系,而非像素排列。
多数现有模型采用“观测→动作”的端到端管道。机器人缺失的关键环节,正是行动前的“物理推理”步骤。LaST-R1的设计目标,正是填补这一认知空白,让机器人在物理环境中实现“先推理,后执行”的闭环。
LaST-R1:强化“推理”与“动作”
LaST-R1的核心设计理念清晰而深刻:不仅要优化机器人的“执行器”如何操作,更要优化其“决策系统”如何进行物理推理。
具体而言,模型在生成动作指令前,会在一个连续的隐空间中进行“隐空间思维链”推演。这个过程建模场景结构、物体关系并预测未来物理动态,随后基于推理结果生成动作序列。相较于语言思维链,这种隐式推理更适合机器人操作,因为接触力、摩擦系数、位姿变换等物理信息难以用语言精确描述,却能在连续隐空间中得到高效表征。
更具创新性的是其提出的LAPO优化框架。传统具身模型的强化学习主要优化动作空间:成功则强化对应动作。LAPO则让环境奖励同时优化两个维度:动作本身,以及生成该动作前的隐空间物理推理。这意味着,一条成功的轨迹不仅会强化“有效动作”,也会强化催生该动作的“正确推理”;反之,失败则会引导模型调整其内部的物理理解模型。
此外,LaST-R1引入了“自适应隐空间思维链”机制。简单任务分配较少推理资源,复杂接触操作则进行深度思考,使机器人能够自主分配“认知预算”。
实验数据充分验证了这一架构的有效性。在LIBERO基准测试中,LaST-R1仅用1条轨迹预热,通过在线强化学习后训练即达到99.9%的平均成功率。在真实机器人任务中,仅用30条轨迹预热便将平均成功率从52.5%提升至93.75%,性能甚至超越了使用100条专家轨迹训练的π0.5模型。更重要的是,在面对未见物体、变化背景和光照干扰时,LaST-R1的性能衰减更小,这表明它习得的不是特定的轨迹记忆,而是更具泛化能力的空间语义与物理动态理解。
技术框架:推理、优化与自适应
LaST-R1的整体框架可归纳为三个紧密耦合的技术阶段。
第一阶段:先推理,后行动
给定当前视觉观测和语言指令,LaST-R1不会直接输出动作。它首先生成一段“隐空间物理思考”嵌入序列,用于建模物体关系、预测未来状态和操作动态。随后,模型基于这些推理结果并行生成动作令牌。这一设计确保动作生成建立在物理理解的基础之上。
第二阶段:LAPO——联合优化推理与动作
这是LaST-R1的核心算法创新。传统方法主要优化动作空间,而LAPO将隐空间推理也纳入强化学习的目标函数,使环境奖励同时塑造“推理过程”与“执行动作”。
其关键技术在于“隐空间层级比率替代”方法,确保成功轨迹能同时强化对应的动作序列及其背后的推理过程。最终,通过裁剪目标函数将隐空间推理和动作生成的优化统一起来。这意味着,LaST-R1的后训练不仅在优化机器人的动作结果,更在持续优化其行动前的物理推理质量。
第三阶段:自适应的思考长度
不同操作任务所需的认知深度不同。LaST-R1通过特殊的结束标识符令牌,使模型能够动态决定何时停止推理并开始生成动作。为优化这一自适应机制,训练目标中加入了相应的损失函数。这使得机器人能够根据任务复杂度,自主决策是快速执行还是深度推演。
实验结果:仿真、真机与泛化能力
仿真实验:接近完美的成功率
在LIBERO基准的四个任务套件评估中,LaST-R1在仅有一次演示热启动后,通过在线强化学习,分别取得了99.8%、100.0%、100.0%和99.8%的成功率,平均高达99.9%。相比仅优化动作空间的基础方法,LaST-R1收敛速度更快、最终性能更高,这表明隐空间推理与动作生成的联合优化,为处理复杂长程操作任务提供了更稳定的“认知缓冲区”。
真机实验:数据效率的飞跃
在包含高精度插入、双臂协同等复杂物理交互的真实机器人任务上,LaST-R1仅用30条轨迹预热,再经强化学习优化,就将平均成功率从52.5%提升至93.75%,显著优于使用100条专家轨迹训练的SOTA模型。这证明其技术优势不仅能体现在仿真环境中,更能迁移到充满不确定性的真实物理世界,形成更鲁棒的执行策略。
泛化实验:应对未知变化的稳健性
在分布外泛化测试中,仅优化动作的方法容易陷入性能停滞,而LaST-R1则能持续提升,说明其隐空间推理帮助模型学到了更本质、可迁移的物理动态规律。
面对真实世界中未见过的物体、变化的背景和光照条件,LaST-R1的性能下降幅度远小于基线模型。这强有力地表明,它并非简单地记忆训练轨迹,而是构建了更为鲁棒的物理推理与动作生成能力。
结语:迈向“会思考”的具身智能
LaST-R1的价值,远不止于性能指标的提升。它真正重要的是确立了一种新范式:强化学习不应仅优化机器人的“执行末端”,更应优化驱动这些动作的“认知核心”——即动作背后的物理推理过程。
过去,我们主要评估机器人“能否做出正确动作”。现在,LaST-R1促使我们深入探究:机器人“能否在行动前进行正确的物理思考”?通过LAPO框架,环境奖励得以直接塑造其隐空间推理;通过自适应机制,机器人学会了为不同任务分配恰当的“认知资源”。这意味着,机器人开始从被动的数据复现者,转变为能在交互中持续积累物理直觉的主动学习者。
从这个视角看,LaST-R1推动具身大模型的强化学习,从“感知-动作”的反射模式,演进为“推理-决策-执行”的认知模式。当机器人学会在隐空间中“深思熟虑”,它距离真正自主、灵活地理解与改造物理世界,无疑迈出了更具决定性的一步。












