实测第一的卧安OneModel 1.7：用隐式通路实现从看懂到做对

2026-05-21阅读 0热度 0

LIBERO

2026年，世界动作模型（WAM）正成为具身智能领域的关键技术前沿，吸引了英伟达等科技巨头的深度投入。这类模型的核心使命，是解决两大根本问题：从海量交互数据中学习现实世界的物理规律，并掌握机器人用以干预和改变这些规律的动作技能。然而，一个核心的技术鸿沟始终存在——当世界模型能够“看懂”环境状态，机器人的动作策略却依然无法精准“做对”，两者之间的传导断层如何弥合？

近期，卧安机器人（OneRobotics，6600.HK）发布的 OneModel 1.7 FrontoStria-RL 模型，为解决这一难题提供了创新思路。该模型在权威的LIBERO基准测试中取得了99%的平均成功率，超越了包括π0.5、GR00T-N1.5、OpenVLA-OFT在内的主流公开模型。其真机实测表现更为突出：日常操作成功率99%，高精度任务97%，甚至在真人对打乒乓球的极限动态场景下，接球成功率也达到了91.2%。这组数据的背后，关键并非参数量的堆砌，而是一条连接世界理解与动作执行的隐式传导通路——Predictive Policy Latent，以及一套驱动该通路持续优化的RL闭环机制。

^{图 1：标准 LIBERO 平均成功率对比。One Model 1.7 以 99% 领先于 π0.5、GR00T-N1.5、OpenVLA-OFT 等主流公开模型。}

一、厨房里的困境：为何机器人“看懂了却做不对”？

设想一个典型场景：机器人昨天成功将洗净的碗碟放回橱柜。今天，你移动了碗架位置，并改变了柜门的开启角度。对人类而言，这种微调几乎无需思考；但对机器人来说，这可能构成一个全新的、从未见过的任务。

这并非孤例。家庭环境是具身智能最具挑战性也最具价值的应用场景：不存在两个完全相同的厨房或客厅，物品布局、光照条件、任务组合时刻变化。机器人不仅需要完成叠衣、端碗、收纳等精细操作，更要在物品陌生、环境多变的情况下，准确理解用户意图并执行合理动作。至于拔插试管、倾倒咖啡豆这类高精度任务，或真人对打乒乓球这类要求实时感知与高速响应的极限场景，对模型的鲁棒性提出了更高要求。

这一技术困境，源于当前两条主流技术路线的固有瓶颈。

VLA（视觉-语言-动作）路线采用端到端映射，在训练数据覆盖充分的场景下效率显著。但其泛化能力有限：一旦物体位置、观察视角或光照条件发生变化，动作策略容易失效；面对多阶段复杂任务，也易在中途丢失全局目标。

世界模型（World Model）路线旨在赋予模型预测环境状态与任务演化的能力，理论上具备更强的泛化潜力。但其落地面临核心难题：世界模型“看懂”环境，并不直接等同于动作策略能“做对”。若采用显式的未来预测图像或中间目标坐标来衔接动作模块，会引入生成误差、信息冗余与推理延迟；若缺乏有效传导机制，“环境理解”与“精准执行”之间便存在难以弥合的断层。

OneModel 1.7的核心突破，正是要弥合这道断层。

二、Predictive Policy Latent：打通断层的隐式通路

OneModel 1.7 FrontoStria-RL采用了卧安自研的RL-Latent World Action Model架构（RL-LWAM），其完整信息流如下：

指令 / 观测 / 技能 → 世界模型 → 预测策略隐变量 → 理解专家 → 动作专家 → 机器人执行 → RL / 成功记忆 / 人在环反馈 ↺

^{图 2：One Model 1.7 FrontoStria-RL 完整架构。 Predictive Policy Latent 作为核心传导机制，连接 World Model、Understand Expert 与 Action Expert。}

该架构包含三个核心模块：负责跨场景泛化的世界模型、负责任务理解与技能调度的理解专家，以及负责精准执行的动作专家。而让这三个模块高效协同的关键，是位于核心的Predictive Policy Latent。

“FrontoStria”的命名深意

其灵感来源于神经科学中的“额纹状体通路”——连接大脑前额叶皮层（负责高级决策与规划）与纹状体（负责动作执行）的神经回路。这条通路的核心功能，正是实现高层认知到底层运动控制的高效、准确传导。

OneModel 1.7的Predictive Policy Latent扮演了类似角色：将世界模型对场景的高层理解（类比“前额叶”），以隐式表征方式传导给动作专家以生成动作（类比“运动皮层”）。

Predictive Policy Latent的工作原理

传统方案中，世界模型向动作模块传递信息，通常依赖生成预测图像或输出显式目标坐标。这些方法存在三大弊端：像素冗余（传递无关视觉信息）、生成幻觉（预测图像存在误差）、模块割裂（上下游耦合度低）。

Predictive Policy Latent采用了截然不同的思路。它使用一种面向动作策略的隐式表征来替代显式信号——

训练阶段：模型能够“看到”动作执行后的未来观测结果，借此学习任务后果，形成隐式的物理推理表征。
部署阶段：模型仅依赖当前观测，即可输出等效的决策调制信号。

简言之，这条隐式通路在训练时利用“未来信息”学习优质动作的决策方向，在部署时仅凭当前观测即可做出等效判断。这种方式信息密度更高，推理速度更快，且规避了生成式模型可能引入的噪声。

这正是OneModel 1.7的差异化设计：并非简单拼接VLA与世界模型，而是通过一条隐式通路，真正实现了从世界理解到动作执行的无缝、高效传导。

三、RL闭环 + Retrieve-then-Steer：让通路持续进化

仅建立通路尚不足够。训练完成的模型参数是静态的，面对真实部署中不断涌现的长尾场景——如手部打滑、物体形变、用户临时干预——零样本泛化能力终有边界。

OneModel 1.7的第二个核心设计，是确保这条通路能够持续增强与优化。这也正是模型代号中“RL”的体现。

强化学习闭环

在明确的奖励信号、安全约束及人在环监督下，模型通过真实任务反馈进行策略优化。这使其能够突破模仿学习“仅能复现示范数据”的天花板，自主探索更稳健、更高效的执行路径。

Retrieve-then-Steer：越用越好的成功记忆机制

其背后的关键洞察是：现有评测常将每次测试视为独立零样本试验，但真实环境中的机器人往往在相同或缓慢变化的环境中重复操作——昨天成功清洗的碗碟，今天大概率沿用类似方式。成功的执行本身，就是“经过环境验证的可靠行为模式”。

具体机制如下：

存储：部署过程中，将经过进度校准的成功观测-动作片段存入长期记忆（Success Memory）。
检索：推理时，从记忆中检索与当前状态最相关的成功动作块。
过滤：通过轨迹级一致性检查，过滤不一致的候选动作。
引导：将聚合后的精英动作先验，通过置信度自适应的先验引导机制，注入到flow-matching动作采样器的中间状态，并根据检索置信度动态调整引导强度。

这意味着OneModel部署后可以“越用越好”——在相对稳定的家庭环境中，机器人每日积累的成功经验将持续提升后续任务的成功率，且该过程是轻量级、非参数的，无需重新训练模型。

^{图 3：SimplerEnv 平均成功率对比。 Retrieve-then-Steer 将 CogACT 的平均成功率从 75.8% 提升至 79.5%，提升 3.7 个百分点。}

RL闭环与Retrieve-then-Steer形成互补：RL解决能力上限问题（突破模仿学习天花板），Retrieve-then-Steer解决部署适应问题（无需重训即可自适应）。两者协同，使Predictive Policy Latent这条传导通路从“一次性连通”升级为“持续增强”。

四、支撑通路的两个关键模块

Predictive Policy Latent这条主通路的高效运转，依赖两个支撑模块在中段与末端解决特定问题。

理解专家 + 技能：通路中段的任务规划器

真实操作任务常包含明确的阶段划分与子目标依赖：叠衣服需先展平、再对折、最后整理；操作洗碗机需识别碗碟类型、选择摆放位置、确认关门。这些结构化规程，既不属于世界模型的环境建模，也不属于动作专家的底层生成，而是连接高层理解与底层执行的中间规划层。

理解专家在架构中正承担此角色：接收Predictive Policy Latent的调制信号，对任务进行结构化分解——识别阶段、确定子目标依赖关系、调度对应的技能序列。这使得模型在面对新任务组合时可灵活复用已有技能，在执行长流程任务时不会丢失阶段目标。

MCF-Proto：通路末端的动作鲁棒性保障

当前，主流VLA模型的骨干网络、预训练方式与数据集快速演进，但其动作头设计却近乎同质化——大多直接在固定世界坐标系下预测动作命令。这种方式对相机视角变化与机器人初始位姿偏差极为敏感。

MCF-Proto提供了不同解法：围绕任务相关的局部运动结构——如门轴、滑轨、孔位、折叠线——建立“运动中心坐标系”。模型每一步预测一个旋转，在变换后的局部坐标系中，使用一组可学习的动作原型进行组合，再映射回世界坐标系进行端到端训练。

一个关键发现是：即使没有显式方向标签，模型学习到的局部坐标系也会自发形成稳定几何结构，其坐标轴与示教数据中末端执行器的运动方向高度一致。这使得动作表征更紧凑，由更少的主方向捕获变化，并由共享原型更规则地组织。

在LIBERO-plus扰动测试中，MCF-Proto在七类扰动中有六类取得最优结果。其中最显著的是两类几何扰动——在“相机视角变化”扰动下，领先最强基线3.3个百分点（69.7% vs. 66.4%）；在“机器人初始位姿偏差”扰动下，领先优势达15.7个百分点（66.0% vs. 50.3%）。这两类恰恰是家庭环境中最常见、最影响动作执行稳定性的变化因素。

^{图 4：LIBERO-plus 七类扰动鲁棒性对比。 MCF-Proto 在 Camera 和 Robot 两类几何扰动下优势最为显著。}

^{图 5：One Model 1.7 FrontoStria-RL 四大核心技术模块总览。}

五、OneModel 1.7与主流具身智能模型对比

为清晰界定OneModel 1.7在当前技术格局中的位置，我们将其与主流具身智能模型进行架构层面对比：

OneModel 1.7的两大独特之处在对比中尤为突出：

1. 唯一的隐式传导通道。从“规划/中间表征”维度看，π0.5和GR00T N1.7缺乏显式规划表征；π0.7通过未来图像或子目标图像承载世界模型输出，DreamZero则进一步生成未来视频。OneModel 1.7选择了不同路径：通过Predictive Policy Latent，将世界模型的高层理解以隐式表征直接传导至动作策略，不生成任何中间图像或视频，实现了世界理解到动作执行之间的低冗余、高效率连通。

2. 唯一的强化学习闭环。从“强化学习闭环”维度看，π0.5、GR00T N1.7、π0.7和DreamZero的核心范式均不依赖部署后的强化学习闭环。OneModel 1.7的定位不同：它将隐式世界动作模型与强化学习结合，使机器人在日常使用中持续积累成功经验，并通过Retrieve-then-Steer机制，在不更新模型参数的情况下持续提升后续任务成功率。

六、真机验证：从叠衣服到打乒乓球

基准测试成绩仅是开端。OneModel 1.7在真实机器人平台上，成功覆盖了三类难度梯度的任务。

日常操作：平均成功率99%

洗衣服、叠衣服、操作洗碗机、从传送带拿取物品——这些任务涉及柔性物体操作、多阶段流程与环境多样性，要求模型在泛化理解与稳定执行间取得精妙平衡。

高精度操作：平均成功率97%

拔插试管、叠放纸杯、倾倒咖啡豆——这类任务容错空间极小，对末端位置精度、姿态控制与力控稳定性要求极高。MCF-Proto围绕局部运动结构组织动作原型的设计，在此类任务中优势显著。

极限动态：乒乓球接球成功率91.2%

真人对打乒乓球对实时感知、轨迹预测与高速动作生成提出极限要求，是“高动态+高精度”的典型场景。世界模型提供对来球轨迹的快速预测，动作专家在极短时间窗口内生成精准击球动作，RL闭环则通过大量对打训练持续优化击球策略。

^{图 6：日常操作与高精度任务真机验证成功率。}

^{图 7：真人对打乒乓球动作阶段成功率。接球成功率达到 91.2%。}

总结

OneModel 1.7 FrontoStria-RL所回应的，是具身智能从实验室走向真实部署时面临的一系列系统性问题——世界模型的理解如何有效传导至动作执行、复杂任务如何被结构化分解、动作表达如何对环境扰动保持鲁棒、以及模型如何在部署后持续进化。

它给出的答案是：用Predictive Policy Latent建立一条隐式通路，让世界理解真正驱动动作策略；用理解专家与技能体系为长程任务提供结构化规划；用MCF-Proto确保动作表达对几何扰动保持稳定；用RL闭环和Retrieve-then-Steer让整个系统越用越好。

家庭机器人要真正融入日常生活，依赖的并非更大的参数规模，也不是特定场景下的偶然成功演示，而是一套能够系统性处理泛化、执行与持续更新这三重挑战的模型体系。

OneModel 1.7 FrontoStria-RL是卧安在这一方向上的重要阶段性成果。对卧安而言，模型发布并非孤立的技术事件，而是与其家庭机器人本体、真实场景数据采集和服务部署体系共同构成了一个完整的技术闭环。随着卧安机器人围绕真实家庭与服务场景持续推进OneModel模型的迭代，可以预见，在不远的将来，机器人将从“能看懂、能行动”，进一步迈向“能适应、能进化、能持久可靠地工作”。

论文链接：https://arxiv.org/abs/2605.11809
论文链接：https://arxiv.org/abs/2605.10094
官网详情：https://www.onerobot.com/OneModel