卧安OneModel 1.7深度评测：看懂与做对的隐式通路解析

2026-05-21阅读 0热度 0

Model

2026年，世界动作模型（WAM）已成为具身智能领域的关键战场，吸引了英伟达等科技巨头的深度布局。这类模型的核心挑战在于两个层面：从海量数据中学习物理世界的通用规律，以及生成机器人可直接执行的精确动作。然而，一个根本瓶颈始终存在：即使模型能够准确预测环境变化，其生成的动作策略也常常失效。如何弥合“认知”与“执行”之间的断层，是行业亟待解决的难题。

近期，卧安机器人发布的OneModel 1.7 FrontoStria-RL，为这一断层提供了全新的解决思路。该模型在LIBERO基准测试中取得了99%的平均成功率，超越了π0.5、GR00T-N1.5、OpenVLA-OFT等主流公开模型。其真机表现更为突出：日常操作成功率99%，高精度任务达97%，甚至在真人对打乒乓球的极限动态场景中，接球成功率也达到了91.2%。这一系列成绩的背后，并非依赖简单的模型缩放，而是一条名为Predictive Policy Latent的隐式传导通路，以及一套使其持续进化的强化学习闭环机制。

图 1：标准 LIBERO 平均成功率对比。One Model 1.7 以 99% 领先于 π0.5、GR00T-N1.5、OpenVLA-OFT 等主流公开模型。

一、机器人在你家厨房，为什么总是“看懂了却做不对”？

想象一个典型场景：机器人昨天成功将洗净的碗碟收纳进左侧橱柜。今天，你仅仅将碗架移至右侧，并改变了柜门的开启角度。对人类而言，这几乎不构成障碍，但对机器人来说，这微小的环境变化足以使其任务失败。

这并非孤例。家庭环境是具身智能最具价值也最复杂的应用场域。世界上不存在两个完全相同的厨房或客厅，物品摆放、光照条件、任务组合时刻变化。机器人不仅需要完成叠衣、端碗等精细操作，更需在陌生物品、多变光照和不同户型中，准确理解人类意图并执行合理动作。至于拔插试管、倒咖啡豆这类毫米级精度的任务，或是对抗性乒乓球这类高动态场景，对感知与执行的协同要求则更为苛刻。

当前技术路线主要面临两类瓶颈：

视觉-语言-动作（VLA）模型擅长将视觉和语言指令端到端映射为动作，在数据覆盖充分的场景下效率极高。但其泛化能力脆弱，一旦物体位置、观察视角或光照发生变化，动作策略极易出错，且在多阶段长程任务中容易迷失目标。

世界模型（World Model）路线旨在赋予模型预测环境状态与任务演化的能力，理论上泛化潜力更强。但其落地面临核心障碍：模型“看懂”了世界，却无法保证动作策略“做对”。若用预测的未来图像或显式坐标来衔接动作模块，会引入生成误差、信息冗余与推理延迟；若缺乏有效传导机制，“理解”与“执行”之间便存在难以逾越的鸿沟。

OneModel 1.7的核心突破，正是弥合了这道鸿沟。

二、Predictive Policy Latent：打通断层的隐式通路

OneModel 1.7 FrontoStria-RL采用了卧安自研的RL-Latent World Action Model架构。其完整信息流为：指令、观测与技能输入经世界模型处理后，通过核心的Predictive Policy Latent通路，传递给理解专家与动作专家模块，最终驱动机器人执行，并形成包含强化学习、成功记忆与人在环反馈的闭环。

图 2：One Model 1.7 FrontoStria-RL 完整架构。 Predictive Policy Latent 作为核心传导机制，连接 World Model、Understand Expert 与 Action Expert。

架构包含三个核心模块：负责跨场景泛化的World Model，负责任务理解与技能调度的Understand Expert，以及负责精准执行的Action Expert。而真正实现三者“贯通”的关键，是中间的Predictive Policy Latent。

“FrontoStria”一词源于神经科学中的“额纹状体通路”——连接大脑前额叶（决策规划）与纹状体（动作执行）的关键神经回路。OneModel 1.7中的Predictive Policy Latent正扮演着这一“神经通路”的角色，将世界模型的高层场景理解，以隐式方式精准传导至动作生成模块。

这条隐式通路如何工作？

传统方案通常通过生成预测的未来图像或输出显式目标坐标来传递信息，但这会带来三大代价：信息冗余（传递无关像素）、生成幻觉（预测图像存在误差）以及模块割裂（上下游耦合度低）。

Predictive Policy Latent采用了截然不同的策略：它使用一种面向动作策略的隐式表征，替代了显式的图像或坐标信号。

训练阶段：模型能够访问动作执行后的未来观测结果，借此学习并内化对任务后果的理解，形成隐式的物理推理表征。
部署阶段：模型仅依据当前观测，即可输出能等效调制动作策略的信号，无需任何未来信息。

简言之，该通路在训练时利用“未来信息”学习优质决策方向；在部署时仅凭当前状态即可做出同等质量的判断。这带来了更高的信息密度、更快的推理速度，并完全避免了生成式模型可能引入的噪声。

这正是OneModel 1.7的核心理念：它并非简单拼接VLA与世界模型，而是通过一条精心设计的隐式通路，实现了从世界理解到动作执行的无损、高效传导。

三、RL闭环 + Retrieve-then-Steer：让通路持续进化

仅打通通路并不足够。模型训练完成后参数固定，面对真实部署中无穷的长尾场景——如物体意外位移、非刚性物体形变、用户临时干预等——其零样本泛化能力终有极限。

因此，OneModel 1.7的第二个核心设计是让这条通路能够持续增强，这也是其代号中“RL”的含义。

强化学习闭环：在明确的奖励信号、安全约束及人在环监督下，模型通过真实任务反馈进行策略优化。这使其能够突破模仿学习“仅能复现示范数据”的天花板，自主探索更稳健、更高效的执行路径。

Retrieve-then-Steer：越用越好的成功记忆：其关键洞察在于，真实环境中的机器人通常在相对稳定或缓慢变化的环境中重复工作。昨日的成功经验，对今日的任务极具参考价值。成功的执行本身就是一种“经过环境验证的可靠行为模式”。

具体机制如下：

存储：部署过程中，将经过进度校准的成功“观测-动作”片段存入长期记忆库。
检索：推理时，从记忆库中检索与当前状态最相关的成功动作块。
过滤与引导：通过轨迹级一致性过滤不匹配的候选，并将聚合后的精英动作先验，以置信度自适应的方式注入动作采样器的中间状态，从而引导当前策略。

这意味着OneModel在部署后可以“越用越好”。在环境相对固定的家庭中，机器人每日积累的成功经验将持续提升后续任务的成功率，且这一过程是轻量级、非参数的，无需重新训练整个模型。

图 3：SimplerEnv 平均成功率对比。 Retrieve-then-Steer 将 CogACT 的平均成功率从 75.8% 提升至 79.5%，提升 3.7 个百分点。

RL闭环与Retrieve-then-Steer互为补充：RL解决能力上限问题，帮助模型突破模仿学习瓶颈；Retrieve-then-Steer解决部署适应问题，让模型无需重训即可快速自适应新情况。两者协同，使得Predictive Policy Latent这条传导通路从“一次性连通”升级为“持续增强”。

四、支撑通路的两个关键模块

Predictive Policy Latent主通路的顺畅运行，依赖两个关键模块在其“中段”和“末端”解决特定问题。

Understand Expert + Skill：通路中段的任务规划师

真实世界的操作任务往往具有清晰的结构化阶段和子目标依赖。例如，叠衣服需先展平、再对折、最后整理；操作洗碗机需识别碗碟类型、选择摆放位置、确认关门。这些结构化的操作规程，介于World Model的环境建模与Action Expert的底层动作之间，属于关键的“中间层”。

Understand Expert正是为此设计。它接收来自Predictive Policy Latent的调制信号，对任务进行结构化分解——识别当前阶段、确定子目标依赖关系、并调度对应的技能序列。这使得模型在面对新任务组合时能灵活复用已有技能，在执行长流程任务时也不会丢失阶段目标。

MCF-Proto：通路末端的动作稳定器

当前，众多VLA模型的骨干网络、预训练方法和数据集飞速演进，但其动作输出头却高度同质化——大多在固定的世界坐标系下直接预测动作命令。这种方式对相机视角变化和机器人初始位姿偏差极为敏感。

一个关键发现是，无需任何显式的方向标签，模型学习到的局部坐标系会自发形成稳定的几何结构，其坐标轴与示教数据中末端执行器的运动方向高度一致。同时，动作表征变得更加紧凑，由更少的主方向捕获变化，并由共享的原型更规则地组织起来。

在LIBERO-plus的七类扰动测试中，MCF-Proto在其中六类取得了最优结果。尤其在两类几何扰动上表现突出：在“相机视角变化”上领先最强基线3.3个百分点；在“机器人初始位姿偏差”上，领先优势达15.7个百分点。这两类扰动正是家庭环境中最常见、最影响动作稳定性的因素。

图 4：LIBERO-plus 七类扰动鲁棒性对比。 MCF-Proto 在 Camera 和 Robot 两类几何扰动下优势最为显著。

图 5：One Model 1.7 FrontoStria-RL 四大核心技术模块总览。

五、OneModel 1.7与主流具身智能模型对比

为清晰定位OneModel 1.7在当前技术格局中的位置，可将其与主流具身智能模型进行架构层面的对比。

对比揭示了OneModel 1.7的两大独特之处：

唯一的隐式传导通道：在“规划/中间表征”维度，π0.5和GR00T N1.7没有显式规划表征；π0.7通过未来图像或子目标图像承载世界模型输出；DreamZero则生成未来视频。OneModel 1.7选择了不同路径：通过Predictive Policy Latent，将世界模型的高层理解以隐式表征直接传导给动作策略，不生成任何中间图像或视频，实现了世界理解到动作执行之间的低冗余、高效率连通。
唯一的强化学习闭环：在“强化学习闭环”维度，π0.5、GR00T N1.7、π0.7和DreamZero的核心范式均不依赖部署后的强化学习闭环。OneModel 1.7的定位不同，它将隐式世界动作模型与强化学习结合，使机器人在日常使用中不断积累成功经验，并通过Retrieve-then-Steer机制，在不更新模型参数的前提下持续提升后续任务成功率。

六、真机验证：从叠衣服到打乒乓球

基准测试成绩仅是开始。OneModel 1.7在真实机器人平台上，成功覆盖了三个难度梯度的任务。

日常操作：平均成功率99%
洗衣服、叠衣服、操作洗碗机、从传送带上拿取物品——这些任务涉及柔性物体操作、多阶段流程和环境多样性，要求模型在泛化理解与稳定执行之间取得精妙平衡。

高精度操作：平均成功率97%
拔插试管、叠纸杯、倒咖啡豆——这类任务容错空间极小，对末端位置精度、姿态控制和力控稳定性要求极高。MCF-Proto围绕局部运动结构组织动作原型的设计，在此类任务中展现出显著优势。

极限动态：乒乓球接球成功率91.2%
真人对打乒乓球对实时感知、轨迹预测和高速动作生成提出了极限要求，是“高动态+高精度”的典型代表。在此场景中，World Model快速预测来球轨迹，Action Expert在极短时间窗口内生成精准击球动作，而RL闭环则通过大量对打训练持续优化击球策略。

图 6：日常操作与高精度任务真机验证成功率。

图 7：真人对打乒乓球动作阶段成功率。接球成功率达到 91.2%。

总结

OneModel 1.7 FrontoStria-RL所回应的，是具身智能从实验室走向真实部署时面临的一系列系统性问题：世界模型的理解如何有效传导至动作执行？复杂任务如何被结构化分解？动作策略如何对环境扰动保持鲁棒？模型又如何在部署后持续进化？

它给出的答案是一个系统性的技术方案：用Predictive Policy Latent建立隐式通路，让世界理解真正驱动动作策略；用Understand Expert + Skill体系为长程任务提供结构化规划；用MCF-Proto让动作表达对几何扰动保持稳定；最后，用RL闭环和Retrieve-then-Steer机制，让整个系统能够越用越好。

家庭机器人要真正融入日常生活，依赖的并非更大的参数规模，也不是特定场景下的偶然成功演示。它需要的是一套能同时处理泛化理解、精准执行和持续自适应更新这三重挑战的完整模型系统。OneModel 1.7 FrontoStria-RL正是卧安机器人朝着这个方向迈出的关键一步。随着卧安围绕真实家庭与服务场景持续推进模型迭代，机器人有望从当前的“能看懂、能行动”，进一步走向“能适应、能进化、能持久可靠地工作”。