实测第一的卧安OneModel 1.7:用隐式通路实现从看懂到做对

2026-05-21阅读 0热度 0
LIBERO

2026年,世界动作模型(WAM)正成为具身智能领域的关键技术前沿,吸引了英伟达等科技巨头的深度投入。这类模型的核心使命,是解决两大根本问题:从海量交互数据中学习现实世界的物理规律,并掌握机器人用以干预和改变这些规律的动作技能。然而,一个核心的技术鸿沟始终存在——当世界模型能够“看懂”环境状态,机器人的动作策略却依然无法精准“做对”,两者之间的传导断层如何弥合?

LIBERO 99%,实测第一:卧安 OneModel 1.7用一条隐式通路打通「看懂」到「做对」

近期,卧安机器人(OneRobotics,6600.HK)发布的 OneModel 1.7 FrontoStria-RL 模型,为解决这一难题提供了创新思路。该模型在权威的LIBERO基准测试中取得了99%的平均成功率,超越了包括π0.5、GR00T-N1.5、OpenVLA-OFT在内的主流公开模型。其真机实测表现更为突出:日常操作成功率99%,高精度任务97%,甚至在真人对打乒乓球的极限动态场景下,接球成功率也达到了91.2%。这组数据的背后,关键并非参数量的堆砌,而是一条连接世界理解与动作执行的隐式传导通路——Predictive Policy Latent,以及一套驱动该通路持续优化的RL闭环机制

图 1:标准 LIBERO 平均成功率对比。One Model 1.7 以 99% 领先于 π0.5、GR00T-N1.5、OpenVLA-OFT 等主流公开模型。

一、厨房里的困境:为何机器人“看懂了却做不对”?

设想一个典型场景:机器人昨天成功将洗净的碗碟放回橱柜。今天,你移动了碗架位置,并改变了柜门的开启角度。对人类而言,这种微调几乎无需思考;但对机器人来说,这可能构成一个全新的、从未见过的任务。

这并非孤例。家庭环境是具身智能最具挑战性也最具价值的应用场景:不存在两个完全相同的厨房或客厅,物品布局、光照条件、任务组合时刻变化。机器人不仅需要完成叠衣、端碗、收纳等精细操作,更要在物品陌生、环境多变的情况下,准确理解用户意图并执行合理动作。至于拔插试管、倾倒咖啡豆这类高精度任务,或真人对打乒乓球这类要求实时感知与高速响应的极限场景,对模型的鲁棒性提出了更高要求。

这一技术困境,源于当前两条主流技术路线的固有瓶颈。

VLA(视觉-语言-动作)路线采用端到端映射,在训练数据覆盖充分的场景下效率显著。但其泛化能力有限:一旦物体位置、观察视角或光照条件发生变化,动作策略容易失效;面对多阶段复杂任务,也易在中途丢失全局目标。

世界模型(World Model)路线旨在赋予模型预测环境状态与任务演化的能力,理论上具备更强的泛化潜力。但其落地面临核心难题:世界模型“看懂”环境,并不直接等同于动作策略能“做对”。若采用显式的未来预测图像或中间目标坐标来衔接动作模块,会引入生成误差、信息冗余与推理延迟;若缺乏有效传导机制,“环境理解”与“精准执行”之间便存在难以弥合的断层。

OneModel 1.7的核心突破,正是要弥合这道断层。

二、Predictive Policy Latent:打通断层的隐式通路

OneModel 1.7 FrontoStria-RL采用了卧安自研的RL-Latent World Action Model架构(RL-LWAM),其完整信息流如下:

指令 / 观测 / 技能世界模型预测策略隐变量理解专家动作专家 → 机器人执行 → RL / 成功记忆 / 人在环反馈 ↺

图 2:One Model 1.7 FrontoStria-RL 完整架构。 Predictive Policy Latent 作为核心传导机制,连接 World Model、Understand Expert 与 Action Expert。

该架构包含三个核心模块:负责跨场景泛化的世界模型、负责任务理解与技能调度的理解专家,以及负责精准执行的动作专家。而让这三个模块高效协同的关键,是位于核心的Predictive Policy Latent

“FrontoStria”的命名深意

其灵感来源于神经科学中的“额纹状体通路”——连接大脑前额叶皮层(负责高级决策与规划)与纹状体(负责动作执行)的神经回路。这条通路的核心功能,正是实现高层认知到底层运动控制的高效、准确传导。

OneModel 1.7的Predictive Policy Latent扮演了类似角色:将世界模型对场景的高层理解(类比“前额叶”),以隐式表征方式传导给动作专家以生成动作(类比“运动皮层”)。

Predictive Policy Latent的工作原理

传统方案中,世界模型向动作模块传递信息,通常依赖生成预测图像或输出显式目标坐标。这些方法存在三大弊端:像素冗余(传递无关视觉信息)、生成幻觉(预测图像存在误差)、模块割裂(上下游耦合度低)。

Predictive Policy Latent采用了截然不同的思路。它使用一种面向动作策略的隐式表征来替代显式信号——

  • 训练阶段:模型能够“看到”动作执行后的未来观测结果,借此学习任务后果,形成隐式的物理推理表征。
  • 部署阶段:模型仅依赖当前观测,即可输出等效的决策调制信号。

简言之,这条隐式通路在训练时利用“未来信息”学习优质动作的决策方向,在部署时仅凭当前观测即可做出等效判断。这种方式信息密度更高,推理速度更快,且规避了生成式模型可能引入的噪声。

这正是OneModel 1.7的差异化设计:并非简单拼接VLA与世界模型,而是通过一条隐式通路,真正实现了从世界理解到动作执行的无缝、高效传导。

三、RL闭环 + Retrieve-then-Steer:让通路持续进化

仅建立通路尚不足够。训练完成的模型参数是静态的,面对真实部署中不断涌现的长尾场景——如手部打滑、物体形变、用户临时干预——零样本泛化能力终有边界。

OneModel 1.7的第二个核心设计,是确保这条通路能够持续增强与优化。这也正是模型代号中“RL”的体现。

强化学习闭环

在明确的奖励信号、安全约束及人在环监督下,模型通过真实任务反馈进行策略优化。这使其能够突破模仿学习“仅能复现示范数据”的天花板,自主探索更稳健、更高效的执行路径。

Retrieve-then-Steer:越用越好的成功记忆机制

其背后的关键洞察是:现有评测常将每次测试视为独立零样本试验,但真实环境中的机器人往往在相同或缓慢变化的环境中重复操作——昨天成功清洗的碗碟,今天大概率沿用类似方式。成功的执行本身,就是“经过环境验证的可靠行为模式”。

具体机制如下:

  1. 存储:部署过程中,将经过进度校准的成功观测-动作片段存入长期记忆(Success Memory)。
  2. 检索:推理时,从记忆中检索与当前状态最相关的成功动作块。
  3. 过滤:通过轨迹级一致性检查,过滤不一致的候选动作。
  4. 引导:将聚合后的精英动作先验,通过置信度自适应的先验引导机制,注入到flow-matching动作采样器的中间状态,并根据检索置信度动态调整引导强度。

这意味着OneModel部署后可以“越用越好”——在相对稳定的家庭环境中,机器人每日积累的成功经验将持续提升后续任务的成功率,且该过程是轻量级、非参数的,无需重新训练模型。

图 3:SimplerEnv 平均成功率对比。 Retrieve-then-Steer 将 CogACT 的平均成功率从 75.8% 提升至 79.5%,提升 3.7 个百分点。

RL闭环与Retrieve-then-Steer形成互补:RL解决能力上限问题(突破模仿学习天花板),Retrieve-then-Steer解决部署适应问题(无需重训即可自适应)。两者协同,使Predictive Policy Latent这条传导通路从“一次性连通”升级为“持续增强”。

四、支撑通路的两个关键模块

Predictive Policy Latent这条主通路的高效运转,依赖两个支撑模块在中段与末端解决特定问题。

理解专家 + 技能:通路中段的任务规划器

真实操作任务常包含明确的阶段划分与子目标依赖:叠衣服需先展平、再对折、最后整理;操作洗碗机需识别碗碟类型、选择摆放位置、确认关门。这些结构化规程,既不属于世界模型的环境建模,也不属于动作专家的底层生成,而是连接高层理解与底层执行的中间规划层。

理解专家在架构中正承担此角色:接收Predictive Policy Latent的调制信号,对任务进行结构化分解——识别阶段、确定子目标依赖关系、调度对应的技能序列。这使得模型在面对新任务组合时可灵活复用已有技能,在执行长流程任务时不会丢失阶段目标。

MCF-Proto:通路末端的动作鲁棒性保障

当前,主流VLA模型的骨干网络、预训练方式与数据集快速演进,但其动作头设计却近乎同质化——大多直接在固定世界坐标系下预测动作命令。这种方式对相机视角变化与机器人初始位姿偏差极为敏感。

MCF-Proto提供了不同解法:围绕任务相关的局部运动结构——如门轴、滑轨、孔位、折叠线——建立“运动中心坐标系”。模型每一步预测一个旋转,在变换后的局部坐标系中,使用一组可学习的动作原型进行组合,再映射回世界坐标系进行端到端训练。

一个关键发现是:即使没有显式方向标签,模型学习到的局部坐标系也会自发形成稳定几何结构,其坐标轴与示教数据中末端执行器的运动方向高度一致。这使得动作表征更紧凑,由更少的主方向捕获变化,并由共享原型更规则地组织。

在LIBERO-plus扰动测试中,MCF-Proto在七类扰动中有六类取得最优结果。其中最显著的是两类几何扰动——在“相机视角变化”扰动下,领先最强基线3.3个百分点(69.7% vs. 66.4%);在“机器人初始位姿偏差”扰动下,领先优势达15.7个百分点(66.0% vs. 50.3%)。这两类恰恰是家庭环境中最常见、最影响动作执行稳定性的变化因素。

图 4:LIBERO-plus 七类扰动鲁棒性对比。 MCF-Proto 在 Camera 和 Robot 两类几何扰动下优势最为显著。

图 5:One Model 1.7 FrontoStria-RL 四大核心技术模块总览。

五、OneModel 1.7与主流具身智能模型对比

为清晰界定OneModel 1.7在当前技术格局中的位置,我们将其与主流具身智能模型进行架构层面对比:

OneModel 1.7的两大独特之处在对比中尤为突出:

1. 唯一的隐式传导通道。从“规划/中间表征”维度看,π0.5和GR00T N1.7缺乏显式规划表征;π0.7通过未来图像或子目标图像承载世界模型输出,DreamZero则进一步生成未来视频。OneModel 1.7选择了不同路径:通过Predictive Policy Latent,将世界模型的高层理解以隐式表征直接传导至动作策略,不生成任何中间图像或视频,实现了世界理解到动作执行之间的低冗余、高效率连通。

2. 唯一的强化学习闭环。从“强化学习闭环”维度看,π0.5、GR00T N1.7、π0.7和DreamZero的核心范式均不依赖部署后的强化学习闭环。OneModel 1.7的定位不同:它将隐式世界动作模型与强化学习结合,使机器人在日常使用中持续积累成功经验,并通过Retrieve-then-Steer机制,在不更新模型参数的情况下持续提升后续任务成功率。

六、真机验证:从叠衣服到打乒乓球

基准测试成绩仅是开端。OneModel 1.7在真实机器人平台上,成功覆盖了三类难度梯度的任务。

日常操作:平均成功率99%

洗衣服、叠衣服、操作洗碗机、从传送带拿取物品——这些任务涉及柔性物体操作、多阶段流程与环境多样性,要求模型在泛化理解与稳定执行间取得精妙平衡。

高精度操作:平均成功率97%

拔插试管、叠放纸杯、倾倒咖啡豆——这类任务容错空间极小,对末端位置精度、姿态控制与力控稳定性要求极高。MCF-Proto围绕局部运动结构组织动作原型的设计,在此类任务中优势显著。

极限动态:乒乓球接球成功率91.2%

真人对打乒乓球对实时感知、轨迹预测与高速动作生成提出极限要求,是“高动态+高精度”的典型场景。世界模型提供对来球轨迹的快速预测,动作专家在极短时间窗口内生成精准击球动作,RL闭环则通过大量对打训练持续优化击球策略。

图 6:日常操作与高精度任务真机验证成功率。

图 7:真人对打乒乓球动作阶段成功率。接球成功率达到 91.2%。

总结

OneModel 1.7 FrontoStria-RL所回应的,是具身智能从实验室走向真实部署时面临的一系列系统性问题——世界模型的理解如何有效传导至动作执行、复杂任务如何被结构化分解、动作表达如何对环境扰动保持鲁棒、以及模型如何在部署后持续进化。

它给出的答案是:用Predictive Policy Latent建立一条隐式通路,让世界理解真正驱动动作策略;用理解专家与技能体系为长程任务提供结构化规划;用MCF-Proto确保动作表达对几何扰动保持稳定;用RL闭环和Retrieve-then-Steer让整个系统越用越好。

家庭机器人要真正融入日常生活,依赖的并非更大的参数规模,也不是特定场景下的偶然成功演示,而是一套能够系统性处理泛化、执行与持续更新这三重挑战的模型体系。

OneModel 1.7 FrontoStria-RL是卧安在这一方向上的重要阶段性成果。对卧安而言,模型发布并非孤立的技术事件,而是与其家庭机器人本体、真实场景数据采集和服务部署体系共同构成了一个完整的技术闭环。随着卧安机器人围绕真实家庭与服务场景持续推进OneModel模型的迭代,可以预见,在不远的将来,机器人将从“能看懂、能行动”,进一步迈向“能适应、能进化、能持久可靠地工作”。

  • 论文链接:https://arxiv.org/abs/2605.11809
  • 论文链接:https://arxiv.org/abs/2605.10094
  • 官网详情:https://www.onerobot.com/OneModel
免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策