星海图G0.5具身模型：零样本泛化，让机器人边思考边行动

2026-06-02阅读 0热度 0

基础模型

过去，机器人接收“把毛巾放进洗手池”的指令时，只能机械地执行一串预设动作，完全不具备场景理解能力。如今，G0.5实现了本质飞跃：它首先自主推理——毛巾在何处？洗手池位于哪里？接着决定先抓取毛巾，再移动到目标位置，最后完成放置。这一过程实现了边推理、边执行的闭环。

这项能力建立在最新的VLA（视觉-语言-行动）模型架构之上：同一模型、同一套权重，同时承担推理与动作生成，使机器人具备了“行动中的思考能力”。

言出法随：零样本泛化至新物体、新环境、新指令

G0.5 部署于 R1 Lite 机器人时，能够实现零样本操作——即模型从未见过当前的场景、物体或指令组合。用户只需一句自然语言指令，模型便可实时理解意图、拆解动作序列，并流畅地控制双臂完成操作。

这种“言出法随”的开箱即用特性，意味着一套模型、一句指令，即可直接投入任务执行。

从“记住任务”到“学会操作”

传统机器人学习新任务需经历完整流程：重新采集数据、重新微调模型、重新适配场景。尽管能出色完成训练过的任务，但面对新物体、新环境或新指令时便束手无策。

通过大规模多任务预训练，G0.5 形成了可迁移、可组合的操作智能。抓取、放置、推拉、开合、移动等原子动作，不再作为单一任务中的固定片段存在，而是沉淀为模型可复用的能力单元。因此，面对新场景、陌生空间布局及从未见过的物体时，仅凭一句自然语言指令，机器人就能直接执行操作——实现了“边思考边行动”（Think While Acting）。

三大核心能力：让具身基础模型学会“边想边干”

1. 统一异构动作编解码器：让一种“动作语言”覆盖所有机器人

不同机器人的形态、自由度、控制频率差异巨大——双臂人形、移动底盘、单臂工业机器人各有独特的动作维度。传统做法要么为每种机器人单独设计一套动作编码（如FAST采用固定DCT流水线逐本体离散化），要么将所有自由度拍平成大向量再做量化。前者无法跨本体共享知识，后者则导致token数量随总自由度线性膨胀——即使当前步骤仅需移动手指，模型也需为所有关节生成token，造成严重浪费，且语义高度纠缠、迁移性差。

动作token应当像语言一样既结构化又稀疏。为此，团队设计了一套统一的异构动作编解码器，使G0.5用一套动作词表即可覆盖从桌面双臂到全身移动操作等各类本体。自回归解码带来的额外开销被控制在可接受范围内——这正是将VLM重新置于“动作生成者”位置、而非退化为条件编码器的关键前提。

G0.5 Action tokenizer

2. 原生动作思维链：让机器人不仅“边思考边行动”，还听得懂“怎么做”

统一动作词表让VLM能够回归“动作生成者”角色。这带来的真正回报是：VLM在预训练中习得的生成式能力——链式思维、上下文学习、prompt调制——可以原生作用于动作生成，无需穿过VLM-as-Encoder架构中“条件编码”的压缩瓶颈。

多数现有工作中，链式思维（CoT）仅作为训练时的辅助任务，推理模块与动作模块被割裂在两套参数、两个目标里——推理结果要影响动作，必须先压缩成一段隐状态再喂给下游expert，中间既存在语义损失，延迟也难以控制。G0.5回归本源，将CoT与动作生成融合在同一个自回归流中：模型先输出子任务分解、目标物体框、2D轨迹提示等推理结果，再输出动作token。

这套设计带来两个可分别验证的收益：

▪ 长程任务的零样本分解能力：在BEHAVIOR-1K这类需将自然语言指令拆解成数十个子步骤的家居任务上，单个G0.5 checkpoint仅训练一个epoch便超过了训练四个epoch的π0.5，也超过了由四个checkpoint组成的Challenge冠军方案。在预训练分布之外的家居任务上，模型同样能零样本完成子任务分解。

▪ 语言对行为的实时塑造：由于prompt直接进入与动作token同一条AR流，自然语言可在推理时连续调制动作分布，无需重新训练。一个典型的定性示例是“打开烤面包机开关”任务：由于开关行程较长，仅给“打开开关”指令时，模型按压力度不足；一旦在指令中追加“push harder”，模型会明显加大下压力度并最终触发开关。

G0.5 在 R1 Lite 上零样本执行“把毛巾放进洗手池”：在同一自回归流中，模型先生成思考（子任务、目标物体框），再输出动作 token，并从每一帧观测闭环重规划。

3. 时空注意力模块：为机器人注入上下文感知先验

真实复杂家居任务不能仅依赖单帧画面的“本能反应”。当机械臂短暂遮挡视线，或任务意外失败时，机器人必须依靠历史上下文才能维持稳定的空间感知。G0.5配备了轻量级时空注意力模块，融合数秒的历史视觉信息，使模型在局部视野丢失时依然能稳健执行。

实验表明，得益于预训练阶段习得的感知先验，G0.5在BEHAVIOR-1K中“移动箱子到储物间”“装车”“搬木柴”“整理卧室”等长程任务上稳定优于π0.5。

领跑七大评测场景，全面超越 SOTA

G0.5 在 7 个独立评测场景中全面领先，核心数据如下：

真实世界微调评测：在 R1 Pro / R1 Lite 的六个任务-本体设置上，G0.5（深橙）在成功率与过程分上整体大幅领先 π0.5 与 GR00T-N1.7。

DROID 零样本评测：未经过该机器人微调，G0.5 在 10 个桌面操作任务上平均成功率 82.5%，逐任务均优于 π0.5-DROID 与 MolmoAct2-DROID。

Pick-and-Place 基准：从零样本到 50 小时训练，G0.5（深色）在“语言跟随率”与“任务成功率”两项指标上，各数据规模均优于 π0.5

从这些结果中，可以清晰看到几个关键结论：

▪ 大规模预训练使 G0.5 获得了具身基础模型的关键能力。在此基础上，仅需轻量后训练，即可在 7 个基准上超越 π0.5 并取得 SOTA 效果，验证了这一预训练范式的有效性。

▪ 零样本开箱即用。DROID（Franka）和 PP Bench（R1 Lite）两项零样本泛化实验表明，G0.5 的预训练智能可以直接迁移到任何同型号机器人平台和一个全新的环境。

▪ 单模型泛化与性能优势。在 BEHAVIOR-1K 挑战赛的 50 个长程移动操作家居任务评测中，仅凭单一模型权重，G0.5 只需后训练 1 个 epoch（0.29）就显著超越了多模型集成的冠军方案与 π0.5，并在 4 个 epoch 下进一步提升至 0.31，展现出更高的性能上限，超过半数任务表现更优。

▪ 预训练表征克服长程任务瓶颈。这直接验证了：基于结构化动作空间与视觉记忆的预训练先验，才是模型跨越长程移动操作鸿沟、实现高效泛化的核心所在。

结语：从执行动作，到理解世界

G0.5 是具身基础模型的一次重要升级：

▪ 不再把 VLM 当编码器，而是让它重新成为行动者；

▪ 不再割裂推理与动作，而是让模型边思考边行动；

▪ 不再只执行预设程序，而是让模型听得懂“怎么做”、记得住“发生了什么”。

可以确信的是，通用具身智能需要一条可扩展的模型和数据路径。接下来，团队将在更多机器人数据、更复杂的环境、更长的任务时序中继续推进。后续模型开源后，G0.5 也将支持在多种本体上的“开箱即用”部署，助力开发者开展落地实践。