Qwen-Robot系列深度评测：会走会想的物理AI机器人

2026-06-17阅读 0热度 0

Robot

Qwen 系列多模态基础模型在物理世界理解领域已取得扎实进展。以 Qwen-VL 为例，它能够解析复杂空间关系，在杂乱场景中精准锁定目标物体，执行多步指令，甚至对物理构型进行推理——这些能力为物理智能体奠定了认知基础。简而言之，视觉语言模型如今已能完成语言层面的规划：“去厨房，找到红色杯子，拿起来，放到架子上。”这句话听起来流畅，但问题也随之出现。

不过，理解物理世界与在物理世界中行动，完全是两码事。能规划出上述步骤的模型，却无法生成真正驱动执行的运动指令。这本质上是一个对齐问题——语言指令与物理动作处于完全不同的表示空间，仅靠感知能力无法跨越此鸿沟。更大的挑战在于：具身数据与互联网文本截然不同，天然异构，采集成本极高，多样性有限。一段导航轨迹、一次遥操抓取、一段行车记录，分别属于不同的动作空间、观测格式和机器人形态。简单地将它们混在一起，结果只会是冲突而非协同。

Qwen-Robot Suite 正是为弥合这一鸿沟而设计。它通过三个基础模型——Qwen-RobotNa v、Qwen-RobotManip 和 Qwen-RobotWorld——分别将语言与不同类型物理动作进行对齐。在指令泛化能力和物理规律一致性两个方向上，均取得了值得关注的重要进展。下面逐一拆解这三个模型，并探讨它们作为底层工具构建通用智能体系统的可能性。

Qwen-RobotNa v：物理智能体的行动入口——通过可控观测编码与工具接口，将视觉语言能力接入移动控制，统一了指令跟随、点/目标导航、目标追踪和自动驾驶四类任务。
Qwen-RobotManip：物理智能体的交互基石——通过规范状态-动作空间和相机坐标系下末端执行器增量位姿，将视觉语言能力接入操作控制，基于完全由开源数据构建的超过38,100小时语料库实现大规模多机型训练。
Qwen-RobotWorld：物理智能体的无限世界——通过自然语言动作接口，将视觉语言能力接入世界动态预测，使同一世界模型能够跨操作、驾驶和导航场景，预测符合物理规律的未来。

Qwen-RobotNa v：物理智能体的行动入口

智能体要操作任何物体，首先得能到达目标位置。这个道理很简单，但不同导航任务对历史信息的需求差异巨大——指令跟随需要保留长程上下文，而目标追踪几乎只关注最近几帧。任何固定的视觉分配策略都无法同时满足这两类截然不同的需求。

Qwen-RobotNa v 的核心思路是将视觉分配策略本身参数化。任务模式选择导航行为（指令跟随、目标搜索、目标追踪、自动驾驶），而可调节参数（视觉 token 预算、时间衰减、单相机权重、帧采样模式）则决定视觉历史的编码方式。模型在1,560 万条样本上训练，同时联合视觉语言数据以保留感知能力，最终用一套权重统一了五类导航任务。

这套参数化接口也让 Qwen-RobotNa v 天然适合作为智能体系统的导航模块——上层规划器将长程目标分解为子任务，在执行过程中动态切换任务模式和上下文策略，通过反复调用同一模型组合复杂行为。这样一来，整个系统就具备了持久记忆与长程推理能力，可处理多步导航、环境取证和循证问答等复杂任务。

核心亮点：

统一多域导航： 单一模型、单组权重，在 5 个导航领域达到 SOTA — VLN-CE RxR 76.5% SR、HM3Dv2 目标搜索 75.6% SR（仅 RGB，超越所有深度方法）、EVT-Bench 90.0% 跟踪率、NA VSIM 91.4 PDMS，以及 3 个 EQA 基准新纪录 — 2B 到 8B 参数一致提升。
可控观测协议： 四个控制轴（视觉词元预算、时间衰减、逐相机权重、帧采样模式）作为推理时参数暴露，训练时逐样本随机化，无需重新训练或修改 Qwen3-VL 架构即可适配任意配置。
智能体导航系统： 作为双层系统中可重配置的导航原语，上层规划器（Qwen3.6-Plus）分解长时序目标并调度可配置的导航调用，配合双层记忆机制 — 在 EXPRESS-Bench 上提升 15.4%，导航步数减少 77%。
开放环境泛化： 在 Unitree Go2 四足机器人上零样本部署，仅使用单个低分辨率相机，在开放真实环境与自由自然语言指令下展现出强大的泛化能力，无需任何环境特定微调。

目标跟踪：

指令跟随1：

指令跟随2：

Qwen-RobotManip：物理智能体的交互基石

物理智能体需要与真实世界交互，例如通过机械臂完成操作任务。不过，产线上的工业臂与厨房中的服务臂，执行的抓取动作视觉上可能非常相似，但关节配置和动作空间却截然不同。核心挑战在于，如何让形态各异的机器人在表示层面实现兼容，使跨机器人、跨数据源的大规模训练产生协同效应，而非相互冲突。

Qwen-RobotManip 以 Qwen3.5-4B VL 为骨干，结合流匹配 DiT 动作头，通过三种机制解决这一问题。统一的80 维状态-动作表示在单臂、双臂、灵巧手和移动平台等本体间共享。相机坐标系下的末端执行器增量位姿动作，使视觉上相似的运动在不同机器人之间数值上也相近，从而屏蔽形态差异。上下文策略则自适应地将执行历史视为隐式本体标识，实现推理时在线行为校准。

一旦表征体系统一，数据壁垒也随之降低。我们利用开源的11,320 小时机器人数据、开源的1,933 小时第一人称人类视频，以及人-机迁移数据合成管线从人类视频合成的跨 15 个本体的24,808 小时机器人数据（共计超过38,100 小时），训练 VLA 模型。仅依靠开源数据，模型就涌现出对扰动的鲁棒性、零样本指令跟随、自主错误恢复和跨本体迁移等泛化能力。

核心亮点：

统一跨本体对齐框架： 统一的 80 维状态-动作表示兼容多样化本体，相机坐标系末端执行器增量位姿使视觉相似运动数值相近，上下文策略自适应将执行历史作为隐式本体标识——三者共同实现跨本体一致信号提取。
大规模人-机迁移数据合成： 管线将 1,933 小时第一人称人类视频，经由动作重定向、手部去除与补绘、仿真渲染及深度辅助融合，转化为跨 15 个本体的 24,808 小时机器人演示，配合多阶段数据策划管线确保数据质量。
分布外泛化： LIBERO-Plus 91.4%（超越 π0.5 +7.0），RoboTwin-Clean2Rand Hard 69.4%（超越 π0.5 +21.5），RoboCasa365 Composite-Unseen 14.9%（第二名的 3 倍），EBench 45.6%（超越第二名 +18.5）；RoboTwin-IF (自建 zero-shot instruction following测评) 72.0%（超越 π0.5 +22.4），证实了可靠的语言条件控制能力；RoboTwin-XE（自建 zero-shot cross-embodiment 测评）零样本跨本体迁移性能达到先前最优的 3 倍。
真实环境表现： RoboChallenge Table30 v1 通用赛道以 45% SR 排名第一，性能较此前 SOTA 提升 20%；在真实机器人平台上的域内与域外任务、少样本适应及跨本体技能迁移中达到先前最优的 2 倍。

关键发现——对齐是规模化的前提。只有具备统一跨本体表示的模型（UnifiedSpace + UnifiedEEF）才能展现出稳定的对数线性数据规模化曲线。没有对齐，增加更多数据只会产生抖动或持平的曲线——规模化无法弥补未对齐表征框架的固有缺陷。

衣服收纳：

艺术插花：

汉堡制作：

Qwen-RobotWorld：物理智能体的无限世界

真实世界的经验是机器人领域最稀缺的资源。Qwen-RobotWorld 通过直接学习世界的状态转移函数来解决这一问题：给定当前观测和一个自然语言动作，预测世界接下来将呈现的样子。关键设计选择是将所有动作以自然语言表达——这将末端执行器位姿、转向指令和导航路标点统一为单一接口，使 20 余种本体类型和 500 余个动作类别得以在具身世界知识语料库（860 万视频-文本对，逾 2 亿帧）下协同训练。60 层双流 MMDiT 将 Qwen2.5-VL 的语义表示与视频隐变量深度耦合。使用完整的多模态大语言模型作为动作编码器——而非轻量级文本编码器——是核心关键：它带来了内化的世界知识——手臂是刚体、液体会扩散、物体会下落——从而隐式地将生成约束为物理上可信的未来。每个领域相互强化：操作教会接触物理，驾驶教会大尺度三维几何，导航教会房间级别的空间推理。

核心亮点：

语言驱动的统一动作接口： 自然语言将 20 余种机器人本体和 500 余个动作类别标准化为统一的训练接口，使操作、驾驶、导航和人机迁移得以联合训练；每个领域互相强化。
双流 MMDiT + Qwen2.5-VL 动作编码器： 以完整的多模态大语言模型（而非轻量级文本编码器）作为动作编码器，将复杂的组合指令解析为精确的生成信号，并内化物理世界知识，可作为合成数据引擎、闭环策略评估器和动作规划器。
榜单排名： EWMBench 总分第一（运动保真度超越亚军 33%）及 DreamGen Bench 第一；开源模型中 WorldModelBench 第一（牛顿定律、质量守恒、流体动力学等物理规律遵循完美）及 PBBench 第一。
核心能力： 细粒度语言控制（改变单个关键词即产生不同的未来）；跨 8 种以上本体的人机迁移，具备多视角一致生成；在 RoboTwin-IF (自建 zero-shot instruction following测评) 上的零样本鲁棒性。

从模型到智能体：形成闭环

这三个模型各自独立可用——但由于它们都提供语言优先的接口，通用 Qwen 模型可以将它们作为物理世界工具进行组合，将通用智能直接连接到物理行动。还有一个内部项目Qwen-RobotClaw——一个机器人智能体框架，使 Qwen VLM 智能体能够将 Qwen-Robot Suite 模型作为物理世界工具调用，同时妥善管理长程任务所需的上下文与记忆，推动物理智能走向更通用、更复杂的真实应用场景。以下是目前已实现的早期示例。

开放式任务执行

Qwen-Omni 观察场景，通过语音随机提出操作任务，并对执行结果进行实时评判。每段视频展示了 Qwen-RobotManip 即时完成任务的过程，无需预定义的任务列表——这证明了通用多模态模型完全可以充当任务提出者与评估者的角色，而套件模型则负责物理执行。

长程操作与失败恢复

我们搭建了基于 VLM 驱动的智能体-VLA 系统：Qwen-3.5 担任上层规划器，Qwen-RobotManip 负责底层执行。借助其在场景理解、空间推理和任务进度评估方面的能力，Qwen-3.5 将复杂的高层指令分解为一系列原子任务，再由 VLA 逐个执行。这种分工大幅提升了模型在分布外场景和指令下的鲁棒性。

以桌面清理任务为例：在一个杂乱的全新场景中，直接使用 VLA 执行抽象指令会出现明显异常行为。而当 Qwen-3.5 作为规划器时，系统能实时将任务分解为细粒度的原子任务，VLA 每次只需专注执行一个简单步骤，从而展现了组合泛化能力。我们还观察到，子任务分解能帮助系统从反复失败的循环中恢复。当上层智能体识别到机器人执行陷入僵局时，会分配新的子任务，使执行得以继续推进，显著提升了整体成功率。

智能体导航与具身问答

通过工具调用，将智能体系统与Qwen-RobotNa v 结合起来，在长程 3D 物理世界探索任务上相较于先前最优取得了显著提升，包括 HM-EQA、MT-HM3D 和 EXPRESS-Bench 等具身问答基准。同时，这种开放世界探索能力也已经可以部署到真实环境中。在下面的演示中，用户要求智能体在真实建筑中找到一个可用的卫生间。智能体首先扫描周围环境，沿走廊线索寻找卫生间标识；发现第一个卫生间旁贴有清晰的 "Cleaning in Progress / 暂停使用" 标牌后，判断该卫生间不可用，随即重新规划路线前往建筑另一侧寻找替代选项。在通过视觉证据确认第二个卫生间开放且可进入后，智能体返回了一个有实证支撑的答案。更多演示视频展示于下方，后续我们将发布更多技术细节。

未来展望

物理世界智能仍处于起步阶段。涉及复杂接触的长程任务、终身学习、通用规划器与物理执行器的深度融合、以及更丰富的人-机-环境交互，都仍是开放问题。但前行的路径正愈发清晰：从强大的多模态理解出发，将视觉语言表示空间桥接至每一类物理行动，扩大训练规模，并以泛化能力作为衡量成功的北极星。

一个能够去往任何地方、做任何事情，并预见行动后果的物理智能体。

这是我们的目标——而 Qwen-Robot Suite 是迈向它的第一个完整步伐。

Qwen-Robot系列深度评测：会走会想的物理AI机器人

Qwen-RobotNa v：物理智能体的行动入口

Qwen-RobotManip：物理智能体的交互基石

Qwen-RobotWorld：物理智能体的无限世界

从模型到智能体：形成闭环

未来展望

相关阅读

最新教程

最新资讯