Qwen-Robot系列深度评测:会走会想的物理AI机器人

2026-06-17阅读 0热度 0
Robot

Qwen 系列多模态基础模型在物理世界理解领域已取得扎实进展。以 Qwen-VL 为例,它能够解析复杂空间关系,在杂乱场景中精准锁定目标物体,执行多步指令,甚至对物理构型进行推理——这些能力为物理智能体奠定了认知基础。简而言之,视觉语言模型如今已能完成语言层面的规划:“去厨房,找到红色杯子,拿起来,放到架子上。”这句话听起来流畅,但问题也随之出现。

不过,理解物理世界与在物理世界中行动,完全是两码事。能规划出上述步骤的模型,却无法生成真正驱动执行的运动指令。这本质上是一个对齐问题——语言指令与物理动作处于完全不同的表示空间,仅靠感知能力无法跨越此鸿沟。更大的挑战在于:具身数据与互联网文本截然不同,天然异构,采集成本极高,多样性有限。一段导航轨迹、一次遥操抓取、一段行车记录,分别属于不同的动作空间、观测格式和机器人形态。简单地将它们混在一起,结果只会是冲突而非协同。

Qwen-Robot Suite 正是为弥合这一鸿沟而设计。它通过三个基础模型——Qwen-RobotNa vQwen-RobotManipQwen-RobotWorld——分别将语言与不同类型物理动作进行对齐。在指令泛化能力和物理规律一致性两个方向上,均取得了值得关注的重要进展。下面逐一拆解这三个模型,并探讨它们作为底层工具构建通用智能体系统的可能性。

  • Qwen-RobotNa v:物理智能体的行动入口——通过可控观测编码与工具接口,将视觉语言能力接入移动控制,统一了指令跟随、点/目标导航、目标追踪和自动驾驶四类任务。
  • Qwen-RobotManip:物理智能体的交互基石——通过规范状态-动作空间和相机坐标系下末端执行器增量位姿,将视觉语言能力接入操作控制,基于完全由开源数据构建的超过38,100小时语料库实现大规模多机型训练。
  • Qwen-RobotWorld:物理智能体的无限世界——通过自然语言动作接口,将视觉语言能力接入世界动态预测,使同一世界模型能够跨操作、驾驶和导航场景,预测符合物理规律的未来。
Qwen-Robot 系列:会想会走会动手,迈出物理世界第一步

Qwen-RobotNa v:物理智能体的行动入口

智能体要操作任何物体,首先得能到达目标位置。这个道理很简单,但不同导航任务对历史信息的需求差异巨大——指令跟随需要保留长程上下文,而目标追踪几乎只关注最近几帧。任何固定的视觉分配策略都无法同时满足这两类截然不同的需求。

Qwen-Robot 系列:会想会走会动手,迈出物理世界第一步

Qwen-RobotNa v 的核心思路是将视觉分配策略本身参数化。任务模式选择导航行为(指令跟随、目标搜索、目标追踪、自动驾驶),而可调节参数(视觉 token 预算、时间衰减、单相机权重、帧采样模式)则决定视觉历史的编码方式。模型在1,560 万条样本上训练,同时联合视觉语言数据以保留感知能力,最终用一套权重统一了五类导航任务。

这套参数化接口也让 Qwen-RobotNa v 天然适合作为智能体系统的导航模块——上层规划器将长程目标分解为子任务,在执行过程中动态切换任务模式和上下文策略,通过反复调用同一模型组合复杂行为。这样一来,整个系统就具备了持久记忆与长程推理能力,可处理多步导航、环境取证和循证问答等复杂任务。

核心亮点:

Qwen-Robot 系列:会想会走会动手,迈出物理世界第一步
  • 统一多域导航: 单一模型、单组权重,在 5 个导航领域达到 SOTA — VLN-CE RxR 76.5% SR、HM3Dv2 目标搜索 75.6% SR(仅 RGB,超越所有深度方法)、EVT-Bench 90.0% 跟踪率、NA VSIM 91.4 PDMS,以及 3 个 EQA 基准新纪录 — 2B 到 8B 参数一致提升。
  • 可控观测协议: 四个控制轴(视觉词元预算、时间衰减、逐相机权重、帧采样模式)作为推理时参数暴露,训练时逐样本随机化,无需重新训练或修改 Qwen3-VL 架构即可适配任意配置。
  • 智能体导航系统: 作为双层系统中可重配置的导航原语,上层规划器(Qwen3.6-Plus)分解长时序目标并调度可配置的导航调用,配合双层记忆机制 — 在 EXPRESS-Bench 上提升 15.4%,导航步数减少 77%。
  • 开放环境泛化: 在 Unitree Go2 四足机器人上零样本部署,仅使用单个低分辨率相机,在开放真实环境与自由自然语言指令下展现出强大的泛化能力,无需任何环境特定微调。
Qwen-Robot 系列:会想会走会动手,迈出物理世界第一步

目标跟踪:

指令跟随1:

指令跟随2:

Qwen-RobotManip:物理智能体的交互基石

物理智能体需要与真实世界交互,例如通过机械臂完成操作任务。不过,产线上的工业臂与厨房中的服务臂,执行的抓取动作视觉上可能非常相似,但关节配置和动作空间却截然不同。核心挑战在于,如何让形态各异的机器人在表示层面实现兼容,使跨机器人、跨数据源的大规模训练产生协同效应,而非相互冲突。

Qwen-Robot 系列:会想会走会动手,迈出物理世界第一步

Qwen-RobotManip 以 Qwen3.5-4B VL 为骨干,结合流匹配 DiT 动作头,通过三种机制解决这一问题。统一的80 维状态-动作表示在单臂、双臂、灵巧手和移动平台等本体间共享。相机坐标系下的末端执行器增量位姿动作,使视觉上相似的运动在不同机器人之间数值上也相近,从而屏蔽形态差异。上下文策略则自适应地将执行历史视为隐式本体标识,实现推理时在线行为校准。

一旦表征体系统一,数据壁垒也随之降低。我们利用开源的11,320 小时机器人数据、开源的1,933 小时第一人称人类视频,以及人-机迁移数据合成管线从人类视频合成的跨 15 个本体的24,808 小时机器人数据(共计超过38,100 小时),训练 VLA 模型。仅依靠开源数据,模型就涌现出对扰动的鲁棒性、零样本指令跟随、自主错误恢复和跨本体迁移等泛化能力。

核心亮点:

Qwen-Robot 系列:会想会走会动手,迈出物理世界第一步
  • 统一跨本体对齐框架: 统一的 80 维状态-动作表示兼容多样化本体,相机坐标系末端执行器增量位姿使视觉相似运动数值相近,上下文策略自适应将执行历史作为隐式本体标识——三者共同实现跨本体一致信号提取。
  • 大规模人-机迁移数据合成: 管线将 1,933 小时第一人称人类视频,经由动作重定向、手部去除与补绘、仿真渲染及深度辅助融合,转化为跨 15 个本体的 24,808 小时机器人演示,配合多阶段数据策划管线确保数据质量。
  • 分布外泛化: LIBERO-Plus 91.4%(超越 π0.5 +7.0),RoboTwin-Clean2Rand Hard 69.4%(超越 π0.5 +21.5),RoboCasa365 Composite-Unseen 14.9%(第二名的 3 倍),EBench 45.6%(超越第二名 +18.5);RoboTwin-IF (自建 zero-shot instruction following测评) 72.0%(超越 π0.5 +22.4),证实了可靠的语言条件控制能力;RoboTwin-XE(自建 zero-shot cross-embodiment 测评)零样本跨本体迁移性能达到先前最优的 3 倍。
  • 真实环境表现: RoboChallenge Table30 v1 通用赛道以 45% SR 排名第一,性能较此前 SOTA 提升 20%;在真实机器人平台上的域内与域外任务、少样本适应及跨本体技能迁移中达到先前最优的 2 倍。
Qwen-Robot 系列:会想会走会动手,迈出物理世界第一步

关键发现——对齐是规模化的前提。只有具备统一跨本体表示的模型(UnifiedSpace + UnifiedEEF)才能展现出稳定的对数线性数据规模化曲线。没有对齐,增加更多数据只会产生抖动或持平的曲线——规模化无法弥补未对齐表征框架的固有缺陷。

衣服收纳:

艺术插花:

汉堡制作:

Qwen-RobotWorld:物理智能体的无限世界

真实世界的经验是机器人领域最稀缺的资源。Qwen-RobotWorld 通过直接学习世界的状态转移函数来解决这一问题:给定当前观测和一个自然语言动作,预测世界接下来将呈现的样子。关键设计选择是将所有动作以自然语言表达——这将末端执行器位姿、转向指令和导航路标点统一为单一接口,使 20 余种本体类型和 500 余个动作类别得以在具身世界知识语料库(860 万视频-文本对,逾 2 亿帧)下协同训练。60 层双流 MMDiT 将 Qwen2.5-VL 的语义表示与视频隐变量深度耦合。使用完整的多模态大语言模型作为动作编码器——而非轻量级文本编码器——是核心关键:它带来了内化的世界知识——手臂是刚体、液体会扩散、物体会下落——从而隐式地将生成约束为物理上可信的未来。每个领域相互强化:操作教会接触物理,驾驶教会大尺度三维几何,导航教会房间级别的空间推理。

Qwen-Robot 系列:会想会走会动手,迈出物理世界第一步

核心亮点:

Qwen-Robot 系列:会想会走会动手,迈出物理世界第一步
  • 语言驱动的统一动作接口: 自然语言将 20 余种机器人本体和 500 余个动作类别标准化为统一的训练接口,使操作、驾驶、导航和人机迁移得以联合训练;每个领域互相强化。
  • 双流 MMDiT + Qwen2.5-VL 动作编码器: 以完整的多模态大语言模型(而非轻量级文本编码器)作为动作编码器,将复杂的组合指令解析为精确的生成信号,并内化物理世界知识,可作为合成数据引擎、闭环策略评估器和动作规划器。
  • 榜单排名: EWMBench 总分第一(运动保真度超越亚军 33%)及 DreamGen Bench 第一;开源模型中 WorldModelBench 第一(牛顿定律、质量守恒、流体动力学等物理规律遵循完美)及 PBBench 第一。
  • 核心能力: 细粒度语言控制(改变单个关键词即产生不同的未来);跨 8 种以上本体的人机迁移,具备多视角一致生成;在 RoboTwin-IF (自建 zero-shot instruction following测评) 上的零样本鲁棒性。

从模型到智能体:形成闭环

这三个模型各自独立可用——但由于它们都提供语言优先的接口,通用 Qwen 模型可以将它们作为物理世界工具进行组合,将通用智能直接连接到物理行动。还有一个内部项目Qwen-RobotClaw——一个机器人智能体框架,使 Qwen VLM 智能体能够将 Qwen-Robot Suite 模型作为物理世界工具调用,同时妥善管理长程任务所需的上下文与记忆,推动物理智能走向更通用、更复杂的真实应用场景。以下是目前已实现的早期示例。

开放式任务执行

Qwen-Omni 观察场景,通过语音随机提出操作任务,并对执行结果进行实时评判。每段视频展示了 Qwen-RobotManip 即时完成任务的过程,无需预定义的任务列表——这证明了通用多模态模型完全可以充当任务提出者与评估者的角色,而套件模型则负责物理执行。

长程操作与失败恢复

我们搭建了基于 VLM 驱动的智能体-VLA 系统:Qwen-3.5 担任上层规划器,Qwen-RobotManip 负责底层执行。借助其在场景理解、空间推理和任务进度评估方面的能力,Qwen-3.5 将复杂的高层指令分解为一系列原子任务,再由 VLA 逐个执行。这种分工大幅提升了模型在分布外场景和指令下的鲁棒性。

以桌面清理任务为例:在一个杂乱的全新场景中,直接使用 VLA 执行抽象指令会出现明显异常行为。而当 Qwen-3.5 作为规划器时,系统能实时将任务分解为细粒度的原子任务,VLA 每次只需专注执行一个简单步骤,从而展现了组合泛化能力。我们还观察到,子任务分解能帮助系统从反复失败的循环中恢复。当上层智能体识别到机器人执行陷入僵局时,会分配新的子任务,使执行得以继续推进,显著提升了整体成功率。

智能体导航与具身问答

通过工具调用,将智能体系统与Qwen-RobotNa v 结合起来,在长程 3D 物理世界探索任务上相较于先前最优取得了显著提升,包括 HM-EQA、MT-HM3D 和 EXPRESS-Bench 等具身问答基准。同时,这种开放世界探索能力也已经可以部署到真实环境中。在下面的演示中,用户要求智能体在真实建筑中找到一个可用的卫生间。智能体首先扫描周围环境,沿走廊线索寻找卫生间标识;发现第一个卫生间旁贴有清晰的 "Cleaning in Progress / 暂停使用" 标牌后,判断该卫生间不可用,随即重新规划路线前往建筑另一侧寻找替代选项。在通过视觉证据确认第二个卫生间开放且可进入后,智能体返回了一个有实证支撑的答案。更多演示视频展示于下方,后续我们将发布更多技术细节。

Qwen-Robot 系列:会想会走会动手,迈出物理世界第一步

未来展望

物理世界智能仍处于起步阶段。涉及复杂接触的长程任务、终身学习、通用规划器与物理执行器的深度融合、以及更丰富的人-机-环境交互,都仍是开放问题。但前行的路径正愈发清晰:从强大的多模态理解出发,将视觉语言表示空间桥接至每一类物理行动,扩大训练规模,并以泛化能力作为衡量成功的北极星。

一个能够去往任何地方、做任何事情,并预见行动后果的物理智能体。

这是我们的目标——而 Qwen-Robot Suite 是迈向它的第一个完整步伐。

Qwen-Robot 系列:会想会走会动手,迈出物理世界第一步
免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策