阿里具身智能深度测评：技术实力与行业排名

2026-06-18阅读 0热度 0

具身智能

大模型竞赛的主战场，正从数字对话框转向物理现实。

6月16日，阿里巴巴正式发布了千问具身智能大模型——Qwen-Robot系列。与擅长对话、代码生成、图像识别的传统模型不同，此次阿里旨在赋予AI操控机器人的能力，使其能直接介入并执行真实世界的物理任务。

01 Qwen-Robot是什么？

此次发布的Qwen-Robot并非单一模型，而是一套由三大核心模块构成的组合方案：

丨Qwen-RobotManip：负责操作，相当于机器人的“手”。
这是一个视觉-语言-动作联合模型（VLA）。简言之，机器人不仅要能“看见”目标物体、理解“拿起”的指令，更需要生成精准的动作序列。难点在于适配多种异构的机器人硬件——从机械臂、双臂机器人到人形机器人，其运动结构截然不同。Qwen-RobotManip的一大突破是采用80维统一动作表征，相当于为不同硬件定义了一套通用“肢体语言”；其操作执行依赖摄像头画面中的相对位置，大幅降低了对繁琐绝对坐标计算的依赖。数据层面，该模型基于完全由开源数据构建、时长超过38000小时的语料库完成预训练，并在RoboChallenge Table30 v1真机评测中包揽前两名。

丨Qwen-RobotNav：负责导航，相当于机器人的“脚”。
这是一个视觉语言导航模型（VLN）。其核心使命是让机器人理解自然语言指令，在真实的物理空间自主移动。例如，“去厨房门口”、“绕过桌子”、“找到我的行李箱”——机器人需要实时感知环境、记忆已行路径并动态规划下一步。其创新点在于，将语言指令导航、目标搜索、自动驾驶等五大任务族统一到一个框架内。过去这些任务通常独立开发，如今它尝试用一套模型解决多种移动智能体的任务。此外，它引入了任务自适应观察机制，可根据任务需求灵活切换记忆策略。它也是业界极少数原生支持多种智能体框架的VLN模型，并已在宇树Go2四足机器人上实现零样本真实环境部署。

丨Qwen-RobotWorld：负责思考，相当于机器人的“大脑”。
这是一个世界模型。世界模型并非止步于物体识别，而是要推演物理世界的后续演化——例如，杯子被推到桌边是否会掉落，抽屉拉开后内部物品如何移动，机器人下一步动作是否可行。其独特之处在于使用自然语言作为统一的动作接口，打通了机器人操作、自动驾驶、室内导航等多类场景。训练上，它拥有860万条视频与文本对、超过2亿帧画面，并采用了30%通用视频数据加70%具身专属数据的混合训练策略。

因此，Qwen-Robot系列模型本质上是将操作、导航、世界推演这三项能力打包，封装成一套机器人的“通用能力栈”。

02 阿里为何下场？

毫无疑问，具身智能已晋升为中国AI领域最炙手可热的赛道之一。2026年第一季度，国内具身智能赛道披露融资事件超50起，获投企业超30家，累计融资额约200亿元。宇树科技、智元机器人、银河通用、星海图、自变量机器人、智平方、千寻智能、云深处等公司，纷纷跨入百亿估值俱乐部。具身智能，正成为资本、产业与互联网巨头共同押注的新战场。

表面上看，阿里发布Qwen-Robot，像是在追随机器人风口。但深层原因在于，大模型竞争的底层逻辑正在发生转变。过去两年，大模型的主战场在数字世界——聊天、写作、代码、搜索、办公、Agent，本质上都是AI在屏幕内部完成任务。但具身智能截然不同，它要求AI直接操控机器人在物理世界中执行真实任务。例如，让机器人进入仓库、工厂、商超、家庭、物流场景，完成搬运、分拣、巡检、配送、服务等实操工作。

如果未来的机器人都需要一个通用的大脑，那么这个大脑极有可能演变为新的云服务底座、模型基础设施，甚至成为下一个产业入口。这正是阿里必须下场的原因——它不一定要亲自制造机器人，但绝不能错过机器人最核心的智能层。具身智能，是大模型走向产业与物理世界的关键下一站。

在这一领域，阿里早有技术储备。2025年8月，阿里达摩院开源了RynnVLA、RynnEC、RynnRCP等模型与协议，分别对应动作生成、世界理解，以及机器人本体、传感器、模型服务与动作执行之间的连接。随后，千问团队推出了Qwen-VLA，将Qwen的视觉语言能力扩展至动作生成与轨迹预测。此次Qwen-Robot的发布，相当于把具身智能能力正式整合进千问主品牌，将其转化为机器人行业可直接调用的三类模块。这意味着，具身智能不再仅是阿里实验室的研究课题，而是正式进入阿里大模型的主战场。

03 这个“大脑”有什么不一样？

现阶段，几乎所有具身智能公司都在讲“大脑”。智元推出GO-1，强调“一脑多形”与数据回流；自变量发布WALL-B，主打世界统一模型；银河通用推出LDA-1B，致力世界-动作统一框架；星海图发布G0，通过“快慢双脑”让机器人执行整理床铺等长程任务。那么，阿里Qwen-Robot与这些机器人公司的具身智能模型，核心差异在哪？

最大的区别在于起点。阿里是从大模型向机器人延伸——它本身就拥有大语言模型、多模态模型、Agent、视频理解模型与云服务能力，Qwen-Robot更像是在此基础上，向操作、导航、世界模型方向拓展。而具身智能厂商则是从机器人向大模型进化——它们先有本体、机械臂、传感器、运动控制和真实任务，再通过机器人日常采集的数据来训练自身的VLA、世界模型或具身大脑。

起点差异决定了各自的优势。阿里的优势在于模型底座强、生态庞大、平台化能力强。如果Qwen-Robot跑通，它不必绑定某一款特定机器人，而可以作为众多机器人公司都能调用的通用能力。这类似于机器人行业的安卓系统，或未来云端机器人模型的API。但阿里的短板同样明显：真实机器人并非其主营业务。具身智能最终的比拼并非benchmark，而是真机数据、失败数据与场景闭环。机器人在实验室里抓杯子，与在仓库、商超、家庭里连续工作一整天，完全是两码事。

而这恰恰是具身智能厂商的强项。智元、自变量、星海图、银河通用这类公司，离真实机器人更近。它们拥有自有本体、数据采集链路、真机测试环境，并能将失败案例重新回流入训练系统。它们的模型，通常不是为了做一个通用API，而是为了让自己的机器人更快地进入工厂、商超、家庭，完成具体任务。

因此，阿里与具身智能厂商很可能走出两条截然不同的路径。一条是阿里这类基础模型厂商，做通用底座、云服务与开发者生态；另一条是机器人公司，做本体、数据、场景与端到端闭环。前者赢在规模化和生态，后者赢在真实世界的“脏活累活”。

04 大厂纷纷入局具身智能

Qwen-Robot背后真正值得关注的，绝非阿里一家。大厂们都在从大模型向具身智能迁移。腾讯有HY-Embodied，字节的Seed团队在做VLA，京东发布了具身智能数据基础设施与具身大模型，小米也在探索机器人本体与端侧模型。再加上美团、阿里、字节、京东频繁投资机器人公司，信号已十分明确：大厂不再只是围观具身智能，而是在抢夺未来机器人背后的入口。谁能吸引更多机器人调用自己的模型，谁就有机会成为物理世界的新平台。这正是大厂从“投资机器人公司”转向“自研具身模型”的根本原因。

但热闹归热闹，具身智能离真正的爆发仍有很长的路要走。高质量的真机数据、真实环境中的泛化能力、成本控制、安全性、部署与维护等问题，皆是这个产业尚未攻克的难题。当国内大厂开始集体争夺具身智能的入口，这或许不仅是一场内卷——它也可能意味着，机器人进入真实产业的速度，确实已经开始加速了。

阿里具身智能深度测评：技术实力与行业排名

01 Qwen-Robot是什么？

02 阿里为何下场？

03 这个“大脑”有什么不一样？

04 大厂纷纷入局具身智能

相关阅读

最新教程

最新资讯