2024保姆机器人权威测评：世界模型进化能力深度解析

2026-05-20阅读 0热度 0

机器人

33天后，一个不知疲倦的硅基助手可能将走进你的家门。

它需要应对的，是散落各处的衣物、孩子随手丢下的玩具、桌沿摇摇欲坠的杯子，或是被猫咪“重新设计”过的客厅布局……这些日复一日、看似永无止境的家务琐事。关键在于，它能全天候待命，并在实践中持续优化。

4月21日，自变量机器人在北京宣布，其搭载新一代自研具身智能基础模型WALL-B的机器人，将于5月25日正式进入真实家庭环境。

WALL-B是全球首个基于世界统一模型架构的具身基础模型。它将视觉、听觉、语言、触觉、动作及物理预测，整合进单一神经网络进行端到端的联合训练。这意味着，机器人首次有机会像人类一样，对环境、自身状态与任务目标形成整体性认知。

更关键的是，WALL-B突破了此前VLA模型仅能模仿动作的局限，开始构建对物理世界底层规律的认知，并能在真实交互中持续学习与自我迭代。这标志着具身智能的基础模型，正从VLA的模块化拼接架构，向原生多模态融合架构实现关键跃迁。

一、从WALL-A到WALL-B：从“模块拼接”到“原生统一”的架构革命

近期，北京人形机器人马拉松引发广泛关注，机器人在硬件本体与运动控制上的进步显而易见。然而，在灵巧操作与任务泛化能力上，人形机器人仍面临显著挑战。这正是机器人难以进入真实场景、替代人类完成复杂工作的核心瓶颈。

当前主流的具身大模型多基于VLA架构。自变量早期推出的第一代模型WALL-A也基于此架构。但当团队尝试将机器人部署到真实家庭时，VLA架构的天花板便迅速显现。

VLA技术生态虽成熟，但其本质是多个独立模块的串联。信息如同流水线上的零件，需要逐级传递，每经过一个模块便产生一次信息损耗。当指令最终抵达执行端时，往往已出现偏差或信息缺失。

这类似于苹果M1芯片问世前的Mac架构：CPU、GPU、内存各自独立，数据在组件间搬运必然产生延迟与损耗。

此外，VLA模型能让机器人模仿训练数据中的动作轨迹，却无法理解其背后的物理逻辑。机器人仅会“复制行为”，不懂“内在原理”，一旦遭遇训练集之外的状况，就容易失效。正如自变量机器人CTO王昊所言：“模仿，即是VLA的天花板。”

例如，当看到一个盘子部分悬空于桌边时，基于VLA的机器人无法理解重力会导致其跌落，自然也不会主动将其推回安全位置。

从WALL-A到WALL-B，自变量实现的并非简单迭代，而是一场从VLA到WUM的架构革命。其核心，是将机器人的“大脑”从“模块拼装”升级为“原生统一”。

WALL-B如同苹果M1芯片统一了内存架构，它将视觉、语言、动作、物理预测等所有模态能力，置于同一神经网络中从零开始联合训练。它彻底打破了模块间的壁垒，让各能力从过去的“独立运作”转向“协同计算”。

过去，机器人处理任务如同“传话游戏”；现在，模块边界与数据搬运的损耗被消除，使其能够对环境、身体与任务进行整体性思考。这种能力，类似于人类看到杯子即将掉落时，手会下意识地伸出接住——因为在那个瞬间，人类对环境、物体状态、身体动作及潜在后果，拥有一种瞬时完成的、整体性的理解与反应。

二、基于世界统一模型：WALL-B构建“世界观”与自我进化能力

基于世界统一模型架构，WALL-B实现了三项区别于行业现有模型的核心技术突破：

1. 原生多模态

WALL-B从训练伊始，就对视觉、听觉、语言、触觉、动作等多模态数据进行同步标注与联合训练。

因此，机器人看到杯子即将滑落的同时，手部动作已经启动，并同步调整抓握力度将其稳妥放置。模型不再需要像流水线一样，等待不同模块逐级“翻译”指令才能执行下一步。

这种架构让模型首次具备了“原生本体感”。机器人能感知自身的尺寸与空间占用，判断在环境中的可行状态。面对狭窄过道、半开的门或高处的物品时，它能准确评估能否通过、能否触及、以及操作后的连锁反应。相比之下，许多扫地机器人甚至缺乏这种基础的空间意识。

WALL-B还赋予了机器人“部件级理解”能力。看到一个杯子时，它能像人一样感知把手朝向、材质、图案、杯内液体存量，以及如何握持更为合适。在一个家庭中认识了一种杯子后，即便换到全新环境、面对外形迥异的杯子，它依然能识别其核心功能。

2. 物理世界的“世界观”

WALL-B让机器人不止“观测”世界，更能“理解”世界。它能感知并预测重力、惯性、摩擦力、速度等基本物理规律。

当机器人端起一个盛有液体的杯子时，它能感知杯中液体的存在，理解重量会因晃动而变化；力度过小可能导致打滑，过大可能捏翻杯子，移动过快则会因惯性将液体洒出。因此，它会动态调整手部力度与移动速度。

真正支撑零样本泛化能力的，并非模型记住了海量具体任务，而是它开始理解这个世界的基本运行法则。今天能在一个家庭里判断如何端稳水杯，明天就能在陌生环境里，处理材质、重量、形状各异的容器。机器人掌握的，不再是一个个孤立的动作脚本，而是一套可迁移至无数场景的底层常识框架。

3. 与世界交互并自我进化

目前，基于VLA模型的机器人在任务失败后，通常直接停止并报错，无法从失败中汲取经验。而WALL-B的行为模式截然不同：它在失败后会自主调整策略并再次尝试；若成功，则将此次成功的经验直接更新至模型参数中。这是WUM架构区别于所有现有VLA模型的最根本特征。

机器人的学习方式，从“等待投喂数据、依赖工程师重训”，转变为在真实世界中“实践即学习”，能力持续增长。王昊比喻，这如同人类学习使用筷子，是在无数次尝试中调整角度与力度，最终将技能内化为肌肉记忆。

过去，我们见过许多会后空翻、跳街舞、写毛笔字的机器人，其表现令人惊叹，但本质仍是执行预设轨迹的“命令行机器人”，每一个动作都经过精密编程或远程操控。

家庭场景却无人能提前穷尽所有情况、预设所有动作路径。机器人只有理解更底层的物理规律与空间关系，并能在持续交互中不断进化，才可能真正落地于这个充满不确定性的场景。

三、从“糖水数据”到“牛奶数据”：用真实场景驱动数据飞轮

高质量真实数据的匮乏，是制约具身智能落地的核心瓶颈。王昊指出，具身智能行业最大的秘密并非算法、架构或硬件，而是数据。

规模化、流水线式的数据采集工厂，效率虽高，但依赖于预设场景与标准化任务，无法覆盖真实世界中那些非标准、非重复、琐碎的操作现场。

王昊将这类数据比喻为“糖水数据”——如同糖水虽有甜味但营养有限，这类数据虽然干净、可控、量大，却与真实家庭的复杂环境存在本质隔阂。基于此类数据训练的模型，在真实环境中往往迅速失效。

原因在于，真实家庭并非标准化实验室，而是由杂乱物品、多变光线、穿梭的宠物、孩子的打断与临时任务构成的“生活现场”。

与之相对，王昊提出了“牛奶数据”的概念。牛奶能提供实打实的营养，同样，在真实家庭环境中采集的、嘈杂、多变、充满随机性的交互数据，训练价值更高。这也正是自变量选择的数据路径。

为获取这类数据，自变量团队进入了数百个志愿者的真实家庭进行模型训练。每一户的布局、光照与混乱程度都独一无二。

真实家庭的重要性，不仅在于环境复杂度更高，更在于它让“任务规划”本身变得不可预设。王昊提到，机器人在进入任何一个家庭之前，很难提前预知具体要执行哪些任务，无法进行事无巨细的预先规划。

这种耗时耗力的“笨功夫”，恰恰构成了自变量的关键护城河。机器人只有在这种千差万别的环境中经受训练，才可能建立起真正的场景泛化能力。

因此，自变量的策略是：用实验室数据构建能力基础，靠真实场景数据提升模型质量。前者让模型拥有基本技能，后者让模型学会在不确定、不可预测的环境中“自主适应”。

更重要的是，WALL-B能让机器人在与真实世界的持续交互中，不断产生新数据、回流新经验，驱动模型完成自我进化，从而形成“进入家庭—获取数据—模型进化—服务更多家庭”的正向数据飞轮。

一旦这个飞轮高效转动，数据就将成为模型持续成长的燃料。像自变量这样更早进入真实场景、积累更多高质量交互数据的企业，其领先优势有望持续扩大。

四、机器人1个月后进驻家庭，在服务中持续进化

此前，自变量已与58同城合作，将搭载WALL-AS模型的机器人送入真实家庭，与保洁员协同作业，完成了全球首次机器人进入家庭的实际服务验证。

这一次，王潜明确宣布，将在5月25日，让搭载更先进的WALL-B模型的机器人进入真实家庭开始工作。

对于机器人进家可能引发的隐私担忧，王潜表示，自变量将采用视觉脱敏处理、用户透明授权、严格用途限定等综合方案来保障用户隐私安全。

机器人进入家庭的想象空间，显然不止于硬件销售。当机器人开始长期驻留家庭，它就不再只是一个消费电子产品，而更像一个可持续迭代的服务系统。企业可以通过服务订阅、功能更新与模型升级，持续提升其服务能力。

对行业而言，商业模式将不再是一次性的硬件销售，而是凭借持续服务和升级，与用户建立长期稳定的服务关系。

王潜也坦言，当前模型仍处于“实习生”阶段，会犯错，需要远程协助，有时可能将拖鞋误放入厨房，或清洁到一半停下来“思考”。但其核心优势在于能够实现7x24小时不间断工作，并且每工作一天，都会因新数据的产生而变得更“聪明”、更适应家庭环境。

结语：家庭这道终极考题，正成为机器人真正长大的地方

家庭，是具身智能最复杂、最琐碎、最难以标准化的场景，也因此成为检验机器人是否真正具备通用能力的终极考场。

今天的机器人或许仍显笨拙、缓慢、偶尔失误，但真正重要的变化已经发生：它已经开始走进家庭，在这个充满随机性与不确定性的真实世界里，一边提供服务，一边积累经验，持续进化。

对于具身智能而言，这不仅仅是一次场景落地，更像是一场真正意义上的启程。机器人已经在最复杂的地方，开始了自己的成长历程。

2024保姆机器人权威测评：世界模型进化能力深度解析

一、从WALL-A到WALL-B：从“模块拼接”到“原生统一”的架构革命

二、基于世界统一模型：WALL-B构建“世界观”与自我进化能力

三、从“糖水数据”到“牛奶数据”：用真实场景驱动数据飞轮

四、机器人1个月后进驻家庭，在服务中持续进化

结语：家庭这道终极考题，正成为机器人真正长大的地方

相关阅读

最新教程

最新资讯