2024保姆机器人权威测评:世界模型进化能力深度解析

2026-05-20阅读 0热度 0
机器人

33天后,一个不知疲倦的硅基助手可能将走进你的家门。

它需要应对的,是散落各处的衣物、孩子随手丢下的玩具、桌沿摇摇欲坠的杯子,或是被猫咪“重新设计”过的客厅布局……这些日复一日、看似永无止境的家务琐事。关键在于,它能全天候待命,并在实践中持续优化。

4月21日,自变量机器人在北京宣布,其搭载新一代自研具身智能基础模型WALL-B的机器人,将于5月25日正式进入真实家庭环境。

WALL-B是全球首个基于世界统一模型架构的具身基础模型。它将视觉、听觉、语言、触觉、动作及物理预测,整合进单一神经网络进行端到端的联合训练。这意味着,机器人首次有机会像人类一样,对环境、自身状态与任务目标形成整体性认知。

更关键的是,WALL-B突破了此前VLA模型仅能模仿动作的局限,开始构建对物理世界底层规律的认知,并能在真实交互中持续学习与自我迭代。这标志着具身智能的基础模型,正从VLA的模块化拼接架构,向原生多模态融合架构实现关键跃迁。

一、从WALL-A到WALL-B:从“模块拼接”到“原生统一”的架构革命

近期,北京人形机器人马拉松引发广泛关注,机器人在硬件本体与运动控制上的进步显而易见。然而,在灵巧操作与任务泛化能力上,人形机器人仍面临显著挑战。这正是机器人难以进入真实场景、替代人类完成复杂工作的核心瓶颈。

当前主流的具身大模型多基于VLA架构。自变量早期推出的第一代模型WALL-A也基于此架构。但当团队尝试将机器人部署到真实家庭时,VLA架构的天花板便迅速显现。

VLA技术生态虽成熟,但其本质是多个独立模块的串联。信息如同流水线上的零件,需要逐级传递,每经过一个模块便产生一次信息损耗。当指令最终抵达执行端时,往往已出现偏差或信息缺失。

这类似于苹果M1芯片问世前的Mac架构:CPU、GPU、内存各自独立,数据在组件间搬运必然产生延迟与损耗。

此外,VLA模型能让机器人模仿训练数据中的动作轨迹,却无法理解其背后的物理逻辑。机器人仅会“复制行为”,不懂“内在原理”,一旦遭遇训练集之外的状况,就容易失效。正如自变量机器人CTO王昊所言:“模仿,即是VLA的天花板。”

例如,当看到一个盘子部分悬空于桌边时,基于VLA的机器人无法理解重力会导致其跌落,自然也不会主动将其推回安全位置。

从WALL-A到WALL-B,自变量实现的并非简单迭代,而是一场从VLA到WUM的架构革命。其核心,是将机器人的“大脑”从“模块拼装”升级为“原生统一”。

WALL-B如同苹果M1芯片统一了内存架构,它将视觉、语言、动作、物理预测等所有模态能力,置于同一神经网络中从零开始联合训练。它彻底打破了模块间的壁垒,让各能力从过去的“独立运作”转向“协同计算”。

过去,机器人处理任务如同“传话游戏”;现在,模块边界与数据搬运的损耗被消除,使其能够对环境、身体与任务进行整体性思考。这种能力,类似于人类看到杯子即将掉落时,手会下意识地伸出接住——因为在那个瞬间,人类对环境、物体状态、身体动作及潜在后果,拥有一种瞬时完成的、整体性的理解与反应。

二、基于世界统一模型:WALL-B构建“世界观”与自我进化能力

基于世界统一模型架构,WALL-B实现了三项区别于行业现有模型的核心技术突破:

1. 原生多模态

WALL-B从训练伊始,就对视觉、听觉、语言、触觉、动作等多模态数据进行同步标注与联合训练。

因此,机器人看到杯子即将滑落的同时,手部动作已经启动,并同步调整抓握力度将其稳妥放置。模型不再需要像流水线一样,等待不同模块逐级“翻译”指令才能执行下一步。

这种架构让模型首次具备了“原生本体感”。机器人能感知自身的尺寸与空间占用,判断在环境中的可行状态。面对狭窄过道、半开的门或高处的物品时,它能准确评估能否通过、能否触及、以及操作后的连锁反应。相比之下,许多扫地机器人甚至缺乏这种基础的空间意识。

WALL-B还赋予了机器人“部件级理解”能力。看到一个杯子时,它能像人一样感知把手朝向、材质、图案、杯内液体存量,以及如何握持更为合适。在一个家庭中认识了一种杯子后,即便换到全新环境、面对外形迥异的杯子,它依然能识别其核心功能。

2. 物理世界的“世界观”

WALL-B让机器人不止“观测”世界,更能“理解”世界。它能感知并预测重力、惯性、摩擦力、速度等基本物理规律。

当机器人端起一个盛有液体的杯子时,它能感知杯中液体的存在,理解重量会因晃动而变化;力度过小可能导致打滑,过大可能捏翻杯子,移动过快则会因惯性将液体洒出。因此,它会动态调整手部力度与移动速度。

真正支撑零样本泛化能力的,并非模型记住了海量具体任务,而是它开始理解这个世界的基本运行法则。今天能在一个家庭里判断如何端稳水杯,明天就能在陌生环境里,处理材质、重量、形状各异的容器。机器人掌握的,不再是一个个孤立的动作脚本,而是一套可迁移至无数场景的底层常识框架。

3. 与世界交互并自我进化

目前,基于VLA模型的机器人在任务失败后,通常直接停止并报错,无法从失败中汲取经验。而WALL-B的行为模式截然不同:它在失败后会自主调整策略并再次尝试;若成功,则将此次成功的经验直接更新至模型参数中。这是WUM架构区别于所有现有VLA模型的最根本特征。

机器人的学习方式,从“等待投喂数据、依赖工程师重训”,转变为在真实世界中“实践即学习”,能力持续增长。王昊比喻,这如同人类学习使用筷子,是在无数次尝试中调整角度与力度,最终将技能内化为肌肉记忆。

过去,我们见过许多会后空翻、跳街舞、写毛笔字的机器人,其表现令人惊叹,但本质仍是执行预设轨迹的“命令行机器人”,每一个动作都经过精密编程或远程操控。

家庭场景却无人能提前穷尽所有情况、预设所有动作路径。机器人只有理解更底层的物理规律与空间关系,并能在持续交互中不断进化,才可能真正落地于这个充满不确定性的场景。

三、从“糖水数据”到“牛奶数据”:用真实场景驱动数据飞轮

高质量真实数据的匮乏,是制约具身智能落地的核心瓶颈。王昊指出,具身智能行业最大的秘密并非算法、架构或硬件,而是数据。

规模化、流水线式的数据采集工厂,效率虽高,但依赖于预设场景与标准化任务,无法覆盖真实世界中那些非标准、非重复、琐碎的操作现场。

王昊将这类数据比喻为“糖水数据”——如同糖水虽有甜味但营养有限,这类数据虽然干净、可控、量大,却与真实家庭的复杂环境存在本质隔阂。基于此类数据训练的模型,在真实环境中往往迅速失效。

原因在于,真实家庭并非标准化实验室,而是由杂乱物品、多变光线、穿梭的宠物、孩子的打断与临时任务构成的“生活现场”。

与之相对,王昊提出了“牛奶数据”的概念。牛奶能提供实打实的营养,同样,在真实家庭环境中采集的、嘈杂、多变、充满随机性的交互数据,训练价值更高。这也正是自变量选择的数据路径。

为获取这类数据,自变量团队进入了数百个志愿者的真实家庭进行模型训练。每一户的布局、光照与混乱程度都独一无二。

真实家庭的重要性,不仅在于环境复杂度更高,更在于它让“任务规划”本身变得不可预设。王昊提到,机器人在进入任何一个家庭之前,很难提前预知具体要执行哪些任务,无法进行事无巨细的预先规划。

这种耗时耗力的“笨功夫”,恰恰构成了自变量的关键护城河。机器人只有在这种千差万别的环境中经受训练,才可能建立起真正的场景泛化能力。

因此,自变量的策略是:用实验室数据构建能力基础,靠真实场景数据提升模型质量。前者让模型拥有基本技能,后者让模型学会在不确定、不可预测的环境中“自主适应”。

更重要的是,WALL-B能让机器人在与真实世界的持续交互中,不断产生新数据、回流新经验,驱动模型完成自我进化,从而形成“进入家庭—获取数据—模型进化—服务更多家庭”的正向数据飞轮。

一旦这个飞轮高效转动,数据就将成为模型持续成长的燃料。像自变量这样更早进入真实场景、积累更多高质量交互数据的企业,其领先优势有望持续扩大。

四、机器人1个月后进驻家庭,在服务中持续进化

此前,自变量已与58同城合作,将搭载WALL-AS模型的机器人送入真实家庭,与保洁员协同作业,完成了全球首次机器人进入家庭的实际服务验证。

这一次,王潜明确宣布,将在5月25日,让搭载更先进的WALL-B模型的机器人进入真实家庭开始工作。

对于机器人进家可能引发的隐私担忧,王潜表示,自变量将采用视觉脱敏处理、用户透明授权、严格用途限定等综合方案来保障用户隐私安全。

机器人进入家庭的想象空间,显然不止于硬件销售。当机器人开始长期驻留家庭,它就不再只是一个消费电子产品,而更像一个可持续迭代的服务系统。企业可以通过服务订阅、功能更新与模型升级,持续提升其服务能力。

对行业而言,商业模式将不再是一次性的硬件销售,而是凭借持续服务和升级,与用户建立长期稳定的服务关系。

王潜也坦言,当前模型仍处于“实习生”阶段,会犯错,需要远程协助,有时可能将拖鞋误放入厨房,或清洁到一半停下来“思考”。但其核心优势在于能够实现7x24小时不间断工作,并且每工作一天,都会因新数据的产生而变得更“聪明”、更适应家庭环境。

结语:家庭这道终极考题,正成为机器人真正长大的地方

家庭,是具身智能最复杂、最琐碎、最难以标准化的场景,也因此成为检验机器人是否真正具备通用能力的终极考场。

今天的机器人或许仍显笨拙、缓慢、偶尔失误,但真正重要的变化已经发生:它已经开始走进家庭,在这个充满随机性与不确定性的真实世界里,一边提供服务,一边积累经验,持续进化。

对于具身智能而言,这不仅仅是一次场景落地,更像是一场真正意义上的启程。机器人已经在最复杂的地方,开始了自己的成长历程。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策