通用机器人模型落地指南:卢宗青团队新作解析与核心突破测评
如果说过去几年大模型革命解决了“机器能否理解与表达”,那么机器人行业面临的真正挑战在于:机器能否在物理世界中,将认知转化为精准、可靠的动作,并在长期、复杂、充满干扰的实际运行中保持稳定。
具身智能的核心难点,从来不是完成一次完美的演示,而在于当环境、物体、硬件平台或任务流程发生变化时,系统能否持续可靠地工作。现实中,机器人策略的通用化面临三道结构性障碍。
第一道障碍是形态差异。机械臂、夹爪、灵巧手、人形上肢,它们的关节构型与运动空间截然不同,导致数据与经验难以互通。一个模型通常只能绑定特定硬件,更换平台几乎意味着从头开始训练。
第二道障碍是数据成本与覆盖度。真实机器人数据采集昂贵、规模有限、场景狭窄,难以支撑长周期任务和复杂交互的学习,更不用说实现跨形态的泛化能力。
第三道障碍源于部署系统自身。许多视觉语言动作模型在仿真或离线评估中表现优异,但一旦部署于真机,控制频率不同步、动作抖动、误差累积、双臂协同冲突等问题便暴露无遗。究其本质,问题不在于模型智能不足,而在于缺乏面向真实闭环控制系统的稳定性保障机制。
因此,行业表面的竞争是基准测试成功率,但底层的较量正转向另一种能力:谁能训练出通用的控制策略,并将其稳定地部署到多样化的真实机器人上,谁就能率先跨越从实验室研究到产品化应用的门槛。
在此背景下,智在无界创始人卢宗青团队发表的论文《Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization》,提出了一条更贴近工程化闭环的通用操控技术路径。
他们的思路并非简单堆叠更大模型或更多数据,而是从根本问题切入:通过以人类为中心的大规模操控数据建立跨形态的动作先验,借助统一的状态-动作空间解决不同硬件间的“语言”隔阂,再结合增强的动作生成模型与面向真实系统的稳定部署机制,系统性地回答一个核心问题:通用机器人策略能否在多形态平台上稳定运行,并真正实现落地部署?
通用性能逼近专用
这项工作的实验价值,不在于简单宣称更高的成功率,而在于围绕一个核心命题进行验证:单一模型能否同时学会操控不同形态的机器人(甚至包括模仿人手动作),并且在真实机器人上部署时,依然保持稳定可靠。
为此,研究团队将实验结果分为三类呈现:真实机器人测试、仿真基准评估和消融实验分析。
在真实机器人实验中,研究人员设定了两种模型配置。一种是Being-H0.5-specialist(专用型),针对特定机器人进行深度优化与适配,旨在追求极限性能。另一种是Being-H0.5-generalist(通用型),要求同一模型适应多种机器人形态,目标是提升泛化与迁移能力。
总体结果表明,专用型模型综合表现最佳,而通用型模型性能仅略微落后。关键在于,两者在多数任务类别上的差距很小,尤其在那些共享技能强、动作模式相似的任务上,表现几乎持平。
进一步,研究团队按能力需求将真实机器人任务划分为空间任务、长程任务、双臂任务和泛化任务。结果显示,Being-H0.5相比基线模型π0.5的性能提升,在长程任务和双臂任务中最为显著。
这一点至关重要。长程任务通常包含多步序列,微小的动作误差会不断累积,极易导致最终失败;而双臂任务需要双手实时协同,对动作时序与空间耦合要求极高。因此,这两类任务最能检验策略是否具备真正可部署的稳定性。
此外,研究还发现一个有趣现象:在某些任务中,例如涉及容器整理和物品收纳的桌面清理场景,通用型模型的表现有时甚至接近或超过专用型模型。直观来看,这类任务需要反复调用抓取、移动、放置等通用子技能。通用型模型因为在更多机器人和任务中学习过类似的动作结构,往往表现得更稳定。相比之下,专用型模型虽对单一机器人更强,但也更容易对某些特定动作模式产生过拟合。
在关键的消融实验中,研究团队重点分析了UniHand-2.0预训练的必要性。结论表明,对于专用型模型,即使没有这项预训练,也能通过后续的机器人微调获得相当能力。但对于通用型模型而言,如果缺少UniHand-2.0预训练,则会出现明显的性能下降,在多机器人混合学习中更容易表现出能力不足或训练不稳定。
这说明,UniHand-2.0的作用不仅是扩大数据规模,更是为训练过程提供了一种跨形态共享的操控“先验”,让模型能够理解合理动作的分布规律,从而更有效地吸收来自不同机器人形态的动作数据。为支撑这种跨形态操控学习,研究团队构建的UniHand-2.0总规模超过35,000小时,包含1200亿令牌和4亿样本,融合了人类第一视角手部操作数据(16K小时)、覆盖30种机器人形态的机器人操控数据(14K小时),以及视觉语言理解数据(约5K等效小时),为模型奠定了丰富的动作先验与语义对齐基础。
在仿真基准实验中,Being-H0.5在LIBERO基准测试上取得了强劲表现,平均成功率达到98.9%,在更困难的长程任务子集LIBERO-Long上也达到了97.4%,且仅使用224×224的RGB图像输入。
考虑到LIBERO基准具备多任务、多场景以及明显的长程操作链特点,如此接近99%的成功率表明,模型不仅能够执行动作,还具备了出色的任务稳定性、闭环纠错能力以及对序列化动作结构的学习能力。
此外,在更贴近真实家庭场景的RoboCasa厨房任务基准(包含24个任务,涉及多对象、多容器及频繁接触交互)中,Being-H0.5在整体对比中同样领先于多个基线方法(包括部分3D方法)。这表明模型不仅在桌面任务上有效,也能在更复杂的家庭操作场景中保持较强性能,在RoboCasa基准上取得了53.9%的成功率。
最后,在部署相关实验中,研究团队强调,模型的真实可用性不仅取决于训练策略,也极度依赖部署系统的稳定性。因此,他们引入了MPG(动作流形引导)和UAC(统一异步控制器)两个关键机制。MPG的作用是抑制不合理的动作输出,使动作保持在合理分布的“流形”附近;UAC则用于解决感知帧率与控制频率不同步的问题。
消融结果显示,一旦移除MPG和UAC,长程任务的性能下降最为明显,双臂任务的表现也会显著变差,更容易出现抖动、犹豫或过度修正等现象。这一结果说明,部署时的稳定性机制对长程和双臂任务的可靠执行至关重要。这也体现了此项工作与许多只关注离线评估或仿真成功率的研究不同,它更侧重于解决真实部署系统中的时序同步与稳定性问题。
对齐与生成并重
为实现上述效果,研究团队主要规划了五个阶段的工作:训练数据体系构建、跨形态动作对齐、模型训练架构设计、下游评估验证以及消融实验分析。
首先,在数据构建阶段,研究人员搭建了UniHand-2.0数据集。这套数据并非传统意义上只收集机器人数据,而是融合了三类来源:人类第一视角手部操作数据(16K小时)、覆盖30种机器人形态的机器人操控数据(14K小时),以及视觉语言理解数据(约5K等效小时)。UniHand-2.0总规模超过35,000小时,包含1200亿令牌和4亿样本,为跨形态操控能力学习提供了扎实的数据基础。
这样设计的核心动机,是为了缓解真实机器人数据昂贵、稀缺且覆盖有限的问题。同时,利用人类手部动作数据的丰富性与自然性,可以提供更大规模的操控先验;再通过视觉语言模型数据补齐语言理解与场景语义的能力缺口,从而形成面向操控任务的多模态预训练材料库。
其次,在跨形态对齐阶段,这项工作引入了统一状态-动作空间,以解决不同形态动作空间不一致带来的训练困难。例如,人手关节空间与机器人关节空间不同,不同机器人之间的动作维度也存在差异,若直接拼接动作进行训练,会导致模型学习混乱。
为此,研究人员将不同形态的状态与动作映射到统一的状态-动作空间,使模型学习通用的操控语义,而非某一种硬件的具体关节角度,从而实现跨机器人的知识共享与迁移。
在模型训练架构上,研究团队采用了混合专家(MoT)与混合流(MoF)的组合,使模型同时具备理解能力与动作生成能力。其中,理解专家负责处理图像与语言信息,形成任务意图表示;动作专家负责输出连续动作与长序列控制。通过混合流(MoF)来提升动作生成的表达能力,最终形成了Being-H0.5模型体系。
随后,在下游评估阶段,研究人员采用真实机器人与仿真基准相结合的方式进行验证。仿真部分在LIBERO和RoboCasa上进行,以保证可复现性与横向对比性;真实机器人部分则用于检验闭环控制表现,以及在硬件噪声、时序不同步与误差累积条件下的部署稳定性。通过专用型与通用型的对比,进一步衡量通用模型带来的性能代价。
最后,在消融实验中,研究团队从三方面验证了关键设计的有效性:去掉UniHand-2.0预训练,以检验以人为中心的预训练对通用型模型的必要性;去掉MPG与UAC,以评估部署稳定性机制是否关键;通过冻结不同层数,探索全量更新与部分更新在性能与稳定性上的差异。从而更系统地分析模型能力来源与关键模块的贡献。
从研究迈向落地
从实验意义来看,这项工作的结果为通用机器人策略的发展提供了关键依据。
首先,它证明了跨形态统一动作学习是可行的。传统机器人学习往往是一个模型只适配一种硬件,更换机器人就需要重新训练,数据也难以共享,导致训练成本高、复用效率低。而此项实验结果表明,只要实现动作空间的统一,并配合足够强大的预训练,让多机器人共享同一套策略是能够实现的。并且,通用型模型的性能只比专用型略低,甚至在不少任务上接近。这直接提升了机器人基础模型技术路线的现实可行性。
其次,这项工作强调,人类手部视频与动作数据并非辅助,而是通用策略的“基础底座”。消融实验显示,UniHand-2.0中以人类为中心的预训练,是通用型模型保持稳定能力的关键因素。这意味着,人类动作数据为策略提供了更合理、更自然的动作先验,从而增强了其泛化能力与跨机器人迁移能力。同时,UniHand-2.0庞大的数据规模也说明,这种人类中心预训练具备充分的数据支撑。
第三,工作指出了机器人智能的真正难点在于可部署的长程稳定性,而不仅是离线或仿真的成功率。许多视觉语言动作模型在仿真中表现良好,但部署到真实机器人时,容易出现抖动、动作发散、延迟累积导致失败,甚至双臂互相干扰。研究通过MPG与UAC的实验结果说明,要让基础策略真正可部署,必须显式地解决动作分布约束与异步控制问题,确保策略在真实系统中保持稳定可靠。
最后,研究也提供了一个较清晰的通用模型训练范式:通过大规模人类中心数据建立操控先验,通过统一状态-动作空间实现跨形态对齐,通过更强的动作生成建模提升控制表达能力,并结合稳定部署机制提高真实环境下的执行可靠性。
整体来看,该方法并非依赖单一技巧,而是从数据、对齐、生成到部署稳定性,进行了端到端的全链路构建。因此,这套方法更具可扩展性,也更接近通用机器人操控智能的未来发展方向。
研究背后的科研团队
这项研究由智在无界创始人卢宗青团队主导。卢宗青是北京大学计算机学院长聘副教授,国家青年人才,北京智源学者。其主要研究方向包括强化学习、多模态大模型和具身智能,在相关领域顶级会议和期刊上发表论文100余篇,并担任ICML、ICLR、NeurIPS等机器学习顶级会议的领域主席。该研究工作获得了国家自然科学基金原创探索项目的资助。









