全球具身智能10万小时数据评测：PI英伟达对比

2026-06-24阅读 0热度 0

机器人

具身智能领域正面临一种难以回避的现实挑战：依赖真机遥操作采集数据这条路径，其边际效益正在快速递减。

成本首当其冲——捕获一小时操作数据，动辄需要数百元投入，且必须配置完整的动作捕捉环境。效率更是硬伤：操作员盯着屏幕遥控机械臂，采集节奏远落后于实际生产节拍。这意味着，仅凭遥操作数据，很难兼顾大规模模型预训练与产业落地的双重刚性需求。

那么，是否存在另一条更优的数据供给路径？

人类在真实工况中，每天都在完成海量的高精度操作。一个直觉性的解法是：让人直接执行任务，然后将人的操作数据“转移”给机器人复用。然而，这里存在两个核心障碍。首先，人手与机械手在结构上差异显著，人类动作无法直接映射到机器人本体。其次，仅依赖第一视角视频还原手部动作，其精度通常难以支撑精细操作类任务。

近期，灵初智能发布了一套完整的解决方案。他们基于10万小时人类操作数据构建了一个名为PSI的训练框架，核心由两个大模型组成：策略模型Psi-R2，负责习得“任务流程”；世界模型Psi-W0，负责生成“备选动作路径”的推演结果。两者协同运作，将人类操作数据逐步转化为机器人可直接执行的精准动作。

除了这套方法论，灵初还公布了近10万小时的人类操作数据集，并同时开源了一个1000小时的数据子集。

一、10万小时人类数据：正成为机器人预训练的主干原料

这条技术路线的起点非常明确：将人类操作数据直接作为机器人模型预训练的主干数据源。据披露，Psi-R2的预训练阶段同时使用了真机数据与人类数据。其中，真机数据来源于灵初自建的Psi-MobiDex数据集，共计5417小时；人类数据总量则达到了95472小时，覆盖了294种操作场景、4821类任务原型以及1382种交互物体。

这背后是基于产业现状的务实判断。具身智能领域长期面临“存量数据”匮乏的困境——它不像自动驾驶行业，拥有多年的路测数据积累；也不像大语言模型，可以轻易从互联网上海量文本语料中提取知识。机器人要习得执行任务的能力，无法从现成的语料库中“提取”，必须依赖现实世界逐帧逐轨道的“喂养”。

真机遥操作曾是一条相对直接的路径。但随着模型参数规模的膨胀以及任务复杂度的攀升，这种数据供给方式已明显力不从心。因此，人类操作数据的战略价值被重新评估。其优势在于两点：第一，来源天然充足，人类本身就在不间断地从事各类生产活动；第二，数据更贴近真实作业标准，天然携带了明确的任务目标、精细的动作细节以及连贯的操作节拍。简言之，机器人要掌握干活技能，最密集、最成熟的示范样本，就来自人类的手部操作。

核心问题在于，如何高效地将人类数据与真机数据“融合”训练。灵初团队曾尝试过多种复杂方案，如图像修复、关键点辅助损失函数、跨空间对齐等。在小数据量条件下，这些方法确实有效。然而，一旦数据规模攀升，这些精巧的模块反而成为了系统瓶颈。原因并不复杂：这类方法的本质是试图在视觉或特征层面对齐人手与机械手——但两者的物理运动规律本就截然不同。对于手机装配这类精密操作，强行对齐反而会引入更多误差。

最终推到工程实践的，反而是一条更朴素、更直接的路线：Raw Data In, Raw Data Out。即在工程实现上，利用运动学公式直接通过人手关节角度计算映射到机械手关节角度，图像数据则原封不动地直接送入模型处理，人为介入的预处理越少越好。从实际结果看，这条路径已初步走通。据披露，Psi-R2在完成大规模预训练后，仅需少于100条真机轨迹进行微调，即可胜任手机装配、工业包装、纸盒折叠等长时序、高精度的操作任务。

当然，仅有数据还不够。如何让机器人高效地“消化”这些数据？这正是这套框架的真正核心——世界模型驱动的强化学习机制。

二、Psi-W0：补齐“如果失败会怎样”的反事实推理能力

单纯审视Psi-R2，这套方法存在一个天然的局限：它擅长从成功的执行轨迹中学习经验，但自身难以衍生出反事实推理能力。这正是世界模型需要登场的场景。

Psi-W0接收图像、语言指令以及机器人动作轨迹作为输入，输出对未来场景的视频级预测。它与Psi-R2最本质的区别在于：动作序列在模型中不仅是预测的结果，更是参与条件生成的关键输入变量。换言之，它是一个典型的动作条件型世界模型。

用更通俗的比喻来解释：Psi-R2像一位“善于解题的学生”，而Psi-W0则类似于一套能够反复推演解题过程的训练系统。策略模型知道什么动作曾经成功过，却无法知晓——如果动作偏移一点、顺序打乱一下、接触时刻延迟一点——将会发生什么。然而，强化学习、策略评估，乃至人类动作真正向机器人动作的迁移，全都离不开这部分“失败”或“偏差”信息。

为了让模型学会理解失败场景，Psi-W0在训练过程中特意加入了约30%的失败样本数据，这些数据来源于专项采集、常规流程采集以及推理过程中的产出。这样一来，模型不仅认知“成功轨迹有何特征”，也开始掌握“失败场景会如何演变展开”。

在整套系统中，Psi-W0承担着两个层次的核心功能。第一层是效果评估。数据规模再大，也不能保证知识自动嵌入模型参数。策略模型是否真正掌握了“人是怎么完成这项操作”的精髓？需要一个能够推演轨迹、评判效果的检测系统来验证，Psi-W0正扮演这一角色。

第二个功能更为关键：它直接参与将人类操作数据转化为机器人可执行数据的过程。以抓取任务为例，人类抓取苹果的动作映射到机器人身上后，很可能因为细微的位姿偏差导致抓取失败。对于高精细操作任务，这种偏差往往是致命的。传统解决路径需要将物体和场景重建到仿真器中，再在仿真环境中进行强化学习微调——流程繁琐、成本高昂，还必须面对仿真到现实（Sim-to-Real）的鸿沟。

灵初智能的解法，是将这一迁移过程搬进世界模型内部完成。具体流程是：先让Psi-R2学习一条人类操作数据轨迹，接着将这条轨迹输送给Psi-W0进行推演，在机器人视觉与机器人动力学参数条件下观察动作执行结果；如果结果不理想，便继续通过强化学习迭代调整，直至该轨迹更贴近机器人实际能够执行的最终状态。整体来看，这相当于为模型提供了一个“在虚拟空间试错纠偏”的环境。执行效果理想的轨迹可以回流到训练池中，成为新的有效训练数据；而发生偏离的轨迹同样具有价值，它们帮助模型识别失败条件的边界，推动世界模型的预测能力越来越精准。所谓的数据飞轮效应，正是以这种方式运转起来的。

这套方法很快在公开评测榜单上得到了验证。在美国艾伦人工智能研究所发起的MolmoSpaces基准评测中，灵初智能的Psi-R2在总榜中位列第一，整体表现显著优于包括具身大模型标杆π以及英伟达GEAR在内的主流方案，并与其它基线模型拉开了明显差距。MolmoSpaces当前是具身智能领域少数与真实世界环境评测有较强相关性的公开基准之一，吸引了包括NVIDIA、PI在内的全球顶级团队参与角逐。

三、数据的真正分水岭：信噪比、位姿精度与操作节拍

如果说双模型架构回应了“如何学习”这一方法论问题，那么这次发布中另一个更值得探究的关键，是“什么样的数据才值得用于训练”。灵初智能给出了一个明确的判断：决定数据价值的主导因素，不在于数量本身，而在于信噪比。低信噪比数据不仅训练效率低下，还会拖累整体模型效果的收敛。

再往细部分析：在数据分布方面，优先级的排序是“任务多样性 > 物体多样性 >> 场景多样性”；在感知模态方面，优先级则是“精准3D位姿 >> 触觉模态 > 2D图像特征”。这一结论具有很强的指向性，它表明具身智能模型真正稀缺的资源，是更丰富的任务类型、更扎实的物体交互能力，以及更高精度的动作轨迹信息。毕竟对于操作任务而言，背景往往是次要信息，模型真正需要学习的是物体属性、动作模式以及接触关系。

在上述几个维度中，3D位姿精度尤为关键。当前主流的人类操作数据采集方案中，纯第一视角视频虽然成本低、规模易于扩展，但精度始终是硬伤。根据灵初披露的技术细节，他们通过端到端的第一视角手部检测模型来预测MANO参数和位姿，再结合DPVO和Any4D，将动作轨迹统一到世界坐标系。即便如此，仅依靠纯第一视角视频恢复的人手操作轨迹，误差仍然处于毫米级别；只有引入自研的外骨骼手套进行数据采集后，才能将误差压缩到亚毫米级别。这也是为何精细装配场景对数据采集精度格外敏感。手机装配、纸盒插接、精密抓取这类任务，很多环节并不是凭借“差不多”就能完成——误差只要再放大一个量级，动作就会完全失效。

除了位姿精度，另一条重要线索是触觉信号。近些年，触觉在机器人通用模型体系中一直是个稀缺模态。原因在于，机器人端的触觉传感器本身难以稳定部署，而不同硬件厂商的数据格式也互不兼容，尝试将其构建为可规模化复用的数据源十分困难。但人类侧的触觉采集条件则相对宽松许多，设备更轻便，成本也更低。

灵初本次将触觉视作一条关键的数据线索。人和机器人外形不同、关节结构不同、动力学特性不同，但“接触发生与否”、“接触发生于何时”这类信号，本质上构成了一种跨本体的共通语言。考虑到现实中大多数机器人并没有成熟可用的触觉通道，灵初采用了Mask Training的训练方式：在真机数据输入阶段屏蔽触觉通道，让模型自主去预测触觉信号，而不是直接将其作为观测输入。据披露，引入触觉信号辅助训练后，Psi-W0的表现得到了明显提升，模型对机器人与物体交互过程的预判能力也显著增强。

再往下看，真正将实验室和工厂区分开的核心要素，仍然是操作节拍。这也是人类操作数据被重新重视的另一个深层次原因。真实工厂里的标准作业流程（SOP），往往是经过长期打磨得出的最优解，每多一个冗余动作、每慢一个操作节拍，都可能在规模化生产中被几何级放大。假设机械臂的物理运行上限是1200（单位），遥操作的节拍往往只能做到800甚至更低；而人在本职工作中完成操作时，其节拍可以逼近机械臂的运动极限。换句话说，人类数据的价值不仅在于采集成本更低，也在于它天然更贴近真实的作业SOP，更符合实际产线的作业速度。对于希望走向落地的具身智能模型而言，这类数据天然更匹配产业端的真实需求。

四、1000小时开源数据集：背后是一条更完整的训练链路

灵初本次还同步发布了一套开源数据集。在总规模近10万小时的人类操作数据中，率先开源了其中的1000小时。

不要低估这1000小时的价值——其核心亮点隐藏在数据结构设计中。数据被划分为两大类：第一类是高精度数据，经过处理后的轨迹能够高度对齐真机数据，具备极强的可回放性；第二类则专攻大规模扩展，精度处于可控范围，优先将数据总量和泛化空间拉到最大。一套负责操作精度，一套负责拓宽预训练的边界——两种数据被统一放置在同一套训练体系中，整套训练框架才算真正形成了闭环。

顺着这条思路继续分析，本次发布的核心看点，早已不止局限于模型名称、榜单排名或开源数据本身。灵初真正对外展示的，是一条完整的训练链路：当真机遥操作的数据供给无法支撑大规模预训练时，就把人类操作数据纳入训练主干。但仅有人类数据远远不够——还需要策略模型来承接与解析，需要世界模型来执行反事实推演和强化学习调优，同时还需要一套高效的转换机制，将人的操作动作稳定、精准地转化为机器人可以执行的指令序列。

显然，灵初意在争夺的，不仅仅是某一次公开榜单的领先位置。它正在押注的，是下一代具身智能训练框架的赛道卡位战。

全球具身智能10万小时数据评测：PI英伟达对比

一、10万小时人类数据：正成为机器人预训练的主干原料

二、Psi-W0：补齐“如果失败会怎样”的反事实推理能力

三、数据的真正分水岭：信噪比、位姿精度与操作节拍

四、1000小时开源数据集：背后是一条更完整的训练链路

相关阅读

最新教程

最新资讯