机器人世界模型：00后用人类数据获20亿融资

2026-06-16阅读 0热度 0

世界模型

陈源培的成长路径与传统意义上的“学霸”截然不同。

进入大学前，他把大量时间投入在电子游戏上。从FPS到MOBA，几乎每种类型都有涉猎，部分游戏的累计时长高达数千小时。高考前一晚，他还在宿舍打牌。如今回看这段经历，他并不认为需要修正什么。相反，游戏让他领悟到一个核心法则：只要持续投入，反复试错、迭代升级、系统复盘，最终一定能变得更强。

这套底层逻辑后来成为他贯穿始终的行动准则。本科阶段，土木工程出身的陈源培近乎从零起步闯入机器人领域，利用课余时间拼命补习算法、参与竞赛；进入北京大学杨耀东教授团队后，他在毫无基础的情况下，用三个月独立完成一项强化学习研究，成果最终发表在人工智能顶级会议上；凭借出色表现，他获得斯坦福大学李飞飞实验室的访问机会，参与了一项前沿研究——利用人类数据训练机器人进行双臂灵巧操作。

再往后，他又开启了一个全新“副本”：回国创业。

2024年9月，23岁的他与京东系创始人王启斌博士、柴晓杰博士共同创立了灵初智能（Psi Bot）。不到两年，这家公司累计融资超过20亿元。他们聚焦于机器人世界模型与具身大脑的研发，目标是让机器人理解物理世界、规划动作，并在多样化场景中完成长程操作任务。为了实现这一目标，灵初选择了一条从人类操作数据出发的技术路径。

而这条路线，实际上源于陈源培过去几年在强化学习、仿真和灵巧操作领域的研究积累。

从物体轨迹到人类数据

陈源培早期的研究重心是典型的强化学习和仿真方法。

在北大杨耀东团队时，他参与了双手灵巧操作方向的研究。这项工作的核心价值不仅在于算法本身，更在于当时验证了一个尚未被广泛认可的观点：借助GPU并行仿真，高自由度的双手操作任务是可以通过训练实现的。

当时，仿真效率是机器人强化学习的主要瓶颈之一。2019年，OpenAI利用Shadow Hand复原魔方曾引发广泛关注，但背后依赖的是大规模CPU集群。陈源培则较早接触到一套英伟达尚未正式发布的GPU机器人仿真平台。早期版本bug频出，经常无法正常运行，但他很快意识到，利用GPU同时运行大量仿真环境，可以显著降低机器人训练成本。

图｜OpenAI Shadow Hand（来源：OpenAI）

后续行业的发展验证了这一判断。GPU并行仿真逐渐成为机器人强化学习的关键基础设施，也使得许多过去成本高昂的实验变得可行。

不过，在斯坦福进行灵巧操作研究期间，陈源培也逐渐意识到仿真的局限性。仿真环境能够提供海量数据，但真实世界中的摩擦、碰撞、柔性物体以及复杂接触，很难被完全模拟。无论仿真技术多么先进，机器人最终必须面对真实物理世界。

于是，他决定转向另一条路径：从真实的人类操作中学习。

陈源培开始在斯坦福参与一个项目：利用人类动作数据训练机器人灵巧操作。这里面有两个关键转变：第一，数据来源从“机器人遥操作”转向“人类双手操作”；第二，任务表达从“机器人该如何运动”转向“物体该如何变化”。

在陈源培的观察中，许多看似复杂的操作，本质上都可以被描述为物体状态的变化。把手机从桌上拿起，是手机沿特定轨迹移动；打开笔记本电脑，是屏幕绕铰链旋转；开门、整理物品、放置工具，也都可以抽象为物体从一个状态到另一个状态的转变。

这种视角的优势在于，它提供了一种更统一的任务描述方式。过去，不同任务需要单独设计奖励函数；而以物体轨迹为核心，抓取、放置、开合、移动等行为便拥有了共同的表达语言。

这一思路，后来成为灵初智能技术路线的重要基石。

与许多依赖机器人遥操作数据的方案不同，灵初希望直接从人类操作中提取通用知识，再结合模仿学习和强化学习迁移到机器人身上。按照陈源培的理解，人类操作数据中既包含目标物体的位置、接近方式和操作意图等通用信息，也包含手指发力、关节运动等与人体结构强相关的细节。前者可以直接被模型学习，后者则由机器人在自身硬件上通过强化学习完成适配。

这也是灵初坚持布局灵巧手的重要原因。相比夹爪，五指手在结构上更接近人手，能够更充分地承接人类双手操作数据，降低从人到机器人的迁移成本。陈源培并不否认夹爪在固定工业场景中的成本和稳定性优势，但他认为，如果目标是跨场景、跨任务的通用操作能力，机器人最终仍然需要拥有一双“手”。

围绕这一思路，灵初自研了Psi-SynEngine数据采集引擎，核心是一套动捕手套方案。相比传统真机遥操作方式，数据采集成本可降至十分之一左右。

值得注意的是，这套数据体系并非服务于某一种固定硬件。灵初同时设计了高自由度和低自由度两种手部构型：前者面向复杂的灵巧操作，后者在成本和稳定性上更接近夹爪，可覆盖对灵巧性要求较低的工业场景。

图｜动捕手套（来源：灵初智能）

从人类数据到世界模型

如果说斯坦福时期的研究让陈源培确信，人类操作数据能为机器人提供比仿真更丰富的学习素材，那么创业之后，一个新问题很快浮现：仅仅拥有数据，并不等于机器人获得了能力。

原因在于，人和机器人并不共享同一套身体系统。同样是拿起一个杯子，人类会调用几十块肌肉协同完成；而机器人则拥有完全不同的关节结构、驱动方式和控制逻辑。即便看到了相同的操作过程，也无法简单复现人类动作。这种从人到机器人的差异，行业内称之为Embodiment Gap（具身鸿沟）。

在陈源培看来，人类数据真正有价值的部分，并非具体的手指轨迹，而是隐藏在操作过程中的目标、策略和世界规律。那么，机器人如何从海量人类操作数据中提取这些知识？

他和灵初给出的答案，是世界模型。

2026年，灵初发布了新一代具身模型Psi-R2。与传统VLA主要学习“看到什么就执行什么动作”不同，Psi-R2被定义为World Action Model（世界动作模型）。对于机器人而言，一个动作是否正确，往往取决于它对未来的预判。当机器人准备完成一项任务时，它不仅需要知道手应该如何移动，还需要预测当前动作会如何影响后续步骤，以及自己是否正在接近目标状态。

换句话说，它既要学会行动，也要学会预测行动的后果。

举个例子，在拆开纸盒包装的任务中，机器人需要连续完成识别纸盒结构、调整抓取姿态、展开纸盒、抓取物品等多个步骤。这并不是几个彼此独立动作的简单拼接，而是一项有明确目标的长程操作任务。对于Psi-R2来说，它不仅要决定下一步如何移动机械手，还需要持续理解任务进度，并根据当前状态规划后续动作，最终完成整个操作流程。相比传统策略模型，它更像一个同时理解任务目标和未来状态变化的行动规划系统。

另一套模型Psi-W0则承担着对未来世界进行推演的任务。按照灵初的定义，Psi-W0是一个Action-Conditioned World Model。它接收当前状态和候选动作，并预测未来可能出现的结果。

从表面上看，这与许多世界模型的思路类似。但灵初认为，Psi-W0最重要的价值并非生成未来视频，而是完成策略评估与数据转化。原因在于，Psi-R2的训练数据几乎全部来自成功样本。模型能够学习“正确的操作应该是什么样子”，却很难知道“错误操作会导致什么结果”。而对于强化学习而言，恰恰需要大量成功与失败的反馈，才能不断优化策略。

因此，Psi-W0被赋予了一个额外的角色：机器人的内部评测系统。

以倒酒任务为例，机器人可能存在多种不同的执行方案。杯子的倾斜角度是否合理？液体是否会溢出？当前动作是否会影响后续操作？Psi-W0会提前推演这些可能出现的未来状态，对不同动作方案进行评估与比较。机器人不必把所有尝试都放到真实世界中完成，而是能够先在模型构建的“想象世界”中完成推演，再选择更优策略去执行。

更重要的是，Psi-W0还承担着跨越具身鸿沟的任务。

在人类和机器人之间，存在天然的本体差异。同样一个操作任务，人类依靠手掌、手指和手腕协同完成，而机器人拥有完全不同的关节结构、自由度和动力学特性。因此，人类数据无法直接转化为机器人能力。

在灵初展示的双手协同操作任务中，左侧是人类通过外骨骼手套采集得到的操作轨迹，右侧是机器人执行后的结果。两者完成的是同一个任务，但使用的身体结构却完全不同。对于Psi-W0而言，它学习的并非人类具体如何运动手指，而是任务过程中物体状态如何发生变化。当模型理解了这种状态变化规律之后，再结合强化学习寻找符合机器人自身动力学特性的实现方式，从而完成从人类经验到机器人经验的迁移。

这也是灵初构建世界模型的重要目的之一：让人类操作数据不再只是训练样本，而是能够持续转化为机器人自身的数据和能力。

在灵初的设想中，人类数据只是整个系统的起点。人类操作数据首先用于训练Psi-R2；Psi-W0对策略进行评估与推演，并将人类经验转换为机器人数据；强化学习进一步优化策略；新的机器人数据再反哺下一轮模型训练。最终形成一个持续扩张的数据飞轮。

图｜数据飞轮示意（来源：灵初智能）

这也是陈源培认为，具身智能真正需要解决的问题，并非某一种算法是否更先进，而是如何建立这样一个能够持续产生新数据、新能力的系统。只有当机器人能够像大模型一样形成规模化学习闭环时，具身智能才有可能出现属于自己的Scaling Law。

三重世界模型

过去一年，走世界模型路线的公司，显然不止灵初智能一家。

但陈源培认为，当前大多数讨论仍停留在概念层面。世界模型本身并不直接创造价值，真正重要的是，它能否帮助机器人在真实场景中完成任务。无论是视频生成模型、VLA，还是各种预测模块，仅仅被冠以“世界模型”的名称，并不意味着找到了具身智能的新范式。

他提到了灵初另一位首席科学家温颖提出的“三重世界模型”框架。按照他的理解，人对世界的认知大致可以分为三层：最底层是客观世界本身，也就是物理规律；最上层是主体的决策与行动，可以理解为对未来行为及结果的预期；而两者之间，还存在一层更关键的机制。它负责判断哪些信息与当前任务相关，哪些只是背景噪声。

图｜三重世界模型示意（来源：温颖）

以抓取手机为例，机器人并不需要理解桌面上的一切。它真正需要关注的是手机的位置、形状、可抓取区域，以及当前动作会如何改变手机的状态。至于旁边的麦克风、桌面纹理，甚至背景环境中的大量视觉信息，对当前任务而言可能并不重要。

未来具身模型的核心能力之一，恰恰是这种主动筛选信息的能力。真正有效的模型，不是无差别地接收所有输入，而是能够识别哪些信息值得关注，哪些信息应该被忽略。

陈源培还将这一问题与大模型训练中的数据信噪比联系起来。模型能力较弱时，大量低质量数据或许仍能带来收益；但随着模型能力提升，继续引入信噪比较低的数据，反而可能稀释有效信息。具身智能同样如此。视觉、动作、触觉、人类操作轨迹等多模态数据并非越多越好，更重要的是模型能否从中提取出真正与任务相关的知识。

如果把灵初的系统放回“三重世界模型”的框架里，Psi-W0更接近对物理世界变化的模拟和预测，Psi-R2则面向真实动作输出，而中间的关键，是模型能否主动筛选与任务相关的信息，把人类数据中的有效知识迁移到机器手上。

这也是陈源培对“世界模型热”的真正态度。他不是反对世界模型，而是反对把世界模型当成一个口号。在他看来，具身智能需要的不是一个单独的模型名字，而是一套可验证的闭环：数据从哪里来，如何被筛选和表征，模型如何训练，策略如何在真实硬件上验证，失败结果如何反哺下一轮数据和训练。

具身智能的迷雾森林

2026年，具身智能已经成为全球资本最密集的AI赛道之一。但资本热度并不意味着技术路线已经收敛。

仿真派和真实数据派在争论，夹爪派和灵巧手派在争论，VLA和世界模型也尚未形成共识。陈源培用“迷雾森林”来形容当下的行业状态：大方向大致知道在哪里，但具体哪条路能最终走通，没有人能提前给出答案。正因为如此，他并不认为未来会由某一个算法概念来决定胜负。

无论是世界模型、VLA，还是其他不断出现的新框架，它们都可能推动行业进步，但很难单独构成长期壁垒。一个算法被提出之后，同行往往能够较快复现；真正难以复制的，是把算法落到真实机器人系统中的能力。这包括数据采集质量、数据处理流程、模型训练经验、仿真环境搭建、硬件设计、控制器调试、真机评测，以及这些环节之间的协同优化。

这套判断来自他过去的科研经验。无论是双手强化学习，还是斯坦福时期的长程灵巧操作，他最后得到的结论都是：很多时候不是别人不知道算法，而是系统没有调到足够好。仿真环境、reward设计、3D视觉、pose estimation、柔顺控制、真机部署，每个环节都要足够细，最后才可能做出别人做不到的效果。

灵初因此把硬件、数据和模型放在同一个系统里。硬件不是孤立产品，而是为了更好采集和承载人类操作数据；数据不是一次性资产，而是持续训练模型的燃料；模型也不是静态交付物，而要在真实任务中不断被评测、修正和迭代。如果这些问题成立，具身智能公司的价值就不只是做某个场景里的自动化设备，而是成为机器人时代的基础模型公司。

当然，灵初的路线也存在一定的未知。人类操作数据能否成为具身智能规模化学习的起点，世界模型与强化学习能否持续将其转化为机器人自身的数据与经验，最终形成类似大模型时代的数据飞轮，这些问题都还需要时间来验证。

陈源培没有回避这种不确定性。在他看来，如果未来某条路线被证明更有效，灵初需要有能力快速吸收和切换。他并不迷信任何一个当下流行的概念可以直接通向终局。具身智能最终会走向哪里，还要靠实验、数据和真实系统一点点去验证。

某种程度上，这也是他自己的人生态度。从打游戏到回国创业，他很少为自己设定一个遥远而明确的终点。相比宏大的规划，他更在意眼前的问题是否值得投入，以及自己是否真正享受解决问题的过程。

或许这也是这一代创业者最特别的地方。他们成长于大模型和机器人快速演进的时代，没有现成的地图，也没有被验证过的结局。他们能做的，只是在一次次实验、失败和迭代中，和自己所相信的技术一起寻找答案。

机器人世界模型：00后用人类数据获20亿融资

从物体轨迹到人类数据

从人类数据到世界模型

三重世界模型

具身智能的迷雾森林

相关阅读

最新教程

最新资讯