机器人世界模型:00后用人类数据获20亿融资

2026-06-16阅读 0热度 0
世界模型

陈源培的成长路径与传统意义上的“学霸”截然不同。

进入大学前,他把大量时间投入在电子游戏上。从FPS到MOBA,几乎每种类型都有涉猎,部分游戏的累计时长高达数千小时。高考前一晚,他还在宿舍打牌。如今回看这段经历,他并不认为需要修正什么。相反,游戏让他领悟到一个核心法则:只要持续投入,反复试错、迭代升级、系统复盘,最终一定能变得更强。

这套底层逻辑后来成为他贯穿始终的行动准则。本科阶段,土木工程出身的陈源培近乎从零起步闯入机器人领域,利用课余时间拼命补习算法、参与竞赛;进入北京大学杨耀东教授团队后,他在毫无基础的情况下,用三个月独立完成一项强化学习研究,成果最终发表在人工智能顶级会议上;凭借出色表现,他获得斯坦福大学李飞飞实验室的访问机会,参与了一项前沿研究——利用人类数据训练机器人进行双臂灵巧操作。

再往后,他又开启了一个全新“副本”:回国创业。

2024年9月,23岁的他与京东系创始人王启斌博士、柴晓杰博士共同创立了灵初智能(Psi Bot)。不到两年,这家公司累计融资超过20亿元。他们聚焦于机器人世界模型与具身大脑的研发,目标是让机器人理解物理世界、规划动作,并在多样化场景中完成长程操作任务。为了实现这一目标,灵初选择了一条从人类操作数据出发的技术路径。

而这条路线,实际上源于陈源培过去几年在强化学习、仿真和灵巧操作领域的研究积累。

从物体轨迹到人类数据

陈源培早期的研究重心是典型的强化学习和仿真方法。

在北大杨耀东团队时,他参与了双手灵巧操作方向的研究。这项工作的核心价值不仅在于算法本身,更在于当时验证了一个尚未被广泛认可的观点:借助GPU并行仿真,高自由度的双手操作任务是可以通过训练实现的。

当时,仿真效率是机器人强化学习的主要瓶颈之一。2019年,OpenAI利用Shadow Hand复原魔方曾引发广泛关注,但背后依赖的是大规模CPU集群。陈源培则较早接触到一套英伟达尚未正式发布的GPU机器人仿真平台。早期版本bug频出,经常无法正常运行,但他很快意识到,利用GPU同时运行大量仿真环境,可以显著降低机器人训练成本。


图 |OpenAI Shadow Hand(来源:OpenAI)

后续行业的发展验证了这一判断。GPU并行仿真逐渐成为机器人强化学习的关键基础设施,也使得许多过去成本高昂的实验变得可行。

不过,在斯坦福进行灵巧操作研究期间,陈源培也逐渐意识到仿真的局限性。仿真环境能够提供海量数据,但真实世界中的摩擦、碰撞、柔性物体以及复杂接触,很难被完全模拟。无论仿真技术多么先进,机器人最终必须面对真实物理世界。

于是,他决定转向另一条路径:从真实的人类操作中学习。

陈源培开始在斯坦福参与一个项目:利用人类动作数据训练机器人灵巧操作。这里面有两个关键转变:第一,数据来源从“机器人遥操作”转向“人类双手操作”;第二,任务表达从“机器人该如何运动”转向“物体该如何变化”。

在陈源培的观察中,许多看似复杂的操作,本质上都可以被描述为物体状态的变化。把手机从桌上拿起,是手机沿特定轨迹移动;打开笔记本电脑,是屏幕绕铰链旋转;开门、整理物品、放置工具,也都可以抽象为物体从一个状态到另一个状态的转变。

这种视角的优势在于,它提供了一种更统一的任务描述方式。过去,不同任务需要单独设计奖励函数;而以物体轨迹为核心,抓取、放置、开合、移动等行为便拥有了共同的表达语言。

这一思路,后来成为灵初智能技术路线的重要基石。

与许多依赖机器人遥操作数据的方案不同,灵初希望直接从人类操作中提取通用知识,再结合模仿学习和强化学习迁移到机器人身上。按照陈源培的理解,人类操作数据中既包含目标物体的位置、接近方式和操作意图等通用信息,也包含手指发力、关节运动等与人体结构强相关的细节。前者可以直接被模型学习,后者则由机器人在自身硬件上通过强化学习完成适配。

这也是灵初坚持布局灵巧手的重要原因。相比夹爪,五指手在结构上更接近人手,能够更充分地承接人类双手操作数据,降低从人到机器人的迁移成本。陈源培并不否认夹爪在固定工业场景中的成本和稳定性优势,但他认为,如果目标是跨场景、跨任务的通用操作能力,机器人最终仍然需要拥有一双“手”。

围绕这一思路,灵初自研了Psi-SynEngine数据采集引擎,核心是一套动捕手套方案。相比传统真机遥操作方式,数据采集成本可降至十分之一左右。

值得注意的是,这套数据体系并非服务于某一种固定硬件。灵初同时设计了高自由度和低自由度两种手部构型:前者面向复杂的灵巧操作,后者在成本和稳定性上更接近夹爪,可覆盖对灵巧性要求较低的工业场景。


图 | 动捕手套(来源:灵初智能)

从人类数据到世界模型

如果说斯坦福时期的研究让陈源培确信,人类操作数据能为机器人提供比仿真更丰富的学习素材,那么创业之后,一个新问题很快浮现:仅仅拥有数据,并不等于机器人获得了能力。

原因在于,人和机器人并不共享同一套身体系统。同样是拿起一个杯子,人类会调用几十块肌肉协同完成;而机器人则拥有完全不同的关节结构、驱动方式和控制逻辑。即便看到了相同的操作过程,也无法简单复现人类动作。这种从人到机器人的差异,行业内称之为Embodiment Gap(具身鸿沟)。

在陈源培看来,人类数据真正有价值的部分,并非具体的手指轨迹,而是隐藏在操作过程中的目标、策略和世界规律。那么,机器人如何从海量人类操作数据中提取这些知识?

他和灵初给出的答案,是世界模型。

2026年,灵初发布了新一代具身模型Psi-R2。与传统VLA主要学习“看到什么就执行什么动作”不同,Psi-R2被定义为World Action Model(世界动作模型)。对于机器人而言,一个动作是否正确,往往取决于它对未来的预判。当机器人准备完成一项任务时,它不仅需要知道手应该如何移动,还需要预测当前动作会如何影响后续步骤,以及自己是否正在接近目标状态。

换句话说,它既要学会行动,也要学会预测行动的后果。

举个例子,在拆开纸盒包装的任务中,机器人需要连续完成识别纸盒结构、调整抓取姿态、展开纸盒、抓取物品等多个步骤。这并不是几个彼此独立动作的简单拼接,而是一项有明确目标的长程操作任务。对于Psi-R2来说,它不仅要决定下一步如何移动机械手,还需要持续理解任务进度,并根据当前状态规划后续动作,最终完成整个操作流程。相比传统策略模型,它更像一个同时理解任务目标和未来状态变化的行动规划系统。

另一套模型Psi-W0则承担着对未来世界进行推演的任务。按照灵初的定义,Psi-W0是一个Action-Conditioned World Model。它接收当前状态和候选动作,并预测未来可能出现的结果。

从表面上看,这与许多世界模型的思路类似。但灵初认为,Psi-W0最重要的价值并非生成未来视频,而是完成策略评估与数据转化。原因在于,Psi-R2的训练数据几乎全部来自成功样本。模型能够学习“正确的操作应该是什么样子”,却很难知道“错误操作会导致什么结果”。而对于强化学习而言,恰恰需要大量成功与失败的反馈,才能不断优化策略。

因此,Psi-W0被赋予了一个额外的角色:机器人的内部评测系统。

以倒酒任务为例,机器人可能存在多种不同的执行方案。杯子的倾斜角度是否合理?液体是否会溢出?当前动作是否会影响后续操作?Psi-W0会提前推演这些可能出现的未来状态,对不同动作方案进行评估与比较。机器人不必把所有尝试都放到真实世界中完成,而是能够先在模型构建的“想象世界”中完成推演,再选择更优策略去执行。

更重要的是,Psi-W0还承担着跨越具身鸿沟的任务。

在人类和机器人之间,存在天然的本体差异。同样一个操作任务,人类依靠手掌、手指和手腕协同完成,而机器人拥有完全不同的关节结构、自由度和动力学特性。因此,人类数据无法直接转化为机器人能力。

在灵初展示的双手协同操作任务中,左侧是人类通过外骨骼手套采集得到的操作轨迹,右侧是机器人执行后的结果。两者完成的是同一个任务,但使用的身体结构却完全不同。对于Psi-W0而言,它学习的并非人类具体如何运动手指,而是任务过程中物体状态如何发生变化。当模型理解了这种状态变化规律之后,再结合强化学习寻找符合机器人自身动力学特性的实现方式,从而完成从人类经验到机器人经验的迁移。

这也是灵初构建世界模型的重要目的之一:让人类操作数据不再只是训练样本,而是能够持续转化为机器人自身的数据和能力。

在灵初的设想中,人类数据只是整个系统的起点。人类操作数据首先用于训练Psi-R2;Psi-W0对策略进行评估与推演,并将人类经验转换为机器人数据;强化学习进一步优化策略;新的机器人数据再反哺下一轮模型训练。最终形成一个持续扩张的数据飞轮。


图|数据飞轮示意(来源:灵初智能)

这也是陈源培认为,具身智能真正需要解决的问题,并非某一种算法是否更先进,而是如何建立这样一个能够持续产生新数据、新能力的系统。只有当机器人能够像大模型一样形成规模化学习闭环时,具身智能才有可能出现属于自己的Scaling Law。

三重世界模型

过去一年,走世界模型路线的公司,显然不止灵初智能一家。

但陈源培认为,当前大多数讨论仍停留在概念层面。世界模型本身并不直接创造价值,真正重要的是,它能否帮助机器人在真实场景中完成任务。无论是视频生成模型、VLA,还是各种预测模块,仅仅被冠以“世界模型”的名称,并不意味着找到了具身智能的新范式。

他提到了灵初另一位首席科学家温颖提出的“三重世界模型”框架。按照他的理解,人对世界的认知大致可以分为三层:最底层是客观世界本身,也就是物理规律;最上层是主体的决策与行动,可以理解为对未来行为及结果的预期;而两者之间,还存在一层更关键的机制。它负责判断哪些信息与当前任务相关,哪些只是背景噪声。


图|三重世界模型示意(来源:温颖)

以抓取手机为例,机器人并不需要理解桌面上的一切。它真正需要关注的是手机的位置、形状、可抓取区域,以及当前动作会如何改变手机的状态。至于旁边的麦克风、桌面纹理,甚至背景环境中的大量视觉信息,对当前任务而言可能并不重要。

未来具身模型的核心能力之一,恰恰是这种主动筛选信息的能力。真正有效的模型,不是无差别地接收所有输入,而是能够识别哪些信息值得关注,哪些信息应该被忽略。

陈源培还将这一问题与大模型训练中的数据信噪比联系起来。模型能力较弱时,大量低质量数据或许仍能带来收益;但随着模型能力提升,继续引入信噪比较低的数据,反而可能稀释有效信息。具身智能同样如此。视觉、动作、触觉、人类操作轨迹等多模态数据并非越多越好,更重要的是模型能否从中提取出真正与任务相关的知识。

如果把灵初的系统放回“三重世界模型”的框架里,Psi-W0更接近对物理世界变化的模拟和预测,Psi-R2则面向真实动作输出,而中间的关键,是模型能否主动筛选与任务相关的信息,把人类数据中的有效知识迁移到机器手上。

这也是陈源培对“世界模型热”的真正态度。他不是反对世界模型,而是反对把世界模型当成一个口号。在他看来,具身智能需要的不是一个单独的模型名字,而是一套可验证的闭环:数据从哪里来,如何被筛选和表征,模型如何训练,策略如何在真实硬件上验证,失败结果如何反哺下一轮数据和训练。

具身智能的迷雾森林

2026年,具身智能已经成为全球资本最密集的AI赛道之一。但资本热度并不意味着技术路线已经收敛。

仿真派和真实数据派在争论,夹爪派和灵巧手派在争论,VLA和世界模型也尚未形成共识。陈源培用“迷雾森林”来形容当下的行业状态:大方向大致知道在哪里,但具体哪条路能最终走通,没有人能提前给出答案。正因为如此,他并不认为未来会由某一个算法概念来决定胜负。

无论是世界模型、VLA,还是其他不断出现的新框架,它们都可能推动行业进步,但很难单独构成长期壁垒。一个算法被提出之后,同行往往能够较快复现;真正难以复制的,是把算法落到真实机器人系统中的能力。这包括数据采集质量、数据处理流程、模型训练经验、仿真环境搭建、硬件设计、控制器调试、真机评测,以及这些环节之间的协同优化。

这套判断来自他过去的科研经验。无论是双手强化学习,还是斯坦福时期的长程灵巧操作,他最后得到的结论都是:很多时候不是别人不知道算法,而是系统没有调到足够好。仿真环境、reward设计、3D视觉、pose estimation、柔顺控制、真机部署,每个环节都要足够细,最后才可能做出别人做不到的效果。

灵初因此把硬件、数据和模型放在同一个系统里。硬件不是孤立产品,而是为了更好采集和承载人类操作数据;数据不是一次性资产,而是持续训练模型的燃料;模型也不是静态交付物,而要在真实任务中不断被评测、修正和迭代。如果这些问题成立,具身智能公司的价值就不只是做某个场景里的自动化设备,而是成为机器人时代的基础模型公司。

当然,灵初的路线也存在一定的未知。人类操作数据能否成为具身智能规模化学习的起点,世界模型与强化学习能否持续将其转化为机器人自身的数据与经验,最终形成类似大模型时代的数据飞轮,这些问题都还需要时间来验证。

陈源培没有回避这种不确定性。在他看来,如果未来某条路线被证明更有效,灵初需要有能力快速吸收和切换。他并不迷信任何一个当下流行的概念可以直接通向终局。具身智能最终会走向哪里,还要靠实验、数据和真实系统一点点去验证。

某种程度上,这也是他自己的人生态度。从打游戏到回国创业,他很少为自己设定一个遥远而明确的终点。相比宏大的规划,他更在意眼前的问题是否值得投入,以及自己是否真正享受解决问题的过程。

或许这也是这一代创业者最特别的地方。他们成长于大模型和机器人快速演进的时代,没有现成的地图,也没有被验证过的结局。他们能做的,只是在一次次实验、失败和迭代中,和自己所相信的技术一起寻找答案。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策