具身智能新突破：JHU陈杰能团队融合世界与心智模型，赋予AI想象力

2026-05-16阅读 0热度 0

具身智能

一项由马尔奖得主、约翰霍普金斯大学Alan Yuille教授团队主导的研究，为具身智能领域带来了新的突破。这项名为GenEx的研究，其核心在于为AI系统构建一种“生成式想象力”——使智能体能够在自身“想象”并合成的三维环境中进行主动探索与学习。

受人类认知机制的启发，GenEx旨在模拟大脑对世界的理解与推理过程，以构建更灵活、更具适应性的智能系统。其架构包含两个协同工作的核心模块：一个能够根据单视角输入动态生成连贯三维环境的“世界模拟器”；另一个则是能够在此模拟环境中交互、并据此优化自身决策策略的“具身智能体”。二者形成一个闭环的共生系统，使AI能够以近似人类心智模拟的方式进行探索与认知迭代。

GenEx仅需单张RGB图像，即可生成一个空间连贯、可供探索的三维环境，并能将其扩展为沉浸式的360度全景视图。在这种生成式能力的驱动下，智能体能够执行复杂的具身任务，例如开放环境探索与目标导向导航。它通过预测物理世界中未被直接观测部分的潜在状态来完善认知，并在潜在决策空间中进行模拟推演，从而做出更优选择。该系统还支持多智能体协同：当一个智能体导航至另一智能体所在位置时，可以融合对方“想象”出的环境认知来更新自身的世界模型。

这项研究的第一作者是约翰霍普金斯大学的中国博士生陈杰能。

在将研究方向转向世界模型与空间智能之前，陈杰能深耕于医学图像分析领域。他本科毕业于同济大学计算机系，于2020年赴约翰霍普金斯大学攻读博士学位，师从Alan Yuille教授。此前，他提出了首个融合Transformer与U-Net的架构TransUNet，该模型引用量已超5000次。

自今年起，他的研究重心转移至世界模型与空间智能，主要探索如何从单张图像生成可交互的3D环境，并将此环境作为具身智能体的“心智模型”，以提升其决策能力。从医疗影像到具身智能，陈杰能认为自己在上一阶段的任务已告一段落，“接下来希望寻找新的前沿问题，参与到更早期的探索中去。”

AI赋能癌症筛查：从模型架构到临床价值

问：您读博前发表的TransUNet引用量已超5000，当初的创作灵感来源于什么？

陈杰能：当时我正在研究物体边缘的语义建模，由此产生了进行序列建模的想法。Transformer在全局上下文建模上优势明显，但在捕捉精细的局部边缘细节方面存在局限。2020年底，Transformer在分类任务中已获成功，但其在密集预测任务中的有效性尚待验证。为了兼顾全局与局部信息，我尝试将Transformer与擅长局部特征提取的UNet相结合。实践表明，这种组合能有效平衡长距离依赖建模与局部细节还原，从而支撑更广泛的任务需求。

之后，我将TransUNet扩展至3D版本，并应用于多癌种筛查任务。至今，TransUNet仍是一个被广泛采用的基准架构，常见于图像分割及扩散模型等任务中。

问：您是如何进入计算机视觉领域，并专注于医学影像研究的？

陈杰能：2017年我在慕尼黑工业大学交换期间，选修了Daniel Cremers教授的计算机视觉课程。有趣的是，Daniel曾是我现任导师Alan Yuille的博士后。那门课程偏重几何与理论，让我对前沿科研产生了浓厚兴趣。回国后，我加入同济大学陈广老师的课题组，开始研究车辆检测。

2019年暑期，我通过机缘联系到Alan Yuille教授。他当时正与约翰霍普金斯医院合作推进癌症早筛项目，团队中包括像抑癌因子P53发现者这样的顶尖临床专家。他们虽非AI背景，却敏锐地意识到AI在医疗领域的变革潜力。这个领域兼具规模化应用前景与切实的社会价值，吸引我深入其中。

问：您后来在达摩院医疗AI团队实习，并主导了CancerUniT项目，可以分享一下吗？

陈杰能：项目负责人吕乐是我在约翰霍普金斯大学的学长，他的导师与我的导师早有合作，我们相识较早。

当时医疗AI研究大多针对单一病种，达摩院希望我参与构建一个多癌种筛查系统。具体目标是开发一个AI模型，能够通过一次CT扫描，同步筛查出八种高发癌症并鉴别14种相关亚型。这八种癌症覆盖了国内近80%的癌症病例。

在医疗AI的众多方向中，疾病筛查，尤其是针对癌症、阿尔茨海默症等重大疾病的早期检测，具有最高的优先级。癌症因其高发病率与死亡率，在我当时看来是一个值得全力投入的“黄金问题”。攻克它如同攀登一座高峰，若能提前取得进展，便能惠及更多患者与家庭。我怀着极大的热情，希望为此贡献一份力量。在项目推进中，我与合作者共同明确了问题定义，并构建了一个兼具高灵敏度与高特异性的基础模型。目前，达摩院正在此基础上进一步扩展该多癌模型，我期待它能早日投入实际应用。

从视觉基础模型到空间智能的演进

问：之后您加入字节Seed团队从事视觉基础模型研究，是出于怎样的考虑？

陈杰能：我的mentor Liang-Chieh Chen在谷歌时就曾邀请我实习，当时我选择了达摩院，便约定次年加入。后来他加入字节并领导Seed部门的基础研究组，我也随之加入。

2023年，多模态大模型是业界焦点。Liang-Chieh Chen在深度学习架构设计方面经验深厚，尤其在MobileNetv2和DeepLab上贡献卓著。我希望有机会对大模型的视觉编码器进行一次系统性的重新设计，探索新的技术路径并打磨自身能力，因此做出了这个选择。

问：首次主导设计视觉编码器架构并成功发表ViTamin，您有何体会？

陈杰能：整个过程，从设计到完成，都令我感触颇深。

我负责基础架构的设计与探索，需要规划多模态大模型中的视觉编码器，并研究其扩展规律。由于训练成本高昂，通常只有一次机会，因此设计必须兼具创新性与稳健性。

最终，我们的视觉编码器在ImageNet零样本准确率上达到了83%的SOTA水平，并能有效迁移至大模型中，我们摸索出了一条可行的扩展路径。将模型性能推向极致的过程充满挑战，也带来了巨大的成就感。

如果将多模态模型比作智能体，视觉编码器便是其“眼睛”。今年初，业界普遍认识到视觉编码器在大模型中的关键性，并开始专项优化，这让我再次体会到此项工作的重要性。

此外，ViTamin最高分的模型参数量仅为4.36亿（不足0.5B），在追求巨量化参数的2023年显得非常精简。在我们所能获取的最佳数据条件下，这个规模已触及扩展规律的极限。有趣的是，今年小模型也开始受到重视，如今为了终端部署，多模态模型通常也只采用几百兆参数的视觉编码器。这显示出扩展规律最终会收敛到一个最优配置。

问：为何今年您的研究方向从医学影像转向了空间智能？空间智能的核心挑战是什么？

陈杰能：我相信在工业界与医疗机构的共同推动下，癌症筛查这一关键问题将在未来几年得到有效解决。我此前的工作有助于其规模化落地，可以说完成了阶段性使命。现在我希望探索新的前沿领域，而空间智能、具身智能等方向方兴未艾，参与早期探索很有价值。

我的导师Alan早在1990年就研究过三维物体表面曲率，实验室也长期关注3D视觉，我深受熏陶。今年我开始着手攻克一两个“黄金问题”，希望推动空间智能与具身智能的发展。

空间智能近期备受关注，它涉及从单张图像进行3D重建或从视频进行4D建模，本质上是逆向图形学——即从2D观测中推断出三维场景的结构、物体类别、位置及几何信息。

举例来说，游戏引擎通过3D场景配置文件渲染出2D图像，这是一个正向过程；计算机视觉则致力于逆向推理，从2D图像重建3D场景。若能攻克此难题，计算机视觉将取得重大突破，例如提升GPT等模型的空间推理能力，或改善生成视频的物理合理性。因此，从图像中推理三维场景是空间智能的核心课题之一。

我目前的工作集中于空间推理。不久前发布的Gemini 2也强调了其空间推理能力，但我们近期开发的基准测试3DSRBench显示，其准确率仅为50%，远低于人类的95%。结果公布后，DeepMind的研究人员也开放了相关代码库，共同推进大模型的空间推理能力。这表明在空间智能，特别是空间推理方面，机器与人类仍存在显著差距。

问：空间智能与医疗图像分析之间存在哪些关联与区别？

陈杰能：两者都涉及对复杂图像数据的处理与场景理解。医疗图像的三维解析与空间智能的三维重建目标相似，都需要将像素数据转化为对三维结构及语义关系的预测，并提取关键信息如位置与形态。在医疗影像中，这具体表现为对器官、病灶及其空间关系的精确分析。

区别主要体现在两方面：数据层面，医疗图像通常是规则的三维数据（如CT、MRI），范围有限且结构相对规整，数据复杂度较低；而空间智能处理的数据包含大量不规则、可形变、有关节活动的物体，复杂度更高。优化目标层面，空间智能与具身智能强调实时性、泛化性与通用感知能力；医疗AI则追求在特定任务上达到专家级精度与可靠性，二者目标迥异。

心智模型：具身智能的高阶认知框架

问：您是从何时开始关注世界模型这一方向的？

陈杰能：我对世界模型的研究与空间智能、具身智能同步展开。空间推理是智能体感知物理世界的起点，但仅凭感知不足以支撑其对世界的交互理解。构建一个可预测、可交互的世界模型，能更有效地帮助智能体在真实环境中进行决策。

世界模型的定义尚未统一，但其在控制论等领域已有二三十年的应用历史。一个本质的定义是：给定当前状态分布与动作输入，能否预测出下一时刻的状态分布。早期的实践对“状态”的定义较为简单。

我认为世界模型的本质在于提供对世界变化的预测性分布，但这里的“世界变化”不应是简单的低维状态，而应是一个涵盖四维时空的丰富表征，包括对物体语义、纹理、三维几何、形态、形变、运动特性以及物体间空间关系的综合建模。

我关注的一个核心难点是，能否从图像观测中提取出上述的三维空间表征，作为世界模型的状态输入。同时，我也聚焦于世界模型在具身智能中的具体应用。

问：您近期发布了“生成式世界探索者”（GenEx），实现了从单张图像生成可交互3D世界，这个想法是如何产生的？

陈杰能：人类在探索未知环境时，能够通过想象力在脑海中构建一个世界模型，并进行“思想实验”式的探索。这种能力使我们无需物理移动就能推理未知区域，并辅助决策。让AI智能体具备类似能力，是我的研究初衷。

从工程实现角度看，首先需要基于当前观测（单张图像或单一视角）生成一个可交互的3D环境，然后智能体才能在此环境中进行探索与推理。

问：具身智能的“心智模型”与“世界模型”之间有何关联？

陈杰能：心智模型源于心理学与认知科学，指人脑中用于表征和理解世界的认知框架。它是一种内在的现实模拟，帮助人类解释信息、做出决策并预测结果。世界模型同样基于先验知识与经验，对未来状态分布进行预测。因此，两者在本质上是紧密关联的。

传统的心智模型表征主要基于语言与语义特征。如今，生成技术的发展使得构建视觉化的心智模型成为可能。我的工作实质上是将心智模型提升到一个新的表征高度，即构建具备空间想象力的心智模型——它能够想象三维世界中不可见的部分（例如通过车轮想象出整辆救护车），或通过动作交互探索视野之外的场景。

基于此，具身智能体无论处于何种环境，都能通过对周围环境的观察，实时构建一个可探索的三维生成世界。智能体在此生成世界中探索，发现未曾直接观测到的信息，并将这些“想象”出的观测融入决策过程——故称之为“生成式世界探索者”。

将生成世界的观测融入决策，可视为利用世界模型开发的一种新策略。在具身智能中，即用生成世界中收集的观测，来补全物理世界中的缺失信息，形成更完整的观测集，从而构建一个“想象力增强”的决策策略。

问：心智模型是否包含对常识的理解，例如“知道横着拿纸杯水会洒出来”？

陈杰能：心智模型作为一种认知框架，确实包含基于常识的理解。但“知道横着拿纸杯水会洒出来”这一知识，仍建立在已完全观测到纸杯和水的前提下。心智模型能够处理更具挑战性的部分观测或缺失观测场景。它是利用已有的环境信息，去推理和想象那些未被观测到的部分，例如，虽然未直接观测到风，但人类的心智模型可以推演出风吹倒纸杯的可能性。

模拟这些未观测到的环境因素，有助于做出更精准的决策，从而提升模型的泛化能力。这一方向未来将获得更多关注。

问：这个研究方向在当前的具身智能领域似乎并非主流。

陈杰能：确实，领域内许多研究集中于提升低层策略（如运动控制）的鲁棒性。我目前的研究更关注高层认知问题，旨在为具身智能体构建可交互的三维世界模型，以辅助其决策过程。

在高层认知领域，除了心智模型，智能体对物理世界的空间理解本身仍存在挑战。如果上游的空间理解问题得到更好解决，再结合三维心智模型，低层问题的解决将会更顺畅，有助于智能体进入更复杂的真实世界，而非局限于实验室的机械臂环境。当然，最终两者可以结合，形成多层次、一体化的模型系统。

我们开发的生成式世界探索者，不仅是具身智能体的关键组件，初步实验也证明其能辅助人类的认知决策。我期待能在这个交叉学科领域贡献自己的一份力量。

具身智能新突破：JHU陈杰能团队融合世界与心智模型，赋予AI想象力

AI赋能癌症筛查：从模型架构到临床价值

从视觉基础模型到空间智能的演进

心智模型：具身智能的高阶认知框架

相关阅读

最新教程

最新资讯