具身智能新突破:JHU陈杰能团队融合世界与心智模型,赋予AI想象力
一项由马尔奖得主、约翰霍普金斯大学Alan Yuille教授团队主导的研究,为具身智能领域带来了新的突破。这项名为GenEx的研究,其核心在于为AI系统构建一种“生成式想象力”——使智能体能够在自身“想象”并合成的三维环境中进行主动探索与学习。
受人类认知机制的启发,GenEx旨在模拟大脑对世界的理解与推理过程,以构建更灵活、更具适应性的智能系统。其架构包含两个协同工作的核心模块:一个能够根据单视角输入动态生成连贯三维环境的“世界模拟器”;另一个则是能够在此模拟环境中交互、并据此优化自身决策策略的“具身智能体”。二者形成一个闭环的共生系统,使AI能够以近似人类心智模拟的方式进行探索与认知迭代。
GenEx仅需单张RGB图像,即可生成一个空间连贯、可供探索的三维环境,并能将其扩展为沉浸式的360度全景视图。在这种生成式能力的驱动下,智能体能够执行复杂的具身任务,例如开放环境探索与目标导向导航。它通过预测物理世界中未被直接观测部分的潜在状态来完善认知,并在潜在决策空间中进行模拟推演,从而做出更优选择。该系统还支持多智能体协同:当一个智能体导航至另一智能体所在位置时,可以融合对方“想象”出的环境认知来更新自身的世界模型。
这项研究的第一作者是约翰霍普金斯大学的中国博士生陈杰能。
在将研究方向转向世界模型与空间智能之前,陈杰能深耕于医学图像分析领域。他本科毕业于同济大学计算机系,于2020年赴约翰霍普金斯大学攻读博士学位,师从Alan Yuille教授。此前,他提出了首个融合Transformer与U-Net的架构TransUNet,该模型引用量已超5000次。
自今年起,他的研究重心转移至世界模型与空间智能,主要探索如何从单张图像生成可交互的3D环境,并将此环境作为具身智能体的“心智模型”,以提升其决策能力。从医疗影像到具身智能,陈杰能认为自己在上一阶段的任务已告一段落,“接下来希望寻找新的前沿问题,参与到更早期的探索中去。”
AI赋能癌症筛查:从模型架构到临床价值
问:您读博前发表的TransUNet引用量已超5000,当初的创作灵感来源于什么?
陈杰能:当时我正在研究物体边缘的语义建模,由此产生了进行序列建模的想法。Transformer在全局上下文建模上优势明显,但在捕捉精细的局部边缘细节方面存在局限。2020年底,Transformer在分类任务中已获成功,但其在密集预测任务中的有效性尚待验证。为了兼顾全局与局部信息,我尝试将Transformer与擅长局部特征提取的UNet相结合。实践表明,这种组合能有效平衡长距离依赖建模与局部细节还原,从而支撑更广泛的任务需求。
之后,我将TransUNet扩展至3D版本,并应用于多癌种筛查任务。至今,TransUNet仍是一个被广泛采用的基准架构,常见于图像分割及扩散模型等任务中。
问:您是如何进入计算机视觉领域,并专注于医学影像研究的?
陈杰能:2017年我在慕尼黑工业大学交换期间,选修了Daniel Cremers教授的计算机视觉课程。有趣的是,Daniel曾是我现任导师Alan Yuille的博士后。那门课程偏重几何与理论,让我对前沿科研产生了浓厚兴趣。回国后,我加入同济大学陈广老师的课题组,开始研究车辆检测。
2019年暑期,我通过机缘联系到Alan Yuille教授。他当时正与约翰霍普金斯医院合作推进癌症早筛项目,团队中包括像抑癌因子P53发现者这样的顶尖临床专家。他们虽非AI背景,却敏锐地意识到AI在医疗领域的变革潜力。这个领域兼具规模化应用前景与切实的社会价值,吸引我深入其中。
问:您后来在达摩院医疗AI团队实习,并主导了CancerUniT项目,可以分享一下吗?
陈杰能:项目负责人吕乐是我在约翰霍普金斯大学的学长,他的导师与我的导师早有合作,我们相识较早。
当时医疗AI研究大多针对单一病种,达摩院希望我参与构建一个多癌种筛查系统。具体目标是开发一个AI模型,能够通过一次CT扫描,同步筛查出八种高发癌症并鉴别14种相关亚型。这八种癌症覆盖了国内近80%的癌症病例。
在医疗AI的众多方向中,疾病筛查,尤其是针对癌症、阿尔茨海默症等重大疾病的早期检测,具有最高的优先级。癌症因其高发病率与死亡率,在我当时看来是一个值得全力投入的“黄金问题”。攻克它如同攀登一座高峰,若能提前取得进展,便能惠及更多患者与家庭。我怀着极大的热情,希望为此贡献一份力量。在项目推进中,我与合作者共同明确了问题定义,并构建了一个兼具高灵敏度与高特异性的基础模型。目前,达摩院正在此基础上进一步扩展该多癌模型,我期待它能早日投入实际应用。
从视觉基础模型到空间智能的演进
问:之后您加入字节Seed团队从事视觉基础模型研究,是出于怎样的考虑?
陈杰能:我的mentor Liang-Chieh Chen在谷歌时就曾邀请我实习,当时我选择了达摩院,便约定次年加入。后来他加入字节并领导Seed部门的基础研究组,我也随之加入。
2023年,多模态大模型是业界焦点。Liang-Chieh Chen在深度学习架构设计方面经验深厚,尤其在MobileNetv2和DeepLab上贡献卓著。我希望有机会对大模型的视觉编码器进行一次系统性的重新设计,探索新的技术路径并打磨自身能力,因此做出了这个选择。
问:首次主导设计视觉编码器架构并成功发表ViTamin,您有何体会?
陈杰能:整个过程,从设计到完成,都令我感触颇深。
我负责基础架构的设计与探索,需要规划多模态大模型中的视觉编码器,并研究其扩展规律。由于训练成本高昂,通常只有一次机会,因此设计必须兼具创新性与稳健性。
最终,我们的视觉编码器在ImageNet零样本准确率上达到了83%的SOTA水平,并能有效迁移至大模型中,我们摸索出了一条可行的扩展路径。将模型性能推向极致的过程充满挑战,也带来了巨大的成就感。
如果将多模态模型比作智能体,视觉编码器便是其“眼睛”。今年初,业界普遍认识到视觉编码器在大模型中的关键性,并开始专项优化,这让我再次体会到此项工作的重要性。
此外,ViTamin最高分的模型参数量仅为4.36亿(不足0.5B),在追求巨量化参数的2023年显得非常精简。在我们所能获取的最佳数据条件下,这个规模已触及扩展规律的极限。有趣的是,今年小模型也开始受到重视,如今为了终端部署,多模态模型通常也只采用几百兆参数的视觉编码器。这显示出扩展规律最终会收敛到一个最优配置。
问:为何今年您的研究方向从医学影像转向了空间智能?空间智能的核心挑战是什么?
陈杰能:我相信在工业界与医疗机构的共同推动下,癌症筛查这一关键问题将在未来几年得到有效解决。我此前的工作有助于其规模化落地,可以说完成了阶段性使命。现在我希望探索新的前沿领域,而空间智能、具身智能等方向方兴未艾,参与早期探索很有价值。
我的导师Alan早在1990年就研究过三维物体表面曲率,实验室也长期关注3D视觉,我深受熏陶。今年我开始着手攻克一两个“黄金问题”,希望推动空间智能与具身智能的发展。
空间智能近期备受关注,它涉及从单张图像进行3D重建或从视频进行4D建模,本质上是逆向图形学——即从2D观测中推断出三维场景的结构、物体类别、位置及几何信息。
举例来说,游戏引擎通过3D场景配置文件渲染出2D图像,这是一个正向过程;计算机视觉则致力于逆向推理,从2D图像重建3D场景。若能攻克此难题,计算机视觉将取得重大突破,例如提升GPT等模型的空间推理能力,或改善生成视频的物理合理性。因此,从图像中推理三维场景是空间智能的核心课题之一。
我目前的工作集中于空间推理。不久前发布的Gemini 2也强调了其空间推理能力,但我们近期开发的基准测试3DSRBench显示,其准确率仅为50%,远低于人类的95%。结果公布后,DeepMind的研究人员也开放了相关代码库,共同推进大模型的空间推理能力。这表明在空间智能,特别是空间推理方面,机器与人类仍存在显著差距。
问:空间智能与医疗图像分析之间存在哪些关联与区别?
陈杰能:两者都涉及对复杂图像数据的处理与场景理解。医疗图像的三维解析与空间智能的三维重建目标相似,都需要将像素数据转化为对三维结构及语义关系的预测,并提取关键信息如位置与形态。在医疗影像中,这具体表现为对器官、病灶及其空间关系的精确分析。
区别主要体现在两方面:数据层面,医疗图像通常是规则的三维数据(如CT、MRI),范围有限且结构相对规整,数据复杂度较低;而空间智能处理的数据包含大量不规则、可形变、有关节活动的物体,复杂度更高。优化目标层面,空间智能与具身智能强调实时性、泛化性与通用感知能力;医疗AI则追求在特定任务上达到专家级精度与可靠性,二者目标迥异。
心智模型:具身智能的高阶认知框架
问:您是从何时开始关注世界模型这一方向的?
陈杰能:我对世界模型的研究与空间智能、具身智能同步展开。空间推理是智能体感知物理世界的起点,但仅凭感知不足以支撑其对世界的交互理解。构建一个可预测、可交互的世界模型,能更有效地帮助智能体在真实环境中进行决策。
世界模型的定义尚未统一,但其在控制论等领域已有二三十年的应用历史。一个本质的定义是:给定当前状态分布与动作输入,能否预测出下一时刻的状态分布。早期的实践对“状态”的定义较为简单。
我认为世界模型的本质在于提供对世界变化的预测性分布,但这里的“世界变化”不应是简单的低维状态,而应是一个涵盖四维时空的丰富表征,包括对物体语义、纹理、三维几何、形态、形变、运动特性以及物体间空间关系的综合建模。
我关注的一个核心难点是,能否从图像观测中提取出上述的三维空间表征,作为世界模型的状态输入。同时,我也聚焦于世界模型在具身智能中的具体应用。
问:您近期发布了“生成式世界探索者”(GenEx),实现了从单张图像生成可交互3D世界,这个想法是如何产生的?
陈杰能:人类在探索未知环境时,能够通过想象力在脑海中构建一个世界模型,并进行“思想实验”式的探索。这种能力使我们无需物理移动就能推理未知区域,并辅助决策。让AI智能体具备类似能力,是我的研究初衷。
从工程实现角度看,首先需要基于当前观测(单张图像或单一视角)生成一个可交互的3D环境,然后智能体才能在此环境中进行探索与推理。
问:具身智能的“心智模型”与“世界模型”之间有何关联?
陈杰能:心智模型源于心理学与认知科学,指人脑中用于表征和理解世界的认知框架。它是一种内在的现实模拟,帮助人类解释信息、做出决策并预测结果。世界模型同样基于先验知识与经验,对未来状态分布进行预测。因此,两者在本质上是紧密关联的。
传统的心智模型表征主要基于语言与语义特征。如今,生成技术的发展使得构建视觉化的心智模型成为可能。我的工作实质上是将心智模型提升到一个新的表征高度,即构建具备空间想象力的心智模型——它能够想象三维世界中不可见的部分(例如通过车轮想象出整辆救护车),或通过动作交互探索视野之外的场景。
基于此,具身智能体无论处于何种环境,都能通过对周围环境的观察,实时构建一个可探索的三维生成世界。智能体在此生成世界中探索,发现未曾直接观测到的信息,并将这些“想象”出的观测融入决策过程——故称之为“生成式世界探索者”。
将生成世界的观测融入决策,可视为利用世界模型开发的一种新策略。在具身智能中,即用生成世界中收集的观测,来补全物理世界中的缺失信息,形成更完整的观测集,从而构建一个“想象力增强”的决策策略。
问:心智模型是否包含对常识的理解,例如“知道横着拿纸杯水会洒出来”?
陈杰能:心智模型作为一种认知框架,确实包含基于常识的理解。但“知道横着拿纸杯水会洒出来”这一知识,仍建立在已完全观测到纸杯和水的前提下。心智模型能够处理更具挑战性的部分观测或缺失观测场景。它是利用已有的环境信息,去推理和想象那些未被观测到的部分,例如,虽然未直接观测到风,但人类的心智模型可以推演出风吹倒纸杯的可能性。
模拟这些未观测到的环境因素,有助于做出更精准的决策,从而提升模型的泛化能力。这一方向未来将获得更多关注。
问:这个研究方向在当前的具身智能领域似乎并非主流。
陈杰能:确实,领域内许多研究集中于提升低层策略(如运动控制)的鲁棒性。我目前的研究更关注高层认知问题,旨在为具身智能体构建可交互的三维世界模型,以辅助其决策过程。
在高层认知领域,除了心智模型,智能体对物理世界的空间理解本身仍存在挑战。如果上游的空间理解问题得到更好解决,再结合三维心智模型,低层问题的解决将会更顺畅,有助于智能体进入更复杂的真实世界,而非局限于实验室的机械臂环境。当然,最终两者可以结合,形成多层次、一体化的模型系统。
我们开发的生成式世界探索者,不仅是具身智能体的关键组件,初步实验也证明其能辅助人类的认知决策。我期待能在这个交叉学科领域贡献自己的一份力量。

