世界模型新范式：从Token到物理状态的变革

2026-06-13阅读 0热度 0

人工智能

先说一个判断。2026年6月的这场北京智源大会，现场确实是星光熠熠。两位图灵奖得主、8位院士、40位AI企业的CEO和创始人聚在一块儿，但会场上传出的那个信号其实比任何大佬站台都要关键：人工智能正在经历一场深刻的范式变革，核心是从"预测下一个Token"迈向"预测下一个物理状态"。

这次大会在技术方向上锚定了两个核心词——"智能体"与"世界模型"。前者代表大模型在数字世界的深入运用，后者则是AI走进物理世界的关键引擎。

大会现场（主办方供图）

范式之变：何为"预测下一个物理状态"？

大语言模型的崛起，"预测下一个Token"这套训练范式功不可没。它在语言理解、代码生成、逻辑推理这些数字世界的任务里表现得相当亮眼。可一旦AI试图走进真实的物理世界——感知空间与时间、理解因果与物理规律、指导机器人完成泛化操作——现有模型的短板就暴露得明明白白。

智源研究院院长王仲远举了个特别生动的例子：同样放在桌子上，一瓶未开封的水和一杯满的咖啡，如果掉下去，后果完全不同。水瓶掉地上可能就咚一声，咖啡掉地上就得洒一地。人类凭直觉就能预判这个差别，但AI目前根本做不到。这就是我们常说的"世界模型"——对物理状态进行预测的能力。

随着Next-Token Prediction研究的深入，AI正在经历一场范式变革。早年大语言模型处理的是文字，多模态模型开始引入图像、音频、脑信号，接下来要解决的就是真实物理空间的时空问题、物理规律、物理常识。

机器人为什么还不能像人类一样到处行走、执行各式各样的任务？说到底就是它对世界常识、物理规律缺乏了解。它能在流水线上精确完成特定操作，但一旦环境变了，泛化性和通用性就没了。所以，建立"世界模型"新范式才是问题的核心。

去年智源发布的悟界系列大模型，核心目标就是解决人工智能从数字世界迈向物理世界的关键能力与问题，构建面向物理世界的人工智能基座模型。

去年10月正式发布并开源的悟界Emu3.5，已经实现了从Next-Token Prediction升级到Next Physical State Prediction的突破，获得了可泛化的世界建模能力。今年1月，这项成果登上了《Nature》正刊，也是国内多模态大模型方向的首篇。

厘清概念：智源首次提出"世界模型"四大分类

过去一年，随着视频生成技术爆发，"世界模型"这个词被反复提及，但概念其实挺混乱的。王仲远梳理了一下源头：1943年Kenneth Craik提出的"心智模型"被认为是世界模型的理论起点。到了九十年代，强化学习兴起，世界模型才被引入计算机科学。这几年，因为大语言模型在物理世界面前暴露了局限性，这个概念又被重新挖了出来。

智源研究院是国内最早提出并开展世界模型研究的机构。2024年的智源大会上，他们明确提出大模型会沿着大语言模型、多模态大模型，最终走向世界模型的方向。世·界模型被定位为AI下一个重要研究范式。

今年，智源对世界模型的定义更为明确：它是以"预测下一物理状态"为核心的、面向真实物理世界的下一代基座模型。世界模型不仅能感知、理解、推理时间、空间、物理规律和常识，还能覆盖文本、视频、深度、力觉等全模态数据，具备主动交互能力，支撑各种物理世界的下游应用。

智源研究院将当前世界模型相关的技术路线梳理为四大类：

第一类是以语言为中心的世界模型，包含VLM、VLA。这类模型在文本空间中预测下一个词，学到的是语言描述的世界，并不理解背后的物理后果。

第二类是以像素为中心的世界模型，比如主流的视频生成模型Sora、Seedance。它们本质上是在预测下一个画面帧，更像是世界模拟，并不具备完备的状态预测能力。王仲远特别强调：视频生成模型不等于未来真正的世界模型，但两者确实相关。

第三类是以三维结构为中心的世界模型，包括3D重建以及李飞飞团队的World Labs Marble模型。不过，重建3D空间不等于理解世界，几何结构也不等于物理状态。

第四类是以视觉表征为轴心的世界模型，比如杨立昆的JEPA系列模型，预测的是视觉表征的压缩，但视觉嵌入演化不等于物理规律演化。

这四条技术路线，基本能涵盖当前的主流方向以及未来发展的研判。但智源指出，这四类模型距离真正的"面向物理世界的基座模型"还有相当距离。当前行业对世界模型的探索仍处于早期，数据标准与评测框架尚未统一，大量科研探索工作仍需推进。

这次大会还透露了智源正在研发中的世界模型——悟界·Physis，以及以预测下一个物理状态为核心的具身大脑——悟界·RoboBrain Orca。其中悟界·Physis被定义为0.1，训练完成后将会开源开放。

智能体成果：从医疗到科研的实用落地

智能体作为数字世界应用的核心，同样是本次大会的重头戏。智源发布了四款智能体成果：

"听会智能体"解决了多论坛并行的痛点——观众通过SoulAgent使用"数字分身"同时参与不同论坛，还能直接和专家探讨问题。

智源联合安贞医院研发的"心脏磁共振辅助诊断智能体"BAAI Cardiac Agent，能处理多模态磁共振数据，诊断效率提升30倍，能力比肩顶尖心血管医生。这有望推动"人工智能+顶尖诊断能力"下沉到基层医院。

面向科学发现的"自主研究智能体"AREX，致力于推动AI从模仿学习向自主学习跨越，提高科研人员的工作效率。

还有一款"风险发现智能体"，能够绕过现有安全筛查机制，实现对有害蛋白基因的获取和合成，把风险防控从"事后补救"变为"事前演练"。

在大模型加速迈向物理世界的前夜，行业既需要碘伏性突破，也需要商业理性与技术安全护栏。世界模型的发展仍在早期，工作重心依然是解决数据获取、训练方法与评测框架这些基础问题。路还长，但方向已经清晰。

世界模型新范式：从Token到物理状态的变革

相关阅读

最新教程

最新资讯