智源研究院：AI与物理生命科学三体互动前沿探索

2026-06-13阅读 0热度 0

人工智能

2026年6月12日，第八届“北京智源大会”在中关村国际创新中心正式开幕。先简单交代一下背景：这场由智源研究院主办的“AI内行学术盛会”，一向以技术前沿、国际视野和青年人才为特色，今年同样汇聚了海内外顶尖学者，分享最新研究成果，探讨前沿方向。现代数字安全体系的奠基者Whitfield Diffie线下参会，聚焦Agent时代的安全与可信挑战；强化学习奠基人Andrew Barto则追问“交互驱动智能”对下一代AI系统的意义。30余位30岁以下的青年科学家、40余位AI企业CEO与首席科学家，以及200多位顶尖专家学者齐聚北京——中国AI产业在世界模型与Agent领域最具代表性的创新力量，首次集中同台。更值得注意的是，Meta、英伟达、哈佛、MIT等20余家全球顶尖科技企业与高校，将与阿里、腾讯、小米、生数科技、面壁智能，以及清华、北大、人大等中国AI行业核心力量同场交流。此外，数百位全球AI领域学术中坚也会围绕世界模型、通用智能体、具身智能、AI安全、AI Native教育、Token经济与OPC、智能计算底层架构等前沿方向，展开演讲和前瞻性对话。

开幕式由智源研究院理事长黄铁军主持。

智源研究院院长王仲远随后做了2026年研究进展报告，发布了智源在基座大模型、智能体、基础软硬件生态等前沿领域的探索成果，以及开源生态建设的最新动态。

说起智源研究院，这家机构自2018年成立以来，先后推出了“悟道”系列和“悟界”系列大模型，构建起自底向上的全栈大模型开源技术体系。不论是大模型发展早期，还是如今物理AI的全新时期，智源始终走在人工智能大模型的前沿探索前沿。截至目前，智源开源模型已超过200个，全球总下载量累计突破10亿次。同时，也孵化了一批在大模型和具身智能领域极具代表性的创新创业企业。

在2024年的智源大会上，研究院曾预判大模型技术的演化路径。如今回头来看，人工智能正沿着从大语言模型到多模态大模型、再到世界模型的方向演进，加速从数字世界迈向物理世界。过去一年里，智源在基座大模型、智能体和基础软硬件生态三个领域取得了令人瞩目的科研进展。基于在多模态及世界大模型上的探索，研究院系统梳理了世界模型的发展历程，提出了四大技术分类，并介绍了正在研发中的悟界·Physis。

基座大模型

2024年智源大会发布的“悟界”系列大模型，目标就是解决AI从数字世界迈向物理世界的关键能力，构建面向物理世界的基座模型。2025年10月正式发布的悟界·Emu3.5，仅基于“预测下一个词元（Next-Token Prediction）”这一统一范式，实现了文本、图像和视频的大规模统一学习，也达成了多模态理解和生成任务的统一。这个原创成果在今年1月刊发于Nature正刊，创造了国产多模态大模型的多项纪录。

今年的大会上，智源又带来了一系列创新成果：悟界·Brainμ1.0是全球首个理解与生成统一的多模态神经科学大模型，把Next-Token Prediction范式扩展到了神经科学领域，构建起多模态脑科学通用基座。智源联合清华团队基于它开展的研究成果已刊发于Science。与Brainμ1.0一同发布的，还有全球最大最全的AI-Ready神经科学数据集，以及全球最大的AI-Ready数据平台BrainToken。悟界·OpenComplex2.5是一个可泛化、物理真实的AI驱动药物发现模型，能精确解析IDP灵活构象，系统性赋能创新药物研发全链路，以单一模型覆盖制药四大关键步骤。悟界·Physis-v0.1则是全球首个通用世界基座模型，通过统一物理状态学习，实现物理正确、动作因果可溯、长程一致、通用泛化，最终覆盖全垂类场景应用。

智能体

针对具身智能面临的硬件不成熟、数据短缺、模型能力弱、落地应用难四大挑战，智源构建了自底向上的全栈具身智能技术体系，先后发布了悟界·RoboBrain和悟界·RoboOS。正在研发中的悟界·RoboBrain Orca，以预测下一个物理状态为核心来构建具身大脑，融合了大量Ego-centric交互数据，强化世界模型的具身表征，提升下游少样本和跨场景泛化能力。同时，结合智源的科研属性，研究院推出了四款自主研发的智能体，分别面向心脏辅助诊断、科学发现、个人专属助理及生物安全防护等具体领域。

基础软硬件生态

智源与开源社区共建了众智FlagOS，将企业面临的“M款模型与N款芯片”适配难题，简化为“多模型+多芯片”的统一接入解决方案。FlagOS 2.1支持18家芯片厂商的32款芯片，是全球覆盖芯片数量最多的计算系统软件栈。Operators总数已超过600个，且仍在快速增长。同时，FlagOS能支持18家芯片厂商的统一编译器，以及12家芯片厂商的统一通信库。目前，生态成员已超过80余家，全球下载量超过37.5万次，触及开发者5.6万人。

悟界系列大模型：面向物理世界的基座模型

随着多模态模型研究深入，AI正经历一场重大范式变革——从“预测下一个词元”演进到“预测下一个物理状态”，这正是世界模型的核心本质。智源是国内最早提出并开展世界模型研究的科研机构。早在2023年智源大会上，杨立昆（Yann LeCun）就阐述了世界模型的概念；2024年，智源明确提出世界模型是下一代大模型技术；2024年发布的悟界·Emu3和2025年的悟界·Emu3.5，更是全球首个原生多模态世界模型。基于持续的技术积累与前瞻布局，2026年智源推出了悟界·Physis-v0.1。可以说，Physis的诞生，源于智源对AI发展路径的判断，以及从“悟道”到“悟界”的技术传承。随着大语言与多模态技术日趋成熟，未来AI的发展重心将进入世界模型时代。

智源将现有世界模型相关技术路线划分为四类：第一类是以语言为中心的世界模型，包括VLM、VLA等，它们在文本空间中预测下一个词，学到的只是语言描述的世界，并不能理解背后的物理后果；第二类是以像素为中心的世界模型，像Sora和Seedance等视频生成模型，在视觉空间中学习视频或图像，学到的是像素描述的世界；第三类是以三维结构为中心的世界模型，涵盖3D重建及李飞飞团队的World Labs Marble模型，但重建3D空间不等于理解世界，几何结构也不代表物理状态；第四类是以视觉表征为中心的世界模型，比如杨立昆的JEPA系列模型，预测的是视觉表征的压缩，但视觉嵌入演化不等于物理规律演化。

在智源看来，世界模型作为面向真实物理世界的下一代基座模型，核心是“预测下一物理状态”，这代表着AI的下一个重要范式跃迁。它不仅能感知、理解、推理真实物理世界的时间、空间、物理规律和物理常识，还能涵盖文本、视频、深度、力觉、感知等全模态数据，具备主动交互能力，支撑各种物理世界的下游应用。

智源研究院：AI与物理生命科学三体互动前沿探索

基座大模型

智能体

基础软硬件生态

悟界系列大模型：面向物理世界的基座模型

相关阅读

最新教程

最新资讯