智源研究院:AI与物理生命科学三体互动前沿探索

2026-06-13阅读 0热度 0
人工智能

2026年6月12日,第八届“北京智源大会”在中关村国际创新中心正式开幕。先简单交代一下背景:这场由智源研究院主办的“AI内行学术盛会”,一向以技术前沿、国际视野和青年人才为特色,今年同样汇聚了海内外顶尖学者,分享最新研究成果,探讨前沿方向。现代数字安全体系的奠基者Whitfield Diffie线下参会,聚焦Agent时代的安全与可信挑战;强化学习奠基人Andrew Barto则追问“交互驱动智能”对下一代AI系统的意义。30余位30岁以下的青年科学家、40余位AI企业CEO与首席科学家,以及200多位顶尖专家学者齐聚北京——中国AI产业在世界模型与Agent领域最具代表性的创新力量,首次集中同台。更值得注意的是,Meta、英伟达、哈佛、MIT等20余家全球顶尖科技企业与高校,将与阿里、腾讯、小米、生数科技、面壁智能,以及清华、北大、人大等中国AI行业核心力量同场交流。此外,数百位全球AI领域学术中坚也会围绕世界模型、通用智能体、具身智能、AI安全、AI Native教育、Token经济与OPC、智能计算底层架构等前沿方向,展开演讲和前瞻性对话。

开幕式由智源研究院理事长黄铁军主持。

智源研究院院长王仲远随后做了2026年研究进展报告,发布了智源在基座大模型、智能体、基础软硬件生态等前沿领域的探索成果,以及开源生态建设的最新动态。

说起智源研究院,这家机构自2018年成立以来,先后推出了“悟道”系列和“悟界”系列大模型,构建起自底向上的全栈大模型开源技术体系。不论是大模型发展早期,还是如今物理AI的全新时期,智源始终走在人工智能大模型的前沿探索前沿。截至目前,智源开源模型已超过200个,全球总下载量累计突破10亿次。同时,也孵化了一批在大模型和具身智能领域极具代表性的创新创业企业。

在2024年的智源大会上,研究院曾预判大模型技术的演化路径。如今回头来看,人工智能正沿着从大语言模型到多模态大模型、再到世界模型的方向演进,加速从数字世界迈向物理世界。过去一年里,智源在基座大模型、智能体和基础软硬件生态三个领域取得了令人瞩目的科研进展。基于在多模态及世界大模型上的探索,研究院系统梳理了世界模型的发展历程,提出了四大技术分类,并介绍了正在研发中的悟界·Physis。

基座大模型

2024年智源大会发布的“悟界”系列大模型,目标就是解决AI从数字世界迈向物理世界的关键能力,构建面向物理世界的基座模型。2025年10月正式发布的悟界·Emu3.5,仅基于“预测下一个词元(Next-Token Prediction)”这一统一范式,实现了文本、图像和视频的大规模统一学习,也达成了多模态理解和生成任务的统一。这个原创成果在今年1月刊发于Nature正刊,创造了国产多模态大模型的多项纪录。

今年的大会上,智源又带来了一系列创新成果:悟界·Brainμ1.0是全球首个理解与生成统一的多模态神经科学大模型,把Next-Token Prediction范式扩展到了神经科学领域,构建起多模态脑科学通用基座。智源联合清华团队基于它开展的研究成果已刊发于Science。与Brainμ1.0一同发布的,还有全球最大最全的AI-Ready神经科学数据集,以及全球最大的AI-Ready数据平台BrainToken。悟界·OpenComplex2.5是一个可泛化、物理真实的AI驱动药物发现模型,能精确解析IDP灵活构象,系统性赋能创新药物研发全链路,以单一模型覆盖制药四大关键步骤。悟界·Physis-v0.1则是全球首个通用世界基座模型,通过统一物理状态学习,实现物理正确、动作因果可溯、长程一致、通用泛化,最终覆盖全垂类场景应用。

智能体

针对具身智能面临的硬件不成熟、数据短缺、模型能力弱、落地应用难四大挑战,智源构建了自底向上的全栈具身智能技术体系,先后发布了悟界·RoboBrain和悟界·RoboOS。正在研发中的悟界·RoboBrain Orca,以预测下一个物理状态为核心来构建具身大脑,融合了大量Ego-centric交互数据,强化世界模型的具身表征,提升下游少样本和跨场景泛化能力。同时,结合智源的科研属性,研究院推出了四款自主研发的智能体,分别面向心脏辅助诊断、科学发现、个人专属助理及生物安全防护等具体领域。

基础软硬件生态

智源与开源社区共建了众智FlagOS,将企业面临的“M款模型与N款芯片”适配难题,简化为“多模型+多芯片”的统一接入解决方案。FlagOS 2.1支持18家芯片厂商的32款芯片,是全球覆盖芯片数量最多的计算系统软件栈。Operators总数已超过600个,且仍在快速增长。同时,FlagOS能支持18家芯片厂商的统一编译器,以及12家芯片厂商的统一通信库。目前,生态成员已超过80余家,全球下载量超过37.5万次,触及开发者5.6万人。

悟界系列大模型:面向物理世界的基座模型

随着多模态模型研究深入,AI正经历一场重大范式变革——从“预测下一个词元”演进到“预测下一个物理状态”,这正是世界模型的核心本质。智源是国内最早提出并开展世界模型研究的科研机构。早在2023年智源大会上,杨立昆(Yann LeCun)就阐述了世界模型的概念;2024年,智源明确提出世界模型是下一代大模型技术;2024年发布的悟界·Emu3和2025年的悟界·Emu3.5,更是全球首个原生多模态世界模型。基于持续的技术积累与前瞻布局,2026年智源推出了悟界·Physis-v0.1。可以说,Physis的诞生,源于智源对AI发展路径的判断,以及从“悟道”到“悟界”的技术传承。随着大语言与多模态技术日趋成熟,未来AI的发展重心将进入世界模型时代。

智源将现有世界模型相关技术路线划分为四类:第一类是以语言为中心的世界模型,包括VLM、VLA等,它们在文本空间中预测下一个词,学到的只是语言描述的世界,并不能理解背后的物理后果;第二类是以像素为中心的世界模型,像Sora和Seedance等视频生成模型,在视觉空间中学习视频或图像,学到的是像素描述的世界;第三类是以三维结构为中心的世界模型,涵盖3D重建及李飞飞团队的World Labs Marble模型,但重建3D空间不等于理解世界,几何结构也不代表物理状态;第四类是以视觉表征为中心的世界模型,比如杨立昆的JEPA系列模型,预测的是视觉表征的压缩,但视觉嵌入演化不等于物理规律演化。

在智源看来,世界模型作为面向真实物理世界的下一代基座模型,核心是“预测下一物理状态”,这代表着AI的下一个重要范式跃迁。它不仅能感知、理解、推理真实物理世界的时间、空间、物理规律和物理常识,还能涵盖文本、视频、深度、力觉、感知等全模态数据,具备主动交互能力,支撑各种物理世界的下游应用。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策