智源研究院发布全球首个通用世界基座模型:预测物理状态
全球人工智能领域仍在争论多模态大模型的能力边界时,中国已悄然迈入下一代AI的前沿。2026年6月12日,智源大会在北京启幕,智源研究院正式发布全球首个通用世界基座模型——“悟界・Physis-v0.1”。这一命名看似抽象,实则释放出明确信号:人工智能正从“预测下一个词”向“预测下一个物理状态”实现范式级别跃迁。这场被业界称为“AI内行学术盛会”的大会,不仅展示出中国在AI前沿赛道上的硬核原始创新,更勾勒出一条从数字世界直达物理世界的清晰路径。
世界模型:AI下一个十年的核心赛道
本届大会最引人瞩目的重磅成果,无疑是“悟界・Physis-v0.1”。作为全球首款通用世界基座模型,它突破了传统AI仅能应对垂直场景、解决单一问题的局限,核心逻辑在于“预测下一物理状态”。听起来抽象?具体来说,它实现了四重能力:物理正确性、动作因果可追溯、长时间尺度一致性,以及通用泛化能力。这并非小修小补的升级,而是路线的根本性切换。
智源研究院院长王仲远在发布会上拆解了当前世界模型的技术格局。他归纳了四条技术路线:以语言为中心的VLM和VLA模型、以像素为中心的视频生成模型、以三维结构为中心的重建模型,以及以视觉表征为核心的JEPA系列。坦白讲,这些模型要么只能理解“语言描述的世界”,要么仅学习像素或几何结构,始终未能触及物理世界运行的底层规律。
“悟界・Physis-v0.1”的突破点在于:它采用物理隐空间表征,替代了传统的像素级和帧级预测方式。简而言之,它构建了一套专属的物理状态编码器,将视频、深度RGB、3D点云、力触反馈等多模态信息,统一转化为标准化的隐空间物理状态。目前该模型已支持五十多个复杂物理场景的长程推理。这意味着什么?严肃工业、具身智能、物理仿真、科学研究等领域,它都能直接落地应用。
事实上,智源研究院是国内最早系统研究世界模型的机构。2024年智源大会上,时任Meta首席人工智能科学家的杨立昆首次系统阐述了新一代世界模型的概念。到2024年,智源内部已形成共识:世界模型就是下一代大模型的技术路线。2025年发布的“悟界・Emu3.5”,采用纯自回归框架实现了文本、图像、视频的统一理解与生成,从架构层面彻底打破了传统多模态路线的模态孤岛。这一系列布局走得相当扎实。
多领域突破:从基础研究到产业应用的全链条创新
这次大会绝非一场“会议”那么简单。智源研究院一口气发布了一系列具有国际影响力的原创成果,覆盖基座大模型、智能体和基础软硬件生态三大板块。这套“组合拳”清晰表明,中国AI科研的全链条创新能力已基本成型。
在基座大模型方面,除了“悟界・Physis”,智源还推出了全球首个理解与生成统一的多模态神经科学大模型——“悟界・Brainμ1.0”。该模型能将人类、猕猴、小鼠跨物种的全模态脑信号统一编码为标准Token,再与语言、图像、视频等通用模态对齐。神经科学领域的研究者都清楚,该领域最大的痛点是数据孤岛——数据复杂、稀疏、不对齐,严重阻碍研究进展。有了这一模型,神经疾病的诊断成本有望大幅降低,阿尔茨海默病、抑郁症、帕金森等疾病的筛查与辅助诊断也将获得新工具。
同期发布的还有下一代AI驱动药物发现模型——“悟界・OpenComplex2.5”。该模型攻克了固有无序蛋白动态构象难以解析的行业级难题。它用单一模型覆盖了口袋识别、反向筛选、结构预测和亲和力预测四大制药关键步骤。对于难成药靶点,如神经退行性疾病的研究,这条路已被彻底打开。
智能体领域同样亮点迭出。针对具身智能面临的四大核心挑战,智源构建了一套自底向上的全栈技术体系,推出了“悟界・RoboBrainOrca”具身大脑。该大脑的核心逻辑同样是“预测下一个物理状态”,实现了“想、看、动”三位一体。通俗地讲,搭载这颗大脑的机器人,可以在物流、酒店服务等真实环境中长期自主作业,而非“实验室里走两步就倒”的Demo型产品。
基础软硬件生态:破解“多模型×多芯片”适配难题
再看向底层。在基础软硬件生态方面,智源研究院牵头打造的众智FlagOS已升级至2.1版本。该系统目前是全球支持芯片类型最多的智算系统软件栈——统一适配了18家芯片品牌的32款芯片型号,覆盖NVIDIA、NPU、GPGPU、DSA、RISC-V AI、ARM等多种架构。
企业长期面临的“M款模型与N款芯片适配”难题,近年来一直是制约中国AI产业发展的核心瓶颈。王仲远直言:FlagOS的核心思路是将那个复杂的“矩阵问题”简化为一个“多模型+多芯片”的统一接入解决方案。目前它已支持90%以上主流开源大模型的多芯片部署。据公开信息,FlagOS的算子总数已超过600个,能力边界也从“大模型专用”向“科学计算”延伸。这才是从根上解决“卡脖子”问题的务实路径。
