上交大SciMaster团队AI物理博士:前沿研究深度解析与未来展望
当大模型从“信息处理”迈向“任务执行”,AI for Science 领域正经历一场根本性的范式转移。
过去,行业评估多集中于模型处理标准问题、知识问答与文献综述的能力。这些固然是基础,但本质上仍属于信息处理的范畴——它们优化了信息获取效率,却未能触及科研工作的核心引擎。
科研的真正挑战,从来不是单一能力的强弱。其本质是一个长链条、高不确定性、且严格依赖验证的闭环系统。一个基础的物理问题,通常需要历经建模、理论推导、数值实验设计、代码实现、参数调优、结果比对与误差分析等一系列精密步骤。其中任一环节的偏差,都可能导致整个结论的失效。
因此,科研效率的长期瓶颈,往往不在于想法的独创性,而在于将天才构想转化为可信结论的工程化能力。大量宝贵的研究时间,实际上消耗在重复性的工程劳动与漫长的试错循环中。
在此背景下,上海交通大学 SciMaster 团队联合深势科技、中科院理论物理所的研究,提供了一个更为彻底的解决方案。其核心并非将AI视为分散的辅助工具,而是构建一个能够自主规划、组织并执行完整科研闭环的智能系统。这项以《PHYSMASTER: Building an Autonomous AI Physicist for Theoretical and Computational Physics Research》为题的研究,直指一个核心命题:AI能否成为科研流程中真正的主导者?
研究团队摒弃了在标准数据集上比拼分数的传统范式,转而采用五个真实的物理研究任务来验证系统能力。这些任务被划分为三个能力层级:加速、自动化、自主发现。目标明确:证明该系统能像一位训练有素的物理学博士那样,独立驾驭完整的研究闭环,而非停留在对话层面。
五项任务跑通科研闭环
“加速”类任务旨在证明系统能极大压缩成熟但繁琐的研究流程。
首个案例是从格点QCD数据中提取Collins–Soper kernel。这是一个粒子物理中标准但流程极其复杂的计算任务:输入是格点QCD的原始欧式相关函数与Wilson loop数据,输出则是描述横动量依赖分布随能标演化的关键物理量。
系统所得结果与已有研究工作的中心趋势一致,且给出的统计误差更小。研究团队也指出,这可能源于系统对某些系统误差的处理更为乐观。
此案例的关键价值,不在于算出了某个具体数值,而在于其自动执行了一整套严谨的物理数据分析全流程:从噪声数据拟合、自动选择合理拟合区间、进行重整化消除发散、处理远距离信号爆噪问题、完成傅里叶变换,到最终提取目标物理量。这证明了AI不仅“理解理论”,更能“执行实务”。
第二个加速任务工程挑战性更高:从零开始编写程序计算锂原子的第一激发能,且禁止依赖任何成熟的量子化学软件包。系统从头构建了一个变分求解器,最终计算结果与实验值高度吻合,误差范围完全满足科研验证要求。
任务难点在于限制条件:不能调用Gaussian或PySCF等专业软件,不能依赖外部检索,仅能使用Julia标准库。这意味着系统必须自行推导积分形式、实现数值积分、并进行参数优化。其中,三电子体系交换项的处理、核附近发散的数值技巧、基函数选择与正交化,都极度依赖物理直觉与计算经验。这类工作通常需要研究生投入数天甚至更长时间,而系统能在短时间内完成并交付可靠结果。
“自动化”类任务则要求系统独立完成接近完整科研项目的流程。
第三个成果,是使用量子蒙特卡洛方法计算Union Jack格子Bose–Hubbard模型的相变临界点。系统得到了一个误差极小的精确临界点,其结论符合物理直觉:由于连接更丰富,该格子的临界点比普通方格子显著降低。
此任务的强度在于,它不再是照搬公式编写代码。系统需要自行实现QMC核心算法,处理特殊格子拓扑带来的细节差异,自动调整参数使系统精确落在关键相区,并在不同尺寸下重复计算,最后通过有限尺度分析外推出无限系统的可靠临界点。整个过程在无外部知识库检索的情况下完成,证明了其从物理定义出发独立执行高精度数值研究的能力。
第四个自动化任务形式不同,旨在验证一个物理假设:在潮汐瓦解事件中,nozzle shock的耗散是否会被广义相对论效应显著增强?
背景在于,传统理论认为碎片流在近地点附近的nozzle shock会耗散大量能量,但更高分辨率的模拟发现可能高估了耗散强度。系统需要测试的机制是,考虑恒星并非质点而产生的能量展宽,在Kerr黑洞时空中,不同能量碎片的轨道进动不同,可能导致再次汇合时发生非零夹角碰撞,从而增强总耗散。
这个案例体现了“自动化科研循环”的能力:给定一个研究方向或假设,系统能够自主完成建模、开展数值实验、并评估该机制成立的可能性。这比单纯的计算更接近真实的科研探索过程。
最后,第五个成果被定义为“自主发现”类任务,研究对象是粲介子半轻衰变中的哈密顿量构造与振幅预测。研究团队认为,这标志着系统从“协作科学家”向“自主科学家”的跨越。面对开放且复杂的问题,系统不再需要人类逐步指导,而是能够自主探索路径,并提出研究人员认可的创新性方法。这体现了最高等级的能力:不仅执行任务,还能生成新的研究路线。
让物理研究流程化与可复用
PHYSMASTER的成功,并非依赖单一强大模型,而是源于一套模仿科研团队协作的系统性架构。其整体流程被清晰地划分为三个阶段:前处理、执行、沉淀复用。
在前处理阶段,系统首先应对真实科研中常见的信息过载、结构模糊和存在歧义的问题。直接开始计算极易偏离方向。因此,系统会先进行问题澄清与拆解:明确物理方向、厘清输入输出、判断任务类型(如工程计算、假设检验)、梳理必须遵守的物理约束、补足背景知识,并最终拆解为一系列可执行的子任务。这类似于研究员在动笔前,制定一份详尽的研究计划书。
紧接着,系统会为当前任务构建一个专用的知识库。该知识库的目的并非百科式存储,而是为了补齐关键概念与标准做法,引入必要的数值基准,确保后续推导和实现不是“凭空造车”。其构建依赖两类角色的协作:一类负责广泛检索以防遗漏,另一类则通过强推理筛选高相关度内容,并从中提取定性知识(如物理图像)和定量知识(如关键参数),同时强调证据链,使每一步结论都可追溯。
进入执行阶段,系统开始理论推导、代码实现与试错迭代。物理研究属于超长任务,因此系统采用了多轨迹探索策略,并行尝试多条技术路线,每条路线产出阶段性结果,最终选择最可靠、最完整的一条作为最终方案。这更像一个科研小组并行推进多个备选方案,而非在单一路径上陷入僵局。
执行阶段也有明确分工:“Supervisor”角色如同项目负责人,负责决策下一步行动、管理进度、严格检查输出的可靠性,并提出批判性反馈,要求修正。“Theoretician”角色则像具体执行的研究员,负责理论推导、建模并将模型转化为可运行的程序。研究团队特别指出,系统可靠性的关键,恰恰在于“Supervisor”提供的这种批判式反馈机制,否则系统可能会在错误路径上持续深入。
最后是沉淀复用阶段。系统配备了名为“LANDAU”的长期记忆系统,旨在实现经验的持续积累。它会沉淀任务中检索到的可靠文献、已验证有效的方法流程,以及人工整理的高置信度物理常识。每次任务结束后,本次构建的小型知识库便会并入长期库,使得系统能够像一位经验日益丰富的物理学家一样,在未来遇到类似问题时,反应更迅速、表现更稳定。
从助手到研究者的转变
纵观这项研究,其意义可以从四个层面解读。
第一,它证明了AI有能力完成端到端的物理科研全流程,而不仅仅是应对竞赛题目、回答事实问题或总结文献。这些传统评估方式无法构成真正的研究闭环。真实的物理研究更需要抽象建模、严谨推导、可执行的代码实现以及数值验证能力,而PHYSMASTER的价值,正是将这些过去AI系统明显欠缺的关键能力整合到了一个统一的框架之中。
第二,它有望显著压缩物理研究中最耗费人力的重复性工程劳动。例如编写求解器、调试参数、反复运行计算等工作,往往占据研究人员大量时间。加速类案例表明,AI有可能将资深博士生需要一至三个月完成的重量级工程环节,压缩到数小时级别,从而直接改变科研推进的节奏与成本。
第三,自动化类案例进一步说明,整个“提出假设-验证-迭代”的科研循环本身也可以被大幅加速。在研究人员给出一个核心思路后,系统能够自动完成探索循环,将原本可能拖延数月、充满不确定性的过程,收敛到以“天”为单位的级别。未来的科研分工或许将演变为:人类负责提出方向与关键洞察,AI负责将方向快速转化为可验证的结论。
第四,自主发现类案例则暗示,AI正有机会从“科研助手”转向“研究者”的角色。自主发现意味着系统不再仅仅是执行明确的指令,而是能够在面对开放性问题时,自主探索路径并推进研究前沿。这正是从协作科学家迈向自主科学家的关键转变。
点亮 PhysMaster 的人
这项突破性工作的背后,是一支年轻的科研团队。论文第一作者苗庭嘉,本科就读于上海交通大学致远学院,现为上海交通大学人工智能学院2026级博士研究生,研究方向聚焦于AI智能体与AI for Science,师从陈思衡副教授。2023至2024年,他曾在上海交通大学李政道研究所担任科研助理,从事凝聚态物理理论研究,此后也在字节跳动Seed、北京大学计算机学院进行过AI领域的研究。自2025年起,苗庭嘉开始与深势科技合作,深度参与SciMaster科研智能体生态的构建与完善。
本论文的通讯作者陈思衡,是上海交通大学人工智能学院长聘教轨副教授、博士生导师。他于2016年获得美国卡内基梅隆大学电气与计算机工程博士学位,并入选国家级人才计划青年项目。他的研究方向涵盖图机器学习、群体智能、多智能体协同感知以及大模型智能体。在图信号处理与图结构数据采样理论方面做出了开拓性贡献,曾获得IEEE信号处理协会最佳青年作者论文奖。在群体智能领域,他提出了群智交互感知的语用社会学习思想。近年来,他致力于大模型驱动的智能体技术,主导开发了科研智能体SciMaster和ML-Master,并在AI for AI方向上取得了显著进展。











