上海人工智能实验室联合复旦大学突破:AI自主攻克科学难题,告别传统训练模式

2026-05-13阅读 0热度 0
复旦大学

在科学研究的漫长探索中,一个经典的难题始终横亘在前:如何让人工智能像人类科学家一样,在没有现成“标准答案”的情况下,独立解决复杂的科学问题?这需要的不仅是计算,更是深度的推理、验证与自我迭代能力。

2025年2月,来自上海人工智能实验室和复旦大学的研究团队,在论文arXiv:2602.12164v1中给出了一个颇具启发性的答案。他们提出的Sci-CoE框架,正试图让AI告别对海量标注数据的“刷题依赖”,走上一条自我教习、共同进化的新路。

上海人工智能实验室+复旦大学重磅突破:让AI自己教会自己做科学难题,从此告别

当下的AI,在数学、编程等有明确对错规则的领域已是“超级学霸”。可一旦踏入开放的科学推理领域,它们往往就束手无策了。科学问题哪有唯一的解?同一个现象,可能有多种自洽的理论解释;同一个难题,通往答案的路径也往往不止一条。更关键的是,判断一个科学结论是否可靠,需要深厚的领域知识作为支撑,这恰恰是当前AI的软肋。

传统的训练模式,好比只让厨师背诵固定菜谱。而Sci-CoE的构想,则是要培养一位既能创新菜式,又能精准品鉴、自我改进的“主厨”。其核心设计颇为巧妙:让同一个AI模型扮演两个角色——“解题者”与“验证者”。

解题者负责针对科学问题生成详细的解决方案,包括推理链条和最终结论。验证者则负责设计多样化的策略,从不同角度去检验这些方案是否站得住脚。在训练中,两者被置于一个动态的博弈与协作环境中:解题者提出的方案越扎实,就越能训练验证者设计出更精妙的检验方法;反过来,验证者的策略越犀利、越全面,就能给解题者更高质量的反馈,推动其生成更可靠的方案。如此循环,能力便在内部相互砥砺中共同成长。

一、双重身份的奇妙平衡术

这种“一体双魂”的设计,是Sci-CoE框架的基石。它并非简单地训练两个独立模型,而是让两个角色共享同一套模型参数。这意味着,解题能力的进步会直接裨益验证能力,反之亦然。这种深度耦合,确保了两种能力在发展上的协调与效率。

具体运作时,面对一个科学问题,模型会并行生成多个候选解决方案和多种验证策略。每一个方案都要经受所有策略的交叉检验,形成一个评估矩阵。这种全方位、多角度的“审视”,极大地提升了判断的鲁棒性,避免了因单一验证视角而产生的误判。

二、从有监督到无监督的华丽转身

整个训练过程被精心划分为两个阶段,实现了从“扶上马”到“自驰骋”的平稳过渡。

第一阶段是“锚定学习”。顾名思义,这一阶段需要为数不多的“锚点”——即少量带有标准答案的科学问题。其目的并非让AI死记硬背答案,而是借此建立起关于“何为合理推理、何为有效验证”的最基本准则。哪怕只用总数据量的1%-10%作为锚点,也足以让AI获得关键的初始方向感。

第二阶段则是真正的核心——“无监督共同进化”。在此阶段,AI彻底摆脱对外部标准答案的依赖。解题者依据验证者反馈的一致性来优化方案,验证者则通过一套精妙的“几何建模”机制来维持和提升策略的多样性与可靠性。两者在无人监督的旷野中,依靠彼此互为参照,探索前行。

三、几何建模:防止“集体思维”的智慧设计

无监督学习的一大风险在于“集体思维”或策略坍缩:为了获得内部奖励,验证者可能倾向于生成大量相似甚至取巧的简单策略,导致系统失去批判性,陷入自我陶醉。

为此,研究团队引入了极具创意的几何建模机制。它将每个以自然语言表述的验证策略,通过嵌入模型映射到一个高维语义空间,并从三个几何&维度进行量化评估:

一致性: 奖励那些能成功识别高质量解决方案的策略。

可靠性: 在语义空间中,计算每个策略向量与所属聚类中心的距离。距离越近,意味着该策略越稳定、越不容易“跑偏”,从而获得更高奖励。

多样性: 这是防止同质化的关键。系统将所有策略投影到二维平面,计算它们在极坐标下的角度分布。理想状态下,策略应均匀散布在各个方向。那些填补了空白角度、视角独特的策略,将获得额外的多样性奖励。

这套组合拳,确保了验证系统既不会变成吹毛求疵的“杠精”(拒绝一切),也不会成为好好先生(接受一切),而是在保持严格标准的同时,鼓励创新、多元的验证思路。

四、实验验证:从理论到实践的成功转化

理论再美妙,也需实验来检验。研究团队在MMLU-Pro、GPQA-Diamond和UGPhysics等多个高难度科学推理基准上进行了全面测试。

结果令人振奋。以Qwen3-8B为基础模型时,Sci-CoE框架在GPQA-Diamond上将准确率从36.87%提升至40.91%;在更广泛的MMLU-Pro上也取得了稳定的进步。尤为重要的是,随着无标签数据量从18k增至30k,系统性能持续提升,未出现饱和迹象,证明了其良好的可扩展性。

可视化分析直观地展示了几何建模的威力:训练初期,验证策略在语义空间中杂乱聚集;随着训练推进,它们在奖励机制的引导下,逐渐趋向于既稳定(靠近各自聚类中心)又多样(均匀分布)的理想状态。

消融实验进一步揭示了各组件的作用:移除了初始“锚定学习”阶段的系统,性能甚至可能低于基础模型,这凸显了那一点点“种子知识”的不可或缺性。而去掉几何奖励、仅保留一致性奖励,则会导致策略多样性下降,最终影响整体性能。

五、技术细节:工程实现的精妙之处

Sci-CoE的成功,离不开扎实的工程实现。研究团队以Qwen2.5-7B-Instruct和Qwen3-8B等先进模型为基础,整合了MegaScience、Numinamath等多个高质量科学数据集。

训练采用近端策略优化算法。每一步,系统采样100个科学问题,为每个问题生成10个候选解和10个验证策略,以批量并行方式高效推进。为确保验证质量,团队动用了Qwen3-235B-A22B这样的超大规模模型作为“外部裁判”,为训练提供高质量的反馈信号。

几何建模中的向量化、聚类、降维等计算,则巧妙结合了深度学习与传统机器学习方法,在保证效果的同时控制了计算开销。

六、深度分析:突破传统范式的意义

Sci-CoE的价值,远不止于几个百分点的性能提升。它真正突破的,是科学AI领域对昂贵专家标注数据的重度依赖。实验表明,仅需极少量“锚点”数据启动,系统便能通过自我博弈实现持续进化,这为AI在标注稀缺的科学领域大规模应用打开了新局面。

其“解题-验证”双角色自我进化的范式,具有强大的可迁移性。它本质上是一种元学习,让AI习得了“如何推理”以及“如何检验推理”的通用模式,而非特定问题的答案。这种能力,有望泛化到其他需要复杂判断与批判性思维的领域。

几何建模机制则为衡量和引导AI行为的“多样性”与“稳定性”提供了可计算的框架,这一方法论贡献同样具有普适意义。

七、应用前景与现实意义

展望未来,Sci-CoE类框架的潜力巨大。在教育领域,它可化身智能导师,不仅答疑解惑,更能展示推理过程并自我验证;在科研中,或能辅助科学家进行假设推演与实验设计检视;甚至可能为学术出版中的同行评议提供新的自动化辅助视角。

当然,前路仍有挑战。当前实验基于百亿参数以内的模型,更大规模模型下的表现有待探索;系统仍部分依赖“外部裁判”模型;在需要极深领域知识的尖端问题上,其判断力与人类专家尚有差距。

但无论如何,Sci-CoE框架指出了一个清晰的方向:人工智能可以像人类学者一样,通过内在的反思、辩论与自我批评来实现成长。当AI开始学会“自己考自己”时,我们或许正站在让机器获得更高级认知能力的新起点上。这项研究不仅是一次技术突破,更是一次关于AI学习范式的深刻启示。

Q&A

Q1:Sci-CoE框架如何让AI在没有标准答案的情况下自我学习?

其核心在于让AI内部形成“生成”与“检验”的闭环。同一个模型扮演解题者和验证者两个角色。解题者提出方案,验证者设计策略去检验它。两者在互动中相互促进:好的方案训练出更敏锐的检验策略,而严谨的检验策略又倒逼生成更可靠的方案。如此循环,无需外部标准答案,AI也能在自我博弈中不断进化。

Q2:为什么Sci-CoE需要分两个阶段训练?

两个阶段各有使命。第一阶段“锚定学习”虽只用少量标注数据,却至关重要。它相当于为AI提供了最初的“罗盘”,建立了关于正确推理与验证的基本概念。没有这个罗盘,直接进入无监督的“共同进化”阶段,AI很容易迷失方向,甚至表现倒退。第二阶段则是在此基础上放手,让AI依靠内部博弈进行深化和拓展。

Q3:Sci-CoE框架的几何建模机制是如何防止AI产生相似验证策略的?

该机制通过数学方法量化并奖励“多样性”。它将每个验证策略转化为高维空间中的一个点,然后分析这些点的分布。系统会特别奖励那些在角度上与其他策略差异大、能提供独特检验视角的策略。同时,它也会奖励那些位置稳定(靠近聚类中心)的策略以保证可靠性。通过这种“多样性”与“可靠性”并重的奖励设计,系统有效避免了验证策略陷入千篇一律的平庸状态。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策