上海人工智能实验室联合复旦大学突破：AI自主攻克科学难题，告别传统训练模式

2026-05-13阅读 0热度 0

复旦大学

在科学研究的漫长探索中，一个经典的难题始终横亘在前：如何让人工智能像人类科学家一样，在没有现成“标准答案”的情况下，独立解决复杂的科学问题？这需要的不仅是计算，更是深度的推理、验证与自我迭代能力。

2025年2月，来自上海人工智能实验室和复旦大学的研究团队，在论文arXiv:2602.12164v1中给出了一个颇具启发性的答案。他们提出的Sci-CoE框架，正试图让AI告别对海量标注数据的“刷题依赖”，走上一条自我教习、共同进化的新路。

当下的AI，在数学、编程等有明确对错规则的领域已是“超级学霸”。可一旦踏入开放的科学推理领域，它们往往就束手无策了。科学问题哪有唯一的解？同一个现象，可能有多种自洽的理论解释；同一个难题，通往答案的路径也往往不止一条。更关键的是，判断一个科学结论是否可靠，需要深厚的领域知识作为支撑，这恰恰是当前AI的软肋。

传统的训练模式，好比只让厨师背诵固定菜谱。而Sci-CoE的构想，则是要培养一位既能创新菜式，又能精准品鉴、自我改进的“主厨”。其核心设计颇为巧妙：让同一个AI模型扮演两个角色——“解题者”与“验证者”。

解题者负责针对科学问题生成详细的解决方案，包括推理链条和最终结论。验证者则负责设计多样化的策略，从不同角度去检验这些方案是否站得住脚。在训练中，两者被置于一个动态的博弈与协作环境中：解题者提出的方案越扎实，就越能训练验证者设计出更精妙的检验方法；反过来，验证者的策略越犀利、越全面，就能给解题者更高质量的反馈，推动其生成更可靠的方案。如此循环，能力便在内部相互砥砺中共同成长。

一、双重身份的奇妙平衡术

这种“一体双魂”的设计，是Sci-CoE框架的基石。它并非简单地训练两个独立模型，而是让两个角色共享同一套模型参数。这意味着，解题能力的进步会直接裨益验证能力，反之亦然。这种深度耦合，确保了两种能力在发展上的协调与效率。

具体运作时，面对一个科学问题，模型会并行生成多个候选解决方案和多种验证策略。每一个方案都要经受所有策略的交叉检验，形成一个评估矩阵。这种全方位、多角度的“审视”，极大地提升了判断的鲁棒性，避免了因单一验证视角而产生的误判。

二、从有监督到无监督的华丽转身

整个训练过程被精心划分为两个阶段，实现了从“扶上马”到“自驰骋”的平稳过渡。

第一阶段是“锚定学习”。顾名思义，这一阶段需要为数不多的“锚点”——即少量带有标准答案的科学问题。其目的并非让AI死记硬背答案，而是借此建立起关于“何为合理推理、何为有效验证”的最基本准则。哪怕只用总数据量的1%-10%作为锚点，也足以让AI获得关键的初始方向感。

第二阶段则是真正的核心——“无监督共同进化”。在此阶段，AI彻底摆脱对外部标准答案的依赖。解题者依据验证者反馈的一致性来优化方案，验证者则通过一套精妙的“几何建模”机制来维持和提升策略的多样性与可靠性。两者在无人监督的旷野中，依靠彼此互为参照，探索前行。

三、几何建模：防止“集体思维”的智慧设计

无监督学习的一大风险在于“集体思维”或策略坍缩：为了获得内部奖励，验证者可能倾向于生成大量相似甚至取巧的简单策略，导致系统失去批判性，陷入自我陶醉。

为此，研究团队引入了极具创意的几何建模机制。它将每个以自然语言表述的验证策略，通过嵌入模型映射到一个高维语义空间，并从三个几何&维度进行量化评估：

一致性： 奖励那些能成功识别高质量解决方案的策略。

可靠性： 在语义空间中，计算每个策略向量与所属聚类中心的距离。距离越近，意味着该策略越稳定、越不容易“跑偏”，从而获得更高奖励。

多样性： 这是防止同质化的关键。系统将所有策略投影到二维平面，计算它们在极坐标下的角度分布。理想状态下，策略应均匀散布在各个方向。那些填补了空白角度、视角独特的策略，将获得额外的多样性奖励。

这套组合拳，确保了验证系统既不会变成吹毛求疵的“杠精”（拒绝一切），也不会成为好好先生（接受一切），而是在保持严格标准的同时，鼓励创新、多元的验证思路。

四、实验验证：从理论到实践的成功转化

理论再美妙，也需实验来检验。研究团队在MMLU-Pro、GPQA-Diamond和UGPhysics等多个高难度科学推理基准上进行了全面测试。

结果令人振奋。以Qwen3-8B为基础模型时，Sci-CoE框架在GPQA-Diamond上将准确率从36.87%提升至40.91%；在更广泛的MMLU-Pro上也取得了稳定的进步。尤为重要的是，随着无标签数据量从18k增至30k，系统性能持续提升，未出现饱和迹象，证明了其良好的可扩展性。

可视化分析直观地展示了几何建模的威力：训练初期，验证策略在语义空间中杂乱聚集；随着训练推进，它们在奖励机制的引导下，逐渐趋向于既稳定（靠近各自聚类中心）又多样（均匀分布）的理想状态。

消融实验进一步揭示了各组件的作用：移除了初始“锚定学习”阶段的系统，性能甚至可能低于基础模型，这凸显了那一点点“种子知识”的不可或缺性。而去掉几何奖励、仅保留一致性奖励，则会导致策略多样性下降，最终影响整体性能。

五、技术细节：工程实现的精妙之处

Sci-CoE的成功，离不开扎实的工程实现。研究团队以Qwen2.5-7B-Instruct和Qwen3-8B等先进模型为基础，整合了MegaScience、Numinamath等多个高质量科学数据集。

训练采用近端策略优化算法。每一步，系统采样100个科学问题，为每个问题生成10个候选解和10个验证策略，以批量并行方式高效推进。为确保验证质量，团队动用了Qwen3-235B-A22B这样的超大规模模型作为“外部裁判”，为训练提供高质量的反馈信号。

几何建模中的向量化、聚类、降维等计算，则巧妙结合了深度学习与传统机器学习方法，在保证效果的同时控制了计算开销。

六、深度分析：突破传统范式的意义

Sci-CoE的价值，远不止于几个百分点的性能提升。它真正突破的，是科学AI领域对昂贵专家标注数据的重度依赖。实验表明，仅需极少量“锚点”数据启动，系统便能通过自我博弈实现持续进化，这为AI在标注稀缺的科学领域大规模应用打开了新局面。

其“解题-验证”双角色自我进化的范式，具有强大的可迁移性。它本质上是一种元学习，让AI习得了“如何推理”以及“如何检验推理”的通用模式，而非特定问题的答案。这种能力，有望泛化到其他需要复杂判断与批判性思维的领域。

几何建模机制则为衡量和引导AI行为的“多样性”与“稳定性”提供了可计算的框架，这一方法论贡献同样具有普适意义。

七、应用前景与现实意义

展望未来，Sci-CoE类框架的潜力巨大。在教育领域，它可化身智能导师，不仅答疑解惑，更能展示推理过程并自我验证；在科研中，或能辅助科学家进行假设推演与实验设计检视；甚至可能为学术出版中的同行评议提供新的自动化辅助视角。

当然，前路仍有挑战。当前实验基于百亿参数以内的模型，更大规模模型下的表现有待探索；系统仍部分依赖“外部裁判”模型；在需要极深领域知识的尖端问题上，其判断力与人类专家尚有差距。

但无论如何，Sci-CoE框架指出了一个清晰的方向：人工智能可以像人类学者一样，通过内在的反思、辩论与自我批评来实现成长。当AI开始学会“自己考自己”时，我们或许正站在让机器获得更高级认知能力的新起点上。这项研究不仅是一次技术突破，更是一次关于AI学习范式的深刻启示。

Q&A

Q1：Sci-CoE框架如何让AI在没有标准答案的情况下自我学习？

其核心在于让AI内部形成“生成”与“检验”的闭环。同一个模型扮演解题者和验证者两个角色。解题者提出方案，验证者设计策略去检验它。两者在互动中相互促进：好的方案训练出更敏锐的检验策略，而严谨的检验策略又倒逼生成更可靠的方案。如此循环，无需外部标准答案，AI也能在自我博弈中不断进化。

Q2：为什么Sci-CoE需要分两个阶段训练？

两个阶段各有使命。第一阶段“锚定学习”虽只用少量标注数据，却至关重要。它相当于为AI提供了最初的“罗盘”，建立了关于正确推理与验证的基本概念。没有这个罗盘，直接进入无监督的“共同进化”阶段，AI很容易迷失方向，甚至表现倒退。第二阶段则是在此基础上放手，让AI依靠内部博弈进行深化和拓展。

Q3：Sci-CoE框架的几何建模机制是如何防止AI产生相似验证策略的？

该机制通过数学方法量化并奖励“多样性”。它将每个验证策略转化为高维空间中的一个点，然后分析这些点的分布。系统会特别奖励那些在角度上与其他策略差异大、能提供独特检验视角的策略。同时，它也会奖励那些位置稳定（靠近聚类中心）的策略以保证可靠性。通过这种“多样性”与“可靠性”并重的奖励设计，系统有效避免了验证策略陷入千篇一律的平庸状态。