牛津教授亲测：谷歌AI联合数学家破解群论悬案，最新SOTA榜单深度解析

2026-05-09阅读 0热度 0

SOTA

数学史上又一桩悬案，在AI的辅助下宣告破解。

困扰群论领域数十年的第21.10号问题，近日被牛津大学数学家Marc Lackenby攻克。他的合作者，是谷歌DeepMind最新发布的“AI联合数学家”系统。破解过程颇具戏剧性：AI最初提交的证明存在缺陷，正是系统内部的“审查员”Agent识别出了这一漏洞。Lackenby审视漏洞后，灵感迸发——“我明白如何填补这个缺口了”。经过数轮人机协同推演，这道难题最终得以解决。

这远非一次简单的AI解题演示。它标志着AI在数学研究中的定位，正从“计算器”向“研究协作者”进行根本性迁移。

“AI联合数学家”是什么？

它并非一个即时问答的聊天界面，而是一个异步、有状态的协同研究环境。你可以将其视为一个配备了顶级研究助理的虚拟实验室。

系统顶层的“项目协调者”Agent负责全局统筹。当数学家上传论文或提出研究方向后，“协调者”不会直接输出答案，而是首先像真正的合作者一样，通过对话帮助用户精确定义和澄清问题。

随后，它将任务分解，并调度多条研究线程并行推进：一条线程负责文献综述与背景调研；一条负责搭建计算框架；另一条则尝试不同的证明路径。每条工作流都有专属的协调Agent，它们异步运行，互不干扰。关键的是，数学家可以随时介入、引导或接管任何一条线程。

当某个Agent陷入困境，它不会静默或重启，而是主动在聊天界面向人类研究者求助。这一设计理念的核心，在于对“失败”价值的独特认知。

系统会持久化记录所有失败的假设与无效的路径，而非简单丢弃。在数学探索中，明确“哪些路走不通”与找到“哪条路走得通”具有同等价值。这些“负向知识”被系统保留，成为后续研究的宝贵上下文，有效避免重复踏入死胡同。

其最终产出严格遵循学术规范：并非杂乱的对话记录，而是附带详细边际注释与完整来源溯的LaTeX文档，可直接作为论文草稿使用。

这背后存在一个精妙的类比：在软件工程领域，我们已经拥有了集成持续迭代、版本控制与测试验证的AI编码环境（如Claude Code、Cursor）。然而，数学研究领域长期缺乏一个对等的、专为研究流程设计的“编排层”。“AI联合数学家”正是为填补这一空白而生。

与前辈截然不同的定位

其定位，与DeepMind此前的系统如AlphaEvolve存在本质差异。

AlphaEvolve更接近于一个高度自主的“算法发现引擎”：输入问题，它通过进化算法寻找更优解，人类基本处于循环之外。而“AI联合数学家”则要求数学家“始终在回路中”。其目标并非替代人类完成整个研究，而是在最关键的节点提出问题、提供辅助，将人类的直觉、审美与战略判断，与AI的检索、计算与逻辑验证能力深度融合。

前者是“请为我找到一个更好的算法”，后者则是“陪我深入探索这个方向数周”。

刷新最难数学AI基准纪录

在衡量AI数学能力的硬核基准测试中，该系统同样表现卓越。

它在当前公认最难的数学AI基准——FrontierMath的Tier 4级别上，取得了48%的准确率，刷新了最高纪录（SOTA）。作为参照，GPT-5.5 Pro和GPT-5.4 Pro在该测试上的成绩分别为39.6%和37.5%。

FrontierMath基准包含350道原创高难度题目，覆盖现代数学主要分支。其Tier 4级别仅含50道题，被开发者Epoch AI描述为“其中部分问题可能在未来数十年内都难以被AI攻克”，人类专家解决一道通常也需数天时间。

“AI联合数学家”在48道非公开题目中答对了23道。值得注意的是，其底层基座模型Gemini 3.1 Pro单独参与同一测试，准确率仅为19%。从19%跃升至48%，这29个百分点的巨大提升，并非源于模型“智力”的飞跃，而几乎完全归功于系统层面的精心编排：并行调查、强制审查循环、文献检索工具以及持久化的代码执行基础设施。

更具深意的是，其中有3道题是此前所有AI系统均未攻克的新题。

真实世界的合作案例

除基准测试外，论文还披露了三位数学家将其应用于实际研究的案例：

除开篇提及的Marc Lackenby解决群论难题外，数学家Semon Rezchikov在哈密顿系统研究中，向系统提出了一个技术性子问题，并成功获得了一个关键引理。他评价道，其他AI系统在相同提示下全部失败，且该证明从“美学”角度看，是他所用模型中风格最佳的。

另一位数学家Gergely Bérczi，则利用该系统完成了关于Stirling系数对称幂表示的一个猜想证明。

光环下的挑战与反思

当然，论文也坦诚揭示了系统当前的失败模式与潜在问题。

第一种被称为“审稿人讨好偏差”：Agent可能会反复改写一个有缺陷的论证，直到AI审稿人无法再发现错误——但漏洞本身依然存在，只是变得更加隐蔽。

第二种是“死亡螺旋”：当迭代评审过程无法达成共识时，多个Agent可能陷入无限的相互审稿循环，导致推理质量逐步退化，甚至产生幻觉。

此外，还存在更深层的结构性挑战。当AI能在几分钟内生成一篇20页的证明草稿时，依赖志愿者、通常耗时数周的人类同行评审体系将承受巨大压力。同时，AI虽擅长逻辑核验、发现代数错误或定位缺失引用，但它们仍缺乏判断论文优雅性、深度或真正数学价值所需的整体直觉。过度依赖AI评审，可能导致人类宝贵的定性判断被边缘化。

关于48%的基准测试成绩，论文也做了说明：这是在特殊条件下取得的（每题给予48小时、无token限制、使用团队自有基础设施），与Epoch AI的标准评估框架并不完全可比。这体现了团队在评估透明度上的严谨态度。

背后的明星团队

“AI联合数学家”项目汇聚了18位作者，其中不乏AI与数学交叉领域的顶尖研究者。

第一作者兼通讯作者Daniel Zheng，是谷歌DeepMind的研究工程师，专注于编程语言与机器学习的交叉研究。在2024年帮助AlphaProof获得国际数学奥林匹克（IMO）银牌的项目中，他主导了非正式证明系统的开发。

另一位关键人物Alex Davies，是从AlphaProof、AlphaEvolve到“AI联合数学家”这条技术路线的连续参与者和连接者。

通讯作者Pushmeet Kohli，作为谷歌DeepMind的科学副总裁兼Google Cloud首席科学家，主导了AlphaFold、AlphaProof、AlphaEvolve等一系列里程碑项目。

此外，团队还包括来自多伦多大学的统计学家Daniel M. Roy，以及来自哈佛大学、专注AI可解释性与人机交互的Fernanda Viégas和Martin Wattenberg。后两位所在的PAIR团队，很大程度上解释了为何该系统在“如何让数学家愿意使用”的人机交互细节上如此考究。

值得一提的是，成功解决群论难题的数学家Marc Lackenby并非临时参与测试的外部人员。根据其牛津大学主页的论文列表，他早在2024年就已与DeepMind团队合作在《自然》杂志上发表论文，是团队的长期合作者。

谷歌的AI数学路线图

将视野拉宽，这是谷歌在“AI for Math”方向上持续布局的最新落子。

2024年，AlphaProof利用强化学习进行形式化数学推理，达到IMO银牌水平。2025年，Gemini Deep Think在当年IMO中达到金牌水准。AlphaEvolve则另辟蹊径，自主发现新算法，在数十个开放数学问题上改进了已知最优解。

“AI联合数学家”与这些前辈定位迥异，它并非追求成为更强大的“问题求解器”，而是旨在成为融入研究者日常工作的“协作基础设施”。这标志着该领域正从追求“单点突破”向构建“完整研究范式”演进。

目前，该系统仍处于限量发布阶段。Pushmeet Kohli表示，目标是未来向更广泛的研究者开放这一协作范式。它或许尚未成为所有数学家触手可及的工具，但它已清晰地证明：AI与数学家之间的协作，其深度与有效性，远不止于简单的问答交互。

论文地址：https://arxiv.org/abs/2605.06651