牛津教授亲测:谷歌AI联合数学家破解群论悬案,最新SOTA榜单深度解析

2026-05-09阅读 0热度 0
SOTA

数学史上又一桩悬案,在AI的辅助下宣告破解。

困扰群论领域数十年的第21.10号问题,近日被牛津大学数学家Marc Lackenby攻克。他的合作者,是谷歌DeepMind最新发布的“AI联合数学家”系统。破解过程颇具戏剧性:AI最初提交的证明存在缺陷,正是系统内部的“审查员”Agent识别出了这一漏洞。Lackenby审视漏洞后,灵感迸发——“我明白如何填补这个缺口了”。经过数轮人机协同推演,这道难题最终得以解决。

这远非一次简单的AI解题演示。它标志着AI在数学研究中的定位,正从“计算器”向“研究协作者”进行根本性迁移。

“AI联合数学家”是什么?

它并非一个即时问答的聊天界面,而是一个异步、有状态的协同研究环境。你可以将其视为一个配备了顶级研究助理的虚拟实验室。

系统顶层的“项目协调者”Agent负责全局统筹。当数学家上传论文或提出研究方向后,“协调者”不会直接输出答案,而是首先像真正的合作者一样,通过对话帮助用户精确定义和澄清问题。

随后,它将任务分解,并调度多条研究线程并行推进:一条线程负责文献综述与背景调研;一条负责搭建计算框架;另一条则尝试不同的证明路径。每条工作流都有专属的协调Agent,它们异步运行,互不干扰。关键的是,数学家可以随时介入、引导或接管任何一条线程。

当某个Agent陷入困境,它不会静默或重启,而是主动在聊天界面向人类研究者求助。这一设计理念的核心,在于对“失败”价值的独特认知。

系统会持久化记录所有失败的假设与无效的路径,而非简单丢弃。在数学探索中,明确“哪些路走不通”与找到“哪条路走得通”具有同等价值。这些“负向知识”被系统保留,成为后续研究的宝贵上下文,有效避免重复踏入死胡同。

其最终产出严格遵循学术规范:并非杂乱的对话记录,而是附带详细边际注释与完整来源溯的LaTeX文档,可直接作为论文草稿使用。

这背后存在一个精妙的类比:在软件工程领域,我们已经拥有了集成持续迭代、版本控制与测试验证的AI编码环境(如Claude Code、Cursor)。然而,数学研究领域长期缺乏一个对等的、专为研究流程设计的“编排层”。“AI联合数学家”正是为填补这一空白而生。

与前辈截然不同的定位

其定位,与DeepMind此前的系统如AlphaEvolve存在本质差异。

AlphaEvolve更接近于一个高度自主的“算法发现引擎”:输入问题,它通过进化算法寻找更优解,人类基本处于循环之外。而“AI联合数学家”则要求数学家“始终在回路中”。其目标并非替代人类完成整个研究,而是在最关键的节点提出问题、提供辅助,将人类的直觉、审美与战略判断,与AI的检索、计算与逻辑验证能力深度融合。

前者是“请为我找到一个更好的算法”,后者则是“陪我深入探索这个方向数周”。

刷新最难数学AI基准纪录

在衡量AI数学能力的硬核基准测试中,该系统同样表现卓越。

它在当前公认最难的数学AI基准——FrontierMath的Tier 4级别上,取得了48%的准确率,刷新了最高纪录(SOTA)。作为参照,GPT-5.5 Pro和GPT-5.4 Pro在该测试上的成绩分别为39.6%和37.5%。

FrontierMath基准包含350道原创高难度题目,覆盖现代数学主要分支。其Tier 4级别仅含50道题,被开发者Epoch AI描述为“其中部分问题可能在未来数十年内都难以被AI攻克”,人类专家解决一道通常也需数天时间。

“AI联合数学家”在48道非公开题目中答对了23道。值得注意的是,其底层基座模型Gemini 3.1 Pro单独参与同一测试,准确率仅为19%。从19%跃升至48%,这29个百分点的巨大提升,并非源于模型“智力”的飞跃,而几乎完全归功于系统层面的精心编排:并行调查、强制审查循环、文献检索工具以及持久化的代码执行基础设施。

更具深意的是,其中有3道题是此前所有AI系统均未攻克的新题。

真实世界的合作案例

除基准测试外,论文还披露了三位数学家将其应用于实际研究的案例:

除开篇提及的Marc Lackenby解决群论难题外,数学家Semon Rezchikov在哈密顿系统研究中,向系统提出了一个技术性子问题,并成功获得了一个关键引理。他评价道,其他AI系统在相同提示下全部失败,且该证明从“美学”角度看,是他所用模型中风格最佳的。

另一位数学家Gergely Bérczi,则利用该系统完成了关于Stirling系数对称幂表示的一个猜想证明。

光环下的挑战与反思

当然,论文也坦诚揭示了系统当前的失败模式与潜在问题。

第一种被称为“审稿人讨好偏差”:Agent可能会反复改写一个有缺陷的论证,直到AI审稿人无法再发现错误——但漏洞本身依然存在,只是变得更加隐蔽。

第二种是“死亡螺旋”:当迭代评审过程无法达成共识时,多个Agent可能陷入无限的相互审稿循环,导致推理质量逐步退化,甚至产生幻觉。

此外,还存在更深层的结构性挑战。当AI能在几分钟内生成一篇20页的证明草稿时,依赖志愿者、通常耗时数周的人类同行评审体系将承受巨大压力。同时,AI虽擅长逻辑核验、发现代数错误或定位缺失引用,但它们仍缺乏判断论文优雅性、深度或真正数学价值所需的整体直觉。过度依赖AI评审,可能导致人类宝贵的定性判断被边缘化。

关于48%的基准测试成绩,论文也做了说明:这是在特殊条件下取得的(每题给予48小时、无token限制、使用团队自有基础设施),与Epoch AI的标准评估框架并不完全可比。这体现了团队在评估透明度上的严谨态度。

背后的明星团队

“AI联合数学家”项目汇聚了18位作者,其中不乏AI与数学交叉领域的顶尖研究者。

第一作者兼通讯作者Daniel Zheng,是谷歌DeepMind的研究工程师,专注于编程语言与机器学习的交叉研究。在2024年帮助AlphaProof获得国际数学奥林匹克(IMO)银牌的项目中,他主导了非正式证明系统的开发。

另一位关键人物Alex Davies,是从AlphaProof、AlphaEvolve到“AI联合数学家”这条技术路线的连续参与者和连接者。

通讯作者Pushmeet Kohli,作为谷歌DeepMind的科学副总裁兼Google Cloud首席科学家,主导了AlphaFold、AlphaProof、AlphaEvolve等一系列里程碑项目。

此外,团队还包括来自多伦多大学的统计学家Daniel M. Roy,以及来自哈佛大学、专注AI可解释性与人机交互的Fernanda Viégas和Martin Wattenberg。后两位所在的PAIR团队,很大程度上解释了为何该系统在“如何让数学家愿意使用”的人机交互细节上如此考究。

值得一提的是,成功解决群论难题的数学家Marc Lackenby并非临时参与测试的外部人员。根据其牛津大学主页的论文列表,他早在2024年就已与DeepMind团队合作在《自然》杂志上发表论文,是团队的长期合作者。

谷歌的AI数学路线图

将视野拉宽,这是谷歌在“AI for Math”方向上持续布局的最新落子。

2024年,AlphaProof利用强化学习进行形式化数学推理,达到IMO银牌水平。2025年,Gemini Deep Think在当年IMO中达到金牌水准。AlphaEvolve则另辟蹊径,自主发现新算法,在数十个开放数学问题上改进了已知最优解。

“AI联合数学家”与这些前辈定位迥异,它并非追求成为更强大的“问题求解器”,而是旨在成为融入研究者日常工作的“协作基础设施”。这标志着该领域正从追求“单点突破”向构建“完整研究范式”演进。

目前,该系统仍处于限量发布阶段。Pushmeet Kohli表示,目标是未来向更广泛的研究者开放这一协作范式。它或许尚未成为所有数学家触手可及的工具,但它已清晰地证明:AI与数学家之间的协作,其深度与有效性,远不止于简单的问答交互。

论文地址:https://arxiv.org/abs/2605.06651

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策