菲尔兹奖得主实测:ChatGPT 5.5 Pro 17分钟产出数学论文级成果深度测评
如果人工智能的数学能力继续以当前的速度进化,数学研究者们可能很快就要面对一场深刻的职业危机。
这不是危言耸听。最近,菲尔兹奖得主、剑桥大学的蒂莫西·高尔斯(Timothy Gowers)在亲身体验了ChatGPT 5.5 Pro之后,为整个数学界,尤其是正在攻读博士学位的年轻人们,拉响了警报。
其对博士生的影响,尤为紧迫。
事情的起因,是这位数学界的大人物最近获得了5.5 Pro的早期体验权限。出于好奇,他将加法数论领域几个经典的公开难题随手抛给了这个AI,想看看它能做些什么。
结果,接下来的发展完全超出了他的预期。
不到两个小时,这个AI独立完成了一项在他看来“完全有资格写入博士论文”的数学成果。而高尔斯教授在整个过程中,没有提供任何数学层面的实质性指导。他的角色更像一个项目管理者:提出需求、确认方向、要求交付成文。
嗯你这个想法不错,你展开试试?
可以啊,能不能帮我写成LaTeX预印本格式?
这一刻,高尔斯真切地感受到了那种扑面而来的冲击——当AI已经能够独立攻克这个级别的数学难题时,那些正在为博士学位苦苦奋斗的年轻数学家,他们的未来在哪里?
即便是他,也给不出清晰的答案。
唯一能做的,就是尽快为学生们寻找新的出路,在通用人工智能真正降临之前,重新锚定数学学习的核心价值,并迅速完成转向。
对学生负有责任的数学系,应该紧急为此做好准备。
不过,先不必过度焦虑。因为另一位菲尔兹奖得主——陶哲轩(Terence Tao)——对此有很多话想说。作为长期活跃在AI与数学交叉前沿的探索者,他最近甚至联合创立了AI4S组织,旨在帮助年轻学者寻找AI时代的新定位。
无独有偶,陶哲轩近期也分享了他的最新思考:数学证明的「消化」问题,或许才是AI时代人类数学家最不可替代的价值所在。
两位当代顶尖的数学家,面对同一场技术风暴,给出了不同维度的观察与警示。
相比之下,高尔斯的这次“反应”或许更具冲击力。毕竟陶哲轩已是资深的“AI玩家”,态度相对从容。而高尔斯这次则被深深触动,直接撰写了一篇详尽的长文来阐述他的忧虑与思考。
以下是基于其长文整理的核心内容。
菲尔兹奖得主的ChatGPT 5.5 Pro数学实验
实验的起点,源于加法数论专家梅尔·内桑森(Mel Nathanson)的一篇论文,其中列举了一系列关于整数集合求和性质的公开问题。这类问题方向明确、难度适中且数量众多,历来是博士生入门训练、争取首篇顶刊发表的绝佳素材。
高尔斯将其中的问题抛给了ChatGPT 5.5 Pro。问题大致是:给定一个包含k个元素的整数集合A,已知其二重求和集(即集合内所有元素两两相加得到的新集合,记为2A)的大小,那么集合A的直径(最大元素与最小元素之差)最小可能是多少?
内桑森本人已经证明了一个指数级的上界(2^k-1),但他一直怀疑这个上界可以优化。
ChatGPT 5.5 Pro思考了17分零5秒。随后,它给出了一个二次上界的构造,并且这个构造在理论上是最优的。
它的核心思路是组合使用西顿集(Sidon set,一种能使求和集规模最大化的特殊集合)和等差数列。通俗地讲,就像用两种特殊的“积木”搭建结构:西顿集确保“和”的多样性最大化;等差数列则提供了规整的框架。将两者巧妙结合,便构造出了满足条件且直径最小的集合。
内桑森原来的证明使用了归纳法,本质上也是组合“积木”,但他选用的是2的幂次这种效率较低的西顿集。这就好比用大块积木搭建小房子,难免浪费空间,导致得到的直径是指数级的。而AI直接选用了一种已知的、更高效的西顿集,其直径是二次的(即与k²同级别),效率提升了好几个数量级。
或许有人会说,这不过是把已有的数学工具重新组合了一下。确实如此。但高尔斯也承认,相当多的人类数学研究,本质也是在组合已有的知识和技巧。关键在于,内桑森本人没有想到这一步,而ChatGPT想到了。
随后,高尔斯提出了一个相关的升级问题——将二重求和集替换为限制求和集(即不允许元素自身相加),其他条件不变,AI能否再次找到最小直径?这个问题同样被顺利解决。
接着,他让AI将两个结果合并撰写成一篇学术笔记。47分钟后,一份格式标准的LaTeX预印本便呈现在他面前。
实验继续升级。高尔斯询问了更一般的k重求和集直径问题。这个问题要困难得多,因为对于一般的k,学界甚至不完全清楚哪些求和集大小是可以实现的,缺乏基本的构造框架。
麻省理工学院的学生艾萨克·拉贾戈帕尔(Isaac Rajagopal)在此领域做了开创性工作,证明了h重求和集直径的指数级依赖关系。高尔斯想看看AI能否在此基础上做出改进。没想到,AI直接上演了“两连跳”,甚至独创了“k-解离集合”构造。
整个过程的时间线如下:第一轮,AI思考16分41秒,基于解离集合的新思路,将上界从指数级改进到亚指数级。第二轮,应要求撰写预印本,耗时47分39秒。第三轮,艾萨克本人审阅后认为论证看起来正确,且逻辑严谨。第四轮,高尔斯进一步追问能否达到多项式界。第五轮,AI思考13分33秒后提出可以通过微调k-解离集合实现,但有几个技术细节需验证。第六轮,AI自行验证,9分12秒后攻克核心难点。第七轮,写成预印本,31分40秒。第八轮,艾萨克再次审阅,确认结论基本成立,并特别指出AI在思路层面贡献了新的想法。
而自始至终,高尔斯在数学层面的输入为零。他扮演的角色纯粹是“项目经理”——提出需求、确认方向、验收成果。所有的数学工作,均由ChatGPT独立完成。
AI提高了数学博士生入门门槛
如果这仅仅是一个炫酷的技术演示,或许还不至于引发深层次的忧虑。但高尔斯从中看到了两个迫近的危机。
首先是一个非常现实的问题:这类AI生成的数学成果该如何处理?如果这是人类数学家的成果,完全有资格发表。然而,当前的主流学术预印本平台arXiv已明确拒绝AI生成内容,传统期刊大概率也不会接受。那么,它们该归于何处?
高尔斯设想,或许需要建立一个专门的AI数学成果仓库,并配以适当的审核流程(例如由人类数学家确认正确性,或经形式化证明助手验证),同时避免审核本身成为过重的负担。但坦率地说,这个问题目前尚无定论。因此,他实验的成果目前只能挂在他的个人博客上,仅以一个链接的形式存在。
比成果归属更让高尔斯焦虑的,是数学人才培养体系可能被釜底抽薪。
训练博士生从事研究,最经典的路径就是给予新手一个难度适中的公开问题作为起点。内桑森论文中的那些问题,原本是完美的“新手村”任务。但现在,ChatGPT 5.5 Pro在两个小时之内就解决了它们。这直接抬高了入门门槛:过去,你只需要证明一个尚未被人证明的命题;现在,你可能需要证明一个连AI也无法证明的命题。
高尔斯并未完全陷入悲观,他指出了两个可能的缓冲地带。
其一,博士生同样可以使用AI。未来的科研门槛可能不再是硬扛“AI解不出的题”,而是在人机协作中,做出AI单独无法完成的成果。高尔斯本人近期也在大量进行此类协作研究,他认为AI确实能提供有价值的贡献,但目前尚未达到能独立产生碘伏性想法的地步。
其二,AI最容易取得突破的领域可能是组合数学。因为组合学本质上是从问题出发进行反向推理,而其他数学分支更多是从想法出发进行正向探索。后者需要判断哪些观察是有趣的、哪些方向值得深入,这种基于数学“审美”的判断对目前的AI而言可能更为困难。
但他也特别强调,以上判断仅基于当前AI的能力。大模型迭代速度极快,现在的结论可能几个月后就会过时。他甚至略带尖锐地指出:如果一个人从事数学研究的目的,仅仅是为了将自己的名字永远刻在某个定理或定义上,追求“冠名永生”,那么这种时代红利可能很快就会彻底消失,对所有人都一样。
高尔斯用一个思想实验点明了本质:假设一位数学家通过与AI长时间对话解决了一个重大问题,数学家起到了引导作用,但主要想法和全部技术性工作均由AI完成,我们会认为这是该数学家的重大成就吗?
他的答案是:不会。
那么,一个根本性问题随之而来:在AI时代,学习数学的意义究竟是什么?
高尔斯的观点是,正如优秀的程序员比普通人更擅长“氛围编程”(Vibe Coding),真正做过研究的数学家也会更擅长与AI协作。因为你对问题解决过程的理解越深刻,你驾驭AI的能力就越强。数学本身是一种高度可迁移的底层思维能力。未来,数学研究者或许不再能独享定理冠名的学术荣誉,但在此过程中沉淀的思维功底,将成为AI时代个人最坚实的底气。
陶哲轩的三层金字塔
事实上,关于AI对数学研究的冲击,陶哲轩很早就开始了观察与思考。近期,他提出了一个“金字塔”模型,将数学问题的解决拆分为三个组成部分:
证明生成:构造出一个完整的证明。
证明验证:确认证明是正确的。
证明消化:真正理解这个证明在说什么,为什么是对的,它揭示了什么更深层的结构。
前两项——生成与验证——AI正在以惊人的速度实现自动化。但第三项,即“消化”,还远未被解决。这将引发一种前所未有的“认知过载”:证明被大量、快速地生成,甚至机器都能完成验证,但却没有人真正去消化、理解它们。陶哲轩将这种现象称为“证明消化不良”。
对此,或许有人会提议:那就把第三步也自动化,训练AI用更优的数学写作风格来呈现证明,使其更易于理解。
但陶哲轩认为,盲目优化“可读性”指标,可能会让最终产物变得更糟。他用烹饪来作类比:我们咀嚼食物,是为了帮助消化。烹饪技术可以让食物更嫩,减少咀嚼的需要。但如果你决定彻底优化消化过程,将“需要咀嚼的量”降到最低,那么逻辑上的最优解就是把所有食物丢进搅拌机,通过管子直接灌进胃里。
这在技术上确实解决了消化问题,但没人想这样吃饭。吃饭的价值从来不只是营养摄入,感官体验、社交属性、咀嚼本身带来的满足感……这些“附加产物”才是人类享受饮食的关键。优化掉所有“摩擦”,你得到的不是更好的饮食,而是一根饲料管。
数学亦然。关键在于分清数学学习中哪些是“必须”经历的摩擦。有些证明中的“难度”是人为制造的,比如措辞不清、结构混乱……这些“人工难度”,用AI辅助阅读确实可以消除,就像烹饪前对食材进行预处理。但还有一种“自然难度”,它本就应该是困难的。读者需要亲自“咀嚼”它,才能获得真正的理解,并在此过程中迸发新的灵感。这就像陶哲轩曾在播客中提到的,他会故意在日程中留出空白时间,用于“不期而遇”的思考。
可能还有人会说:让AI解决一切,继续优化评判标准,把“自然难度”也纳入考量不就好了?但事实上,并非所有问题都能被简单地视为一个“优化问题”——并非无限迭代后,就一定能得到我们真正想要的结果。
人类对待食物的思路就不是这样。米其林大厨手工制作的料理,至今仍比机器加工的食品更受珍视,即使后者更安全、美观、易消化、方便且口味不差。这并非否定加工食品的用处,而是说,没有人会认真地提议用它来完全取代人类的烹饪艺术。这其中有一种“烟火气”,是必须由人类赋予的。
不要掉进搅拌机
两位菲尔兹奖得主,面对同一场技术风暴,看到了不同的景象。
高尔斯看到的是危机。那些为年轻数学家铺设的传统“入门赛道”正在被AI碾平。人才培养体系的地基在动摇,学术发表的规则在失效。新人的道路该通向何方?
对此,陶哲轩也没有给出确切的答案,但他指出了边界。AI能生成证明、验证证明,但“消化”这件事,至少在目前,仍然独属于人类。这不是因为AI绝对做不到,而是……我们不能将其交出去。这并非单纯的知识型任务,“消化”触及智能本身,关乎理解与意义。
这真是一个属于“意义”追问的时代。AI正一步步将我们逼向墙角,迫使我们一次又一次地追问:到底什么才是独属于人类的、最珍贵的东西?
在数学领域,答案或许是陶哲轩所说的那种有益的“自然难度”,是那些必须靠自己咀嚼、煎熬探索才能真正内化为一部分的知识。或许,其他领域同样如此。
搅拌机可以把一切打碎、混合、高效输送。但有些东西,永远需要人亲自去经历、去体会、去理解。
不要沦为黑客帝国里,那些被插着管子的生物电池。
参考链接:
[1]https://gowers.wordpress.com/2026/05/08/a-recent-experience-with-chatgpt-5-5-pro/
[2]https://x.com/wtgowers/status/2052830948685676605
[3]https://mathstodon.xyz/@tao/116551624228986501













