菲尔兹奖得主实测：ChatGPT 5.5 Pro 17分钟产出数学论文级成果深度测评

2026-05-12阅读 0热度 0

Pro

如果人工智能的数学能力继续以当前的速度进化，数学研究者们可能很快就要面对一场深刻的职业危机。

这不是危言耸听。最近，菲尔兹奖得主、剑桥大学的蒂莫西·高尔斯（Timothy Gowers）在亲身体验了ChatGPT 5.5 Pro之后，为整个数学界，尤其是正在攻读博士学位的年轻人们，拉响了警报。

其对博士生的影响，尤为紧迫。

事情的起因，是这位数学界的大人物最近获得了5.5 Pro的早期体验权限。出于好奇，他将加法数论领域几个经典的公开难题随手抛给了这个AI，想看看它能做些什么。

结果，接下来的发展完全超出了他的预期。

不到两个小时，这个AI独立完成了一项在他看来“完全有资格写入博士论文”的数学成果。而高尔斯教授在整个过程中，没有提供任何数学层面的实质性指导。他的角色更像一个项目管理者：提出需求、确认方向、要求交付成文。

嗯你这个想法不错，你展开试试？

可以啊，能不能帮我写成LaTeX预印本格式？

这一刻，高尔斯真切地感受到了那种扑面而来的冲击——当AI已经能够独立攻克这个级别的数学难题时，那些正在为博士学位苦苦奋斗的年轻数学家，他们的未来在哪里？

即便是他，也给不出清晰的答案。

唯一能做的，就是尽快为学生们寻找新的出路，在通用人工智能真正降临之前，重新锚定数学学习的核心价值，并迅速完成转向。

对学生负有责任的数学系，应该紧急为此做好准备。

不过，先不必过度焦虑。因为另一位菲尔兹奖得主——陶哲轩（Terence Tao）——对此有很多话想说。作为长期活跃在AI与数学交叉前沿的探索者，他最近甚至联合创立了AI4S组织，旨在帮助年轻学者寻找AI时代的新定位。

无独有偶，陶哲轩近期也分享了他的最新思考：数学证明的「消化」问题，或许才是AI时代人类数学家最不可替代的价值所在。

两位当代顶尖的数学家，面对同一场技术风暴，给出了不同维度的观察与警示。

相比之下，高尔斯的这次“反应”或许更具冲击力。毕竟陶哲轩已是资深的“AI玩家”，态度相对从容。而高尔斯这次则被深深触动，直接撰写了一篇详尽的长文来阐述他的忧虑与思考。

以下是基于其长文整理的核心内容。

菲尔兹奖得主的ChatGPT 5.5 Pro数学实验

实验的起点，源于加法数论专家梅尔·内桑森（Mel Nathanson）的一篇论文，其中列举了一系列关于整数集合求和性质的公开问题。这类问题方向明确、难度适中且数量众多，历来是博士生入门训练、争取首篇顶刊发表的绝佳素材。

高尔斯将其中的问题抛给了ChatGPT 5.5 Pro。问题大致是：给定一个包含k个元素的整数集合A，已知其二重求和集（即集合内所有元素两两相加得到的新集合，记为2A）的大小，那么集合A的直径（最大元素与最小元素之差）最小可能是多少？

内桑森本人已经证明了一个指数级的上界（2^k-1），但他一直怀疑这个上界可以优化。

ChatGPT 5.5 Pro思考了17分零5秒。随后，它给出了一个二次上界的构造，并且这个构造在理论上是最优的。

它的核心思路是组合使用西顿集（Sidon set，一种能使求和集规模最大化的特殊集合）和等差数列。通俗地讲，就像用两种特殊的“积木”搭建结构：西顿集确保“和”的多样性最大化；等差数列则提供了规整的框架。将两者巧妙结合，便构造出了满足条件且直径最小的集合。

内桑森原来的证明使用了归纳法，本质上也是组合“积木”，但他选用的是2的幂次这种效率较低的西顿集。这就好比用大块积木搭建小房子，难免浪费空间，导致得到的直径是指数级的。而AI直接选用了一种已知的、更高效的西顿集，其直径是二次的（即与k²同级别），效率提升了好几个数量级。

或许有人会说，这不过是把已有的数学工具重新组合了一下。确实如此。但高尔斯也承认，相当多的人类数学研究，本质也是在组合已有的知识和技巧。关键在于，内桑森本人没有想到这一步，而ChatGPT想到了。

随后，高尔斯提出了一个相关的升级问题——将二重求和集替换为限制求和集（即不允许元素自身相加），其他条件不变，AI能否再次找到最小直径？这个问题同样被顺利解决。

接着，他让AI将两个结果合并撰写成一篇学术笔记。47分钟后，一份格式标准的LaTeX预印本便呈现在他面前。

实验继续升级。高尔斯询问了更一般的k重求和集直径问题。这个问题要困难得多，因为对于一般的k，学界甚至不完全清楚哪些求和集大小是可以实现的，缺乏基本的构造框架。

麻省理工学院的学生艾萨克·拉贾戈帕尔（Isaac Rajagopal）在此领域做了开创性工作，证明了h重求和集直径的指数级依赖关系。高尔斯想看看AI能否在此基础上做出改进。没想到，AI直接上演了“两连跳”，甚至独创了“k-解离集合”构造。

整个过程的时间线如下：第一轮，AI思考16分41秒，基于解离集合的新思路，将上界从指数级改进到亚指数级。第二轮，应要求撰写预印本，耗时47分39秒。第三轮，艾萨克本人审阅后认为论证看起来正确，且逻辑严谨。第四轮，高尔斯进一步追问能否达到多项式界。第五轮，AI思考13分33秒后提出可以通过微调k-解离集合实现，但有几个技术细节需验证。第六轮，AI自行验证，9分12秒后攻克核心难点。第七轮，写成预印本，31分40秒。第八轮，艾萨克再次审阅，确认结论基本成立，并特别指出AI在思路层面贡献了新的想法。

而自始至终，高尔斯在数学层面的输入为零。他扮演的角色纯粹是“项目经理”——提出需求、确认方向、验收成果。所有的数学工作，均由ChatGPT独立完成。

AI提高了数学博士生入门门槛

如果这仅仅是一个炫酷的技术演示，或许还不至于引发深层次的忧虑。但高尔斯从中看到了两个迫近的危机。

首先是一个非常现实的问题：这类AI生成的数学成果该如何处理？如果这是人类数学家的成果，完全有资格发表。然而，当前的主流学术预印本平台arXiv已明确拒绝AI生成内容，传统期刊大概率也不会接受。那么，它们该归于何处？

高尔斯设想，或许需要建立一个专门的AI数学成果仓库，并配以适当的审核流程（例如由人类数学家确认正确性，或经形式化证明助手验证），同时避免审核本身成为过重的负担。但坦率地说，这个问题目前尚无定论。因此，他实验的成果目前只能挂在他的个人博客上，仅以一个链接的形式存在。

比成果归属更让高尔斯焦虑的，是数学人才培养体系可能被釜底抽薪。

训练博士生从事研究，最经典的路径就是给予新手一个难度适中的公开问题作为起点。内桑森论文中的那些问题，原本是完美的“新手村”任务。但现在，ChatGPT 5.5 Pro在两个小时之内就解决了它们。这直接抬高了入门门槛：过去，你只需要证明一个尚未被人证明的命题；现在，你可能需要证明一个连AI也无法证明的命题。

高尔斯并未完全陷入悲观，他指出了两个可能的缓冲地带。

其一，博士生同样可以使用AI。未来的科研门槛可能不再是硬扛“AI解不出的题”，而是在人机协作中，做出AI单独无法完成的成果。高尔斯本人近期也在大量进行此类协作研究，他认为AI确实能提供有价值的贡献，但目前尚未达到能独立产生碘伏性想法的地步。

其二，AI最容易取得突破的领域可能是组合数学。因为组合学本质上是从问题出发进行反向推理，而其他数学分支更多是从想法出发进行正向探索。后者需要判断哪些观察是有趣的、哪些方向值得深入，这种基于数学“审美”的判断对目前的AI而言可能更为困难。

但他也特别强调，以上判断仅基于当前AI的能力。大模型迭代速度极快，现在的结论可能几个月后就会过时。他甚至略带尖锐地指出：如果一个人从事数学研究的目的，仅仅是为了将自己的名字永远刻在某个定理或定义上，追求“冠名永生”，那么这种时代红利可能很快就会彻底消失，对所有人都一样。

高尔斯用一个思想实验点明了本质：假设一位数学家通过与AI长时间对话解决了一个重大问题，数学家起到了引导作用，但主要想法和全部技术性工作均由AI完成，我们会认为这是该数学家的重大成就吗？

他的答案是：不会。

那么，一个根本性问题随之而来：在AI时代，学习数学的意义究竟是什么？

高尔斯的观点是，正如优秀的程序员比普通人更擅长“氛围编程”（Vibe Coding），真正做过研究的数学家也会更擅长与AI协作。因为你对问题解决过程的理解越深刻，你驾驭AI的能力就越强。数学本身是一种高度可迁移的底层思维能力。未来，数学研究者或许不再能独享定理冠名的学术荣誉，但在此过程中沉淀的思维功底，将成为AI时代个人最坚实的底气。

陶哲轩的三层金字塔

事实上，关于AI对数学研究的冲击，陶哲轩很早就开始了观察与思考。近期，他提出了一个“金字塔”模型，将数学问题的解决拆分为三个组成部分：

证明生成：构造出一个完整的证明。
证明验证：确认证明是正确的。
证明消化：真正理解这个证明在说什么，为什么是对的，它揭示了什么更深层的结构。

前两项——生成与验证——AI正在以惊人的速度实现自动化。但第三项，即“消化”，还远未被解决。这将引发一种前所未有的“认知过载”：证明被大量、快速地生成，甚至机器都能完成验证，但却没有人真正去消化、理解它们。陶哲轩将这种现象称为“证明消化不良”。

对此，或许有人会提议：那就把第三步也自动化，训练AI用更优的数学写作风格来呈现证明，使其更易于理解。

但陶哲轩认为，盲目优化“可读性”指标，可能会让最终产物变得更糟。他用烹饪来作类比：我们咀嚼食物，是为了帮助消化。烹饪技术可以让食物更嫩，减少咀嚼的需要。但如果你决定彻底优化消化过程，将“需要咀嚼的量”降到最低，那么逻辑上的最优解就是把所有食物丢进搅拌机，通过管子直接灌进胃里。

这在技术上确实解决了消化问题，但没人想这样吃饭。吃饭的价值从来不只是营养摄入，感官体验、社交属性、咀嚼本身带来的满足感……这些“附加产物”才是人类享受饮食的关键。优化掉所有“摩擦”，你得到的不是更好的饮食，而是一根饲料管。

数学亦然。关键在于分清数学学习中哪些是“必须”经历的摩擦。有些证明中的“难度”是人为制造的，比如措辞不清、结构混乱……这些“人工难度”，用AI辅助阅读确实可以消除，就像烹饪前对食材进行预处理。但还有一种“自然难度”，它本就应该是困难的。读者需要亲自“咀嚼”它，才能获得真正的理解，并在此过程中迸发新的灵感。这就像陶哲轩曾在播客中提到的，他会故意在日程中留出空白时间，用于“不期而遇”的思考。

可能还有人会说：让AI解决一切，继续优化评判标准，把“自然难度”也纳入考量不就好了？但事实上，并非所有问题都能被简单地视为一个“优化问题”——并非无限迭代后，就一定能得到我们真正想要的结果。

人类对待食物的思路就不是这样。米其林大厨手工制作的料理，至今仍比机器加工的食品更受珍视，即使后者更安全、美观、易消化、方便且口味不差。这并非否定加工食品的用处，而是说，没有人会认真地提议用它来完全取代人类的烹饪艺术。这其中有一种“烟火气”，是必须由人类赋予的。

不要掉进搅拌机

两位菲尔兹奖得主，面对同一场技术风暴，看到了不同的景象。

高尔斯看到的是危机。那些为年轻数学家铺设的传统“入门赛道”正在被AI碾平。人才培养体系的地基在动摇，学术发表的规则在失效。新人的道路该通向何方？

对此，陶哲轩也没有给出确切的答案，但他指出了边界。AI能生成证明、验证证明，但“消化”这件事，至少在目前，仍然独属于人类。这不是因为AI绝对做不到，而是……我们不能将其交出去。这并非单纯的知识型任务，“消化”触及智能本身，关乎理解与意义。

这真是一个属于“意义”追问的时代。AI正一步步将我们逼向墙角，迫使我们一次又一次地追问：到底什么才是独属于人类的、最珍贵的东西？

在数学领域，答案或许是陶哲轩所说的那种有益的“自然难度”，是那些必须靠自己咀嚼、煎熬探索才能真正内化为一部分的知识。或许，其他领域同样如此。

搅拌机可以把一切打碎、混合、高效输送。但有些东西，永远需要人亲自去经历、去体会、去理解。

不要沦为黑客帝国里，那些被插着管子的生物电池。

参考链接：

[1]https://gowers.wordpress.com/2026/05/08/a-recent-experience-with-chatgpt-5-5-pro/

[2]https://x.com/wtgowers/status/2052830948685676605

[3]https://mathstodon.xyz/@tao/116551624228986501

菲尔兹奖得主实测：ChatGPT 5.5 Pro 17分钟产出数学论文级成果深度测评

菲尔兹奖得主的ChatGPT 5.5 Pro数学实验

AI提高了数学博士生入门门槛

陶哲轩的三层金字塔

不要掉进搅拌机

相关阅读

最新教程

最新资讯