2024年AI数学突破：GPT-5.5 Pro两小时完成博士级证明，菲尔兹奖得主深度测评

2026-05-10阅读 0热度 0

Pro

一则来自数学界的消息，让整个学术圈都坐不住了。

菲尔兹奖得主蒂莫西·高尔斯（Timothy Gowers）在其个人博客上，平静地记录了一次使用ChatGPT 5.5 Pro的体验。标题看似寻常，内容却足以让任何一位数学研究者背后发凉。

他验证了一个事实：这款AI在不到两小时内，独立完成了一项博士论文级别的数学研究。而高尔斯本人，这位数学界的顶尖大脑，在整个过程中的数学贡献，几乎为零。

整个过程，只用了两个小时。

全程2小时，菲尔兹奖得主贡献为0

事情始于一次“硬核”测试。拿到ChatGPT 5.5 Pro的测试权限后，高尔斯没有选择简单的题目，而是直接从数学家梅尔文·纳坦森（Melvyn Nathanson）一篇关于加法数论的新论文中，挑出了几个未解问题。

问题的核心围绕集合的“h重求和集”可能的大小展开，并探讨要实现特定大小，集合的“直径”最小能是多少。这属于领域内公认具有挑战性的开放性问题。

纳坦森本人曾给出一个指数级的上界：2^k - 1。高尔斯将这个难题抛给了AI。仅仅17分05秒后，GPT-5.5 Pro便给出了一个构造，奇迹般地将上界从指数级压缩到了二次方级——这几乎已经是最优解了。

更令人震惊的是高尔斯所扮演的角色。他完全没有提供任何数学思路、关键引理或证明方向。用他自己的话说，他只是个“情绪价值提供者”和“排版助手”，给出的提示词简单到近乎敷衍：“这个想法不错，试试看能不能成”，或者“把这段推导写成标准的LaTeX论文格式”。

他在博客中反复强调，这些提示词“不包含任何数学输入”。AI迈出的每一步推理、每一个构造、每一处关键转折，都源于其自身的“思考”。人类顶级数学家的智力贡献，在这场合作中被无限趋近于零。

AI给出原创想法，震惊MIT博士生

如果故事止步于此，或许还能用“AI又解了一道难题”来概括。但后续发展，才真正触及了问题的核心。

高尔斯继续追问AI：对于更一般的情况（即h为任意值），结果会怎样？问题的难度陡然飙升。因为当h=2时，数学家们已经彻底搞清了所有可能性；但对于一般的h，学界甚至不知道完整的答案是什么。

此前，麻省理工学院（MIT）的博士生艾萨克·拉贾戈帕尔（Isaac Rajagopal）已经证明了一个指数级的上界。

高尔斯让GPT尝试改进这个结果。第一轮，AI思考了16分41秒，将上界从k的指数级改进到了k^(1/2+ε)的指数级，这算是对原有工作的“常规修改”。

第二轮，高尔斯提出了更高要求：能否进一步改进到多项式级？GPT思考了13分33秒后表示“有戏”，但需要验证两个技术性命题。在高尔斯让它自行验证后，AI用了9分12秒完成验证，并在随后的31分40秒内，一气呵成地写出了完整的预印本论文。

最终结果令人瞠目：N(h,k) ≤ O(k^{10h³})——从令人望而生畏的指数级，直接跃升到了多项式级。

拉贾戈帕尔本人在审阅后，给出了一个五味杂陈的评价：“ChatGPT这个想法很原创、很巧妙。如果是我自己想出来的，我会非常骄傲。”然而，他需要一两周才能完成的脑力风暴，GPT只用了不到一个小时。

他进一步分析了AI的核心创新：GPT使用了“h²-耗散集”来控制h阶以下的关系。“这个思路，据我所知，完全是原创的。”当一位MIT顶尖学府的博士生用“我会为这个想法感到骄傲”来评价AI的数学证明时，某种范式转移确实已经悄然发生了。

顶级数学家警告：危机来了

高尔斯没有停留在惊叹AI能力的层面，他将话题引向了一个更尖锐、更现实的问题：博士生怎么办？这才是其博客中最具重量级的警示。

在组合数学等领域，大量论文会提出一系列新的参数，并附带一串未解问题。这些问题通常并非遥不可及，其重要价值在于为初入科研的学生提供一个“可以攻克的目标”，让他们在解决一个“正式的开放问题”中获得至关重要的信心和成就感。

但现在，这条传统的成长路径正在被AI截断。高尔斯说得非常直白：过去，只要有人提出问题就够了。但现在，仅仅被提出是不够的，它还必须足够难，难到大型语言模型（LLM）解决不了。

趋势已经显现。据统计，2026年至今，已有15个埃尔德什（Erdős）开放问题被解决，其中11个明确标注了AI的贡献。就在几周前，一位23岁、没有高等数学学位的年轻人利亚姆·普莱斯（Liam Price），利用GPT-5.4 Pro在80分钟内解决了一个困扰数学家60年的埃尔德什问题。菲尔兹奖得主陶哲轩亲自验证了这个证明，并将其扩展为一个新理论的起点。