2024年AI数学突破:GPT-5.5 Pro两小时完成博士级证明,菲尔兹奖得主深度测评
一则来自数学界的消息,让整个学术圈都坐不住了。
菲尔兹奖得主蒂莫西·高尔斯(Timothy Gowers)在其个人博客上,平静地记录了一次使用ChatGPT 5.5 Pro的体验。标题看似寻常,内容却足以让任何一位数学研究者背后发凉。
他验证了一个事实:这款AI在不到两小时内,独立完成了一项博士论文级别的数学研究。而高尔斯本人,这位数学界的顶尖大脑,在整个过程中的数学贡献,几乎为零。
整个过程,只用了两个小时。
全程2小时,菲尔兹奖得主贡献为0
事情始于一次“硬核”测试。拿到ChatGPT 5.5 Pro的测试权限后,高尔斯没有选择简单的题目,而是直接从数学家梅尔文·纳坦森(Melvyn Nathanson)一篇关于加法数论的新论文中,挑出了几个未解问题。
问题的核心围绕集合的“h重求和集”可能的大小展开,并探讨要实现特定大小,集合的“直径”最小能是多少。这属于领域内公认具有挑战性的开放性问题。
纳坦森本人曾给出一个指数级的上界:2^k - 1。高尔斯将这个难题抛给了AI。仅仅17分05秒后,GPT-5.5 Pro便给出了一个构造,奇迹般地将上界从指数级压缩到了二次方级——这几乎已经是最优解了。
更令人震惊的是高尔斯所扮演的角色。他完全没有提供任何数学思路、关键引理或证明方向。用他自己的话说,他只是个“情绪价值提供者”和“排版助手”,给出的提示词简单到近乎敷衍:“这个想法不错,试试看能不能成”,或者“把这段推导写成标准的LaTeX论文格式”。
他在博客中反复强调,这些提示词“不包含任何数学输入”。AI迈出的每一步推理、每一个构造、每一处关键转折,都源于其自身的“思考”。人类顶级数学家的智力贡献,在这场合作中被无限趋近于零。
AI给出原创想法,震惊MIT博士生
如果故事止步于此,或许还能用“AI又解了一道难题”来概括。但后续发展,才真正触及了问题的核心。
高尔斯继续追问AI:对于更一般的情况(即h为任意值),结果会怎样?问题的难度陡然飙升。因为当h=2时,数学家们已经彻底搞清了所有可能性;但对于一般的h,学界甚至不知道完整的答案是什么。
此前,麻省理工学院(MIT)的博士生艾萨克·拉贾戈帕尔(Isaac Rajagopal)已经证明了一个指数级的上界。
高尔斯让GPT尝试改进这个结果。第一轮,AI思考了16分41秒,将上界从k的指数级改进到了k^(1/2+ε)的指数级,这算是对原有工作的“常规修改”。
第二轮,高尔斯提出了更高要求:能否进一步改进到多项式级?GPT思考了13分33秒后表示“有戏”,但需要验证两个技术性命题。在高尔斯让它自行验证后,AI用了9分12秒完成验证,并在随后的31分40秒内,一气呵成地写出了完整的预印本论文。
最终结果令人瞠目:N(h,k) ≤ O(k^{10h³})——从令人望而生畏的指数级,直接跃升到了多项式级。
拉贾戈帕尔本人在审阅后,给出了一个五味杂陈的评价:“ChatGPT这个想法很原创、很巧妙。如果是我自己想出来的,我会非常骄傲。”然而,他需要一两周才能完成的脑力风暴,GPT只用了不到一个小时。
他进一步分析了AI的核心创新:GPT使用了“h²-耗散集”来控制h阶以下的关系。“这个思路,据我所知,完全是原创的。”当一位MIT顶尖学府的博士生用“我会为这个想法感到骄傲”来评价AI的数学证明时,某种范式转移确实已经悄然发生了。
顶级数学家警告:危机来了
高尔斯没有停留在惊叹AI能力的层面,他将话题引向了一个更尖锐、更现实的问题:博士生怎么办?这才是其博客中最具重量级的警示。
在组合数学等领域,大量论文会提出一系列新的参数,并附带一串未解问题。这些问题通常并非遥不可及,其重要价值在于为初入科研的学生提供一个“可以攻克的目标”,让他们在解决一个“正式的开放问题”中获得至关重要的信心和成就感。
但现在,这条传统的成长路径正在被AI截断。高尔斯说得非常直白:过去,只要有人提出问题就够了。但现在,仅仅被提出是不够的,它还必须足够难,难到大型语言模型(LLM)解决不了。
趋势已经显现。据统计,2026年至今,已有15个埃尔德什(Erdős)开放问题被解决,其中11个明确标注了AI的贡献。就在几周前,一位23岁、没有高等数学学位的年轻人利亚姆·普莱斯(Liam Price),利用GPT-5.4 Pro在80分钟内解决了一个困扰数学家60年的埃尔德什问题。菲尔兹奖得主陶哲轩亲自验证了这个证明,并将其扩展为一个新理论的起点。
过去需要数年严格训练才能跨越的研究能力门槛,正在被AI以惊人的速度碾平。高尔斯直言,“若是AI在数学领域以目前这个速度发展下去,那么我们将很快面临一场危机。”
对此,OpenAI的研究员塞巴斯蒂安·布贝克(Sebastien Bubeck)也深表赞同。
当然,也需要冷静看待。有人指出,这毕竟是一次特定实验,不能过度外推。纳坦森的问题虽然是开放问题,但其难度未必代表数学前沿的绝对天花板。高尔斯自己也承认,他“没有完整答案”,只是在记录亲身经历。过去两年,类似的“AI攻克数学”叙事时有出现,仔细审视往往都有具体的条件限制。
但这一次,发出警告的是一位菲尔兹奖得主,他的判断标准本身,就无需任何额外背书。
AI数学+速度,已不可逆转
拉长时间线观察,AI在数学领域的进步曲线近乎垂直。
2024年,GPT-4还在为大多数本科数学题挣扎;2024年,o1模型已在数学竞赛中达到金牌水平;2025年,o3模型开始在前沿研究中展现深度推理能力。
而到了2026年5月,GPT-5.5 Pro已经能够独立完成博士论文级别的证明。三年时间,从本科水平跃升至博士研究水准。
高尔斯的实验揭示了一个临界点:AI不再仅仅是一个工具。至少在某些特定类型的问题上,它已经演变成一个能够独立产出原创性成果的“研究者”。那些曾经需要经年累月的苦修才能叩开的大门,如今可能只需要一个提示框和两个小时。
学术研究的门槛正在被重塑甚至消解。但门槛之后的世界,或许比我们想象的更为广阔,也更为陌生。


















