Erdős猜想新突破:Claude Mythos短证明解析与AI推理对比
【导读】OpenAI以125页的思维链论证,撼动了Erdős单位距离猜想长达80年的根基。如今,Anthropic的Mythos模型找到了一条更短、更优雅的证明路径。令人玩味的是,它在获得第一个可行解后便停止了探索——即便是面对久负盛名的开放性问题,AI似乎也显露出一种审慎的“紧张感”。
AI在数学研究领域的进展,正以超出预期的速度重塑边界。
OpenAI刚刚宣布破解一个悬置80年的数学猜想,Anthropic便紧随其后公布了独立的证明成果。同一周内,DeepMind更是批量攻克了9道同类型的Erdős难题。
近日,Anthropic研究员Levent Alpoge在社交平台发布了一系列推文,核心内容令人瞩目:
OpenAI耗费125页篇幅解决的难题,他在周末使用Mythos模型进行测试,不仅迅速获得结果,而且找到的证明路径更为简短、结构更为清晰。
断网环境下的独立验证
研究员Levent Alpoge的背景颇具分量。他于1992年出生,以4.0的满分成绩毕业于哈佛大学本科,随后在剑桥大学完成Part III课程,并于普林斯顿大学获得博士学位,师从菲尔兹奖得主Manjul Bharga va。他早在2015年便获得美国本科生数学研究最高奖Morgan Prize,曾是哈佛Junior Fellow,并解决了希尔伯特第十问题在所有数域上的推广。
2023年GPT-4发布时,他迅速被其潜力吸引,认为这是“人类有史以来创造的最具启发性的工具之一”,并因此决定重返计算机科学领域,随后加入Anthropic。
本周,在OpenAI破解Erdős难题的消息公布后,Levent进行了一项验证性实验:让自家的Mythos模型尝试同一问题。
为确保测试的独立性与严谨性,实验设置了严格条件:多个Claude Code实例在完全断网的环境下独立工作,彻底排除了参考OpenAI公开解法的可能性。
结果颇具启发性。模型不仅找到了与OpenAI类似的解决方案,更倾向于选择另一条截然不同且更为简洁的论证路径。
一个有趣的细节随之浮现:模型在获得第一个足以反驳猜想的可行解后便停止了工作。它本可以继续推进,得到一个更强的结论,但它似乎“犹豫”了。面对这道声名显赫的开放性问题,它对自己的结论表现出一种保守的审慎,选择在第一个可行解处驻足。
目睹此景,Levent会心一笑,他表示:“这种感受,每一位数学家都能共鸣。”
目前,Opus 4.7模型已完成证明全文的整理与排版工作。
一项持续80年的数学赌注
时间回到1946年。匈牙利数学家保罗·埃尔德什(Paul Erdős)提出了一个表述简单却极其深刻的问题:在平面上任意放置n个点,最多能形成多少对距离恰好为1的点?
一个直观的类比是:在桌面上摆放100枚硬币。如果两枚硬币圆心之间的距离恰好等于一个硬币的直径,则计为一对“单位距离”。那么,100枚硬币最多能构成多少对这样的组合?
埃尔德什本人给出了一个构造性上界:将点排列成经过适当缩放的方格网格,单位距离对的数量约为 n^(1 + c/log log n)。也就是说,100个点能产生的对数仅比100多出“极其微小”的量级。
随后,他提出了一个著名的“赌注”:这就是理论上限,无人能够超越。
他的自信源于一个关键瓶颈——高斯整数环Z[i]。埃尔德什的网格构造依赖于这个代数结构,而一个固定范数在Z[i]中的分解方式数量受限于除数函数,其上限约为 exp(O(log n / log log n))。这构成了那个“多出一丁点”的天然天花板。
此后80年间,数学家们始终在这一框架内探索,无人能够突破。
代数数论的重型工具
对于长期浸淫于此领域的人类数学家而言,一个根深蒂固的直觉是“答案必然存在于高斯整数Z[i]之中”。但Mythos模型没有这种思维定势,它一开始就将Z[i]替换为次数远大于2的任意数域K的整数环O_K。
这看似是一种“过度复杂化”的策略,但正是这种跨领域的“降维打击”,撬动了尘封80年的僵局。
具体而言,证明首先利用Golod-Shafarevich判则,在一个二次域上构造一座无限高的“数域塔” K₀ ⊂ K₁ ⊂ K₂ ⊂ …… 随后,对每一层K_n,取其一个四次根扩张F_n = K_n(D^{1/4}),记其次数为d_n。
这座塔的有效性基于一个核心性质:无论塔构建得多高,数域的“复杂度密度”始终有界,结构保持可控。一旦参数足够大,几何计数机制便可启动。
接下来的步骤是证明的核心。在埃尔德什所依赖的Z[i]中,单位群仅有{±1, ±i}四个元素。能够产生单位距离的“方向”极其有限,被除数函数严格限制。
但在高维数域中,情况发生根本性变化。单位群的秩随维度增长,van der Corput定理直接将此秩转化为可用方向的数量。于是,原本可怜的4个方向,变成了随维度呈爆炸式增长的巨大集合。
若技术细节略显晦涩,可以记住一个形象的比喻:
埃尔德什被困在一个仅有4个出口的房间内,而Mythos直接拆除了四面墙壁。
随后的构造便直观许多。首先,通过一个实嵌入将这些代数数投射到欧几里得平面上,得到一个点集P。然后,选取一个单位向量去平移这些点,新旧点之间的距离恰好为1。由于可用方向的数量呈指数级增长,满足条件的点对数量远远超越了埃尔德什设定的上限。两者结合,最终产生了多项式级别的增益。
更直观的解释是:
单位距离方向数量的增长是exp(Ω(d log log d))量级,而所有其他损耗仅为exp(O(d))量级。d log log d 轻松碾压了 d。
至此,埃尔德什的猜想被正式推翻。整个论证过程在解析上并不繁复,与OpenAI那条长达125页的路径相比,显得尤为简洁。
用Levent自己的话总结:
从高层视角看,这本质上是埃尔德什原始构造与一座类域塔的结合。只不过,这里执行的是字面意义上最“直接”的操作——将大小不超过半径一半的点,加到大小不超过半径一半的单位上。而其所以成功,纯粹是因为类域塔的几何计数增长速度快得惊人。
一周之内,三路突破
过去一周的时间线,信息密度极高。
5月20日,OpenAI官方宣布,其一个未公开名称的通用推理模型,自主反驳了埃尔德什单位距离猜想。同日,普林斯顿大学教授Will Sawin在arXiv上发布了手工改进版本,将指数下界从6×10⁻³⁸提升至0.014,差距高达10³⁵倍。曾与埃尔德什合作过的佐治亚理工学院数学家Tom Trotter感慨:“如果埃尔德什在世,他定会欣喜若狂。”
5月21日,DeepMind登场,其AlphaProof Nexus模型一举攻克9道埃尔德什问题,每道题的推理成本最高仅需数百美元。
5月26日,Anthropic宣布完成独立证明,其路径比OpenAI的125页论证更为简短。
三家机构的技术路线截然不同,但结果均收敛于同一结论。
从质疑到权威认可
需要指出的是,仅在七个月前,AI从事数学研究仍被广泛视为一个笑话。
2025年10月,时任OpenAI副总裁的Kevin Weil在社交平台宣称GPT-5解决了10个埃尔德什问题。负责维护erdosproblems.com网站的数学家Thomas Bloom当即指出,模型仅仅是检索到了已知解法,属于“严重误导”。Yann LeCun和Demis Hassabis也加入了批评行列。很快,Weil删除了帖子,并于四个月后离开OpenAI。
当时业界的普遍共识是:模型或许能求解习题,但距离进行真正的数学研究相去甚远。
时至今日,风向已然彻底转变。Thomas Bloom亲自签署了验证报告。菲尔兹奖得主Timothy Gowers给出了“如果提交至《数学年刊》,我会毫不犹豫推荐接受”的高度评价。数学家Sam Litt则表示,这是“首个由AI自主产出、且让我觉得其本身具有深刻数学趣味的成果”。
Litt在《自然》杂志的采访中进一步坦言:“没有人类能够像大型语言模型那样,完整吸收全部的数学文献。AI正在系统性打破学科间的知识壁垒。”
回顾三年前,GPT-4应对本科水平的数学问题尚且吃力。如今,令最杰出的数学家都感到棘手的埃尔德什问题,正在成为AI能力的“基准测试”。
最终打破80年僵局的,恰恰是一个不受传统思维束缚的模型。正因为它不知道“这道题应该怎么想”,才能毫无顾忌地从代数数论中调用“重型工具”,去攻克一个本质上的几何极值问题。
埃尔德什留下了超过1000道未解难题。这一周,这份清单的长度又缩短了一行。















