Erdős猜想新突破：Claude Mythos短证明解析与AI推理对比

2026-05-27阅读 0热度 0

Claude

【导读】OpenAI以125页的思维链论证，撼动了Erdős单位距离猜想长达80年的根基。如今，Anthropic的Mythos模型找到了一条更短、更优雅的证明路径。令人玩味的是，它在获得第一个可行解后便停止了探索——即便是面对久负盛名的开放性问题，AI似乎也显露出一种审慎的“紧张感”。

AI在数学研究领域的进展，正以超出预期的速度重塑边界。

OpenAI刚刚宣布破解一个悬置80年的数学猜想，Anthropic便紧随其后公布了独立的证明成果。同一周内，DeepMind更是批量攻克了9道同类型的Erdős难题。

近日，Anthropic研究员Levent Alpoge在社交平台发布了一系列推文，核心内容令人瞩目：

OpenAI耗费125页篇幅解决的难题，他在周末使用Mythos模型进行测试，不仅迅速获得结果，而且找到的证明路径更为简短、结构更为清晰。

断网环境下的独立验证

研究员Levent Alpoge的背景颇具分量。他于1992年出生，以4.0的满分成绩毕业于哈佛大学本科，随后在剑桥大学完成Part III课程，并于普林斯顿大学获得博士学位，师从菲尔兹奖得主Manjul Bharga va。他早在2015年便获得美国本科生数学研究最高奖Morgan Prize，曾是哈佛Junior Fellow，并解决了希尔伯特第十问题在所有数域上的推广。

2023年GPT-4发布时，他迅速被其潜力吸引，认为这是“人类有史以来创造的最具启发性的工具之一”，并因此决定重返计算机科学领域，随后加入Anthropic。

本周，在OpenAI破解Erdős难题的消息公布后，Levent进行了一项验证性实验：让自家的Mythos模型尝试同一问题。

为确保测试的独立性与严谨性，实验设置了严格条件：多个Claude Code实例在完全断网的环境下独立工作，彻底排除了参考OpenAI公开解法的可能性。

结果颇具启发性。模型不仅找到了与OpenAI类似的解决方案，更倾向于选择另一条截然不同且更为简洁的论证路径。

一个有趣的细节随之浮现：模型在获得第一个足以反驳猜想的可行解后便停止了工作。它本可以继续推进，得到一个更强的结论，但它似乎“犹豫”了。面对这道声名显赫的开放性问题，它对自己的结论表现出一种保守的审慎，选择在第一个可行解处驻足。

目睹此景，Levent会心一笑，他表示：“这种感受，每一位数学家都能共鸣。”

目前，Opus 4.7模型已完成证明全文的整理与排版工作。

一项持续80年的数学赌注

时间回到1946年。匈牙利数学家保罗·埃尔德什（Paul Erdős）提出了一个表述简单却极其深刻的问题：在平面上任意放置n个点，最多能形成多少对距离恰好为1的点？

一个直观的类比是：在桌面上摆放100枚硬币。如果两枚硬币圆心之间的距离恰好等于一个硬币的直径，则计为一对“单位距离”。那么，100枚硬币最多能构成多少对这样的组合？

埃尔德什本人给出了一个构造性上界：将点排列成经过适当缩放的方格网格，单位距离对的数量约为 n^(1 + c/log log n)。也就是说，100个点能产生的对数仅比100多出“极其微小”的量级。

随后，他提出了一个著名的“赌注”：这就是理论上限，无人能够超越。

他的自信源于一个关键瓶颈——高斯整数环Z[i]。埃尔德什的网格构造依赖于这个代数结构，而一个固定范数在Z[i]中的分解方式数量受限于除数函数，其上限约为 exp(O(log n / log log n))。这构成了那个“多出一丁点”的天然天花板。

此后80年间，数学家们始终在这一框架内探索，无人能够突破。

代数数论的重型工具

对于长期浸淫于此领域的人类数学家而言，一个根深蒂固的直觉是“答案必然存在于高斯整数Z[i]之中”。但Mythos模型没有这种思维定势，它一开始就将Z[i]替换为次数远大于2的任意数域K的整数环O_K。

这看似是一种“过度复杂化”的策略，但正是这种跨领域的“降维打击”，撬动了尘封80年的僵局。

具体而言，证明首先利用Golod-Shafarevich判则，在一个二次域上构造一座无限高的“数域塔” K₀ ⊂ K₁ ⊂ K₂ ⊂ …… 随后，对每一层K_n，取其一个四次根扩张F_n = K_n(D^{1/4})，记其次数为d_n。

这座塔的有效性基于一个核心性质：无论塔构建得多高，数域的“复杂度密度”始终有界，结构保持可控。一旦参数足够大，几何计数机制便可启动。

接下来的步骤是证明的核心。在埃尔德什所依赖的Z[i]中，单位群仅有{±1, ±i}四个元素。能够产生单位距离的“方向”极其有限，被除数函数严格限制。

但在高维数域中，情况发生根本性变化。单位群的秩随维度增长，van der Corput定理直接将此秩转化为可用方向的数量。于是，原本可怜的4个方向，变成了随维度呈爆炸式增长的巨大集合。

若技术细节略显晦涩，可以记住一个形象的比喻：

埃尔德什被困在一个仅有4个出口的房间内，而Mythos直接拆除了四面墙壁。

随后的构造便直观许多。首先，通过一个实嵌入将这些代数数投射到欧几里得平面上，得到一个点集P。然后，选取一个单位向量去平移这些点，新旧点之间的距离恰好为1。由于可用方向的数量呈指数级增长，满足条件的点对数量远远超越了埃尔德什设定的上限。两者结合，最终产生了多项式级别的增益。

更直观的解释是：

单位距离方向数量的增长是exp(Ω(d log log d))量级，而所有其他损耗仅为exp(O(d))量级。d log log d 轻松碾压了 d。

至此，埃尔德什的猜想被正式推翻。整个论证过程在解析上并不繁复，与OpenAI那条长达125页的路径相比，显得尤为简洁。

用Levent自己的话总结：

从高层视角看，这本质上是埃尔德什原始构造与一座类域塔的结合。只不过，这里执行的是字面意义上最“直接”的操作——将大小不超过半径一半的点，加到大小不超过半径一半的单位上。而其所以成功，纯粹是因为类域塔的几何计数增长速度快得惊人。

一周之内，三路突破

过去一周的时间线，信息密度极高。

5月20日，OpenAI官方宣布，其一个未公开名称的通用推理模型，自主反驳了埃尔德什单位距离猜想。同日，普林斯顿大学教授Will Sawin在arXiv上发布了手工改进版本，将指数下界从6×10⁻³⁸提升至0.014，差距高达10³⁵倍。曾与埃尔德什合作过的佐治亚理工学院数学家Tom Trotter感慨：“如果埃尔德什在世，他定会欣喜若狂。”

5月21日，DeepMind登场，其AlphaProof Nexus模型一举攻克9道埃尔德什问题，每道题的推理成本最高仅需数百美元。

5月26日，Anthropic宣布完成独立证明，其路径比OpenAI的125页论证更为简短。

三家机构的技术路线截然不同，但结果均收敛于同一结论。

从质疑到权威认可

需要指出的是，仅在七个月前，AI从事数学研究仍被广泛视为一个笑话。

2025年10月，时任OpenAI副总裁的Kevin Weil在社交平台宣称GPT-5解决了10个埃尔德什问题。负责维护erdosproblems.com网站的数学家Thomas Bloom当即指出，模型仅仅是检索到了已知解法，属于“严重误导”。Yann LeCun和Demis Hassabis也加入了批评行列。很快，Weil删除了帖子，并于四个月后离开OpenAI。

当时业界的普遍共识是：模型或许能求解习题，但距离进行真正的数学研究相去甚远。

时至今日，风向已然彻底转变。Thomas Bloom亲自签署了验证报告。菲尔兹奖得主Timothy Gowers给出了“如果提交至《数学年刊》，我会毫不犹豫推荐接受”的高度评价。数学家Sam Litt则表示，这是“首个由AI自主产出、且让我觉得其本身具有深刻数学趣味的成果”。

Litt在《自然》杂志的采访中进一步坦言：“没有人类能够像大型语言模型那样，完整吸收全部的数学文献。AI正在系统性打破学科间的知识壁垒。”

回顾三年前，GPT-4应对本科水平的数学问题尚且吃力。如今，令最杰出的数学家都感到棘手的埃尔德什问题，正在成为AI能力的“基准测试”。

最终打破80年僵局的，恰恰是一个不受传统思维束缚的模型。正因为它不知道“这道题应该怎么想”，才能毫无顾忌地从代数数论中调用“重型工具”，去攻克一个本质上的几何极值问题。

埃尔德什留下了超过1000道未解难题。这一周，这份清单的长度又缩短了一行。

Erdős猜想新突破：Claude Mythos短证明解析与AI推理对比

断网环境下的独立验证

一项持续80年的数学赌注

代数数论的重型工具

一周之内，三路突破

从质疑到权威认可

相关阅读

最新教程

最新资讯