顶尖大模型组合数学评测：奥数瓶颈深度对比

2026-06-19阅读 0热度 0

阿喀琉斯

这项研究由上海人工智能实验室联合北京大学、上海交通大学、清华大学、香港中文大学共同完成，论文以预印本形式于2026年6月9日发布，论文编号为arXiv:2606.10479。

每隔一段时间，就有新闻说某个AI在数学竞赛里又干翻了人类选手。2025年，谷歌的Gemini Deep Think和深度求索的DeepSeekMath-V2在国际数学奥林匹克（IMO）拿了金牌水平——六道题做出来五道。听到这儿，你八成会想：那最后一题到底有多邪门？

答案就是第六题，一道组合数学题，要求在2025×2025的方格纸上铺方形瓷砖，不光要给出答案，还得亲手画出来。所有被测试的AI模型，这道题全军覆没，一分没得。这个细节暴露了一个关键问题：AI在数学领域的进步并不均匀，它有一个特别薄弱的命门——组合数学，尤其是那种既要想明白道理，还要亲手造出具体方案的题目。

为了系统性地摸清这个薄弱环节，研究团队造了一个叫ComBench的测试基准，专门用来评估大语言模型在奥林匹克级别组合数学问题上的真实能力。这个基准包含100道精心挑选的竞赛级难题，来源覆盖国际数学奥林匹克、美国数学奥林匹克、各国代表队选拔赛以及IMO备选题库，时间跨度从2000年到2025年。它的评测方式比以往的数学AI基准更严格、更细致：不光看模型写的证明像不像样，还要用程序自动检验模型给出的具体构造方案到底能不能站得住脚。

一、为什么组合数学特别让AI头疼？

要想理解这事儿，得先搞明白什么是组合数学，以及为什么AI在这儿会栽跟头。

组合数学大致处理的是“怎么数”“怎么排”“怎么搭”的问题。比如，给一堆棋子涂色，让相邻的颜色不同；在棋盘上放最多的互不攻击的车；或者在一张图上找出满足某种条件的路径。这类问题的共同特点是：答案往往是一个具体的“东西”——一种颜色方案、一种摆放方式、一种策略，而不只是个数字或一段推导。

对人类数学家来说，这需要两种截然不同但相互依存的能力。第一种是“证明的能力”：你能严密地论证为什么某个值就是上限或下限，为什么某个结论必然成立。第二种是“构造的能力”：你真正造出那个满足所有条件的对象，不是描述它大概长什么样，而是一砖一瓦地搭建出来，让任何人都能验证它的正确性。

现有的AI数学评测体系大多只测第一种能力，或者干脆只看最终答案是不是对的数字。这就好比考厨师，只问“这道菜需要用什么原料、烹饪多少分钟”，而不是让他真正做一道菜出来尝一尝。ComBench的创新之处，正是在于同时考察这两种能力，并用一种客观、自动的方式验证“菜有没有真的做出来”。

二、ComBench这场考试是怎么设计的？

这100道题被分成两大类，各占一半。第一类叫“分析型题目”，主要考数学证明的质量，评分标准参照真实奥林匹克竞赛的评卷方式，按照0分、1分、6分、7分四档打分，分别对应没有进展、有一点点初步想法、几乎完整但有小瑕疵、完全正确这四种情况。

第二类叫“构造型题目”，这类题目在要求完整证明的同时，还额外要求模型给出一个具体的构造方案——也就是那个“亲手造出来的东西”。这个方案必须用规定的格式输出，然后由一个专门为这道题编写的Python程序自动检验它是否满足所有数学条件。比如，要求输出一个图的边集合，程序就会验证这些边是否真的构成了题目要求的图；要求输出一个颜色方案，程序就会逐一检查每对相邻格子的颜色是否满足约束。

这个自动验证机制是整项基准的核心创新。它解决了一个长期困扰数学AI评测的问题：AI写出来的构造描述常常读起来头头是道，但实际包含错误或遗漏，只有让程序真正跑一遍才能发现问题。

五个主要题目类别将这100道题组织起来。极值问题关注在某种约束下求最大值或最小值，这类题目往往既需要证明上界又需要给出达到上界的具体方案。存在与构造问题关注某种对象是否存在，以及如果存在如何显式地造出来。运算与策略问题涉及博弈、操作序列和不变量的维持。图论问题处理节点和边构成的网络结构。计数问题要求枚举和计算满足条件的方案数量。

三、这场考试是怎么一步步搭建起来的？

构建ComBench的过程本身就是一项精细的工程。对于每一道构造型题目，研究团队经历了三个阶段。

第一阶段是规格说明和评分标准构建。团队从原始题目出发，结合数学专家对构造意图的理解，让大语言模型起草一份专门的构造指令、一份标准化的参考方案，以及一份符合奥林匹克评分风格的评分细则。数学专家随后检查构造指令是否忠实于原题意、参考方案是否真正满足要求、评分细则是否能区分有意义的部分分进展。

第二阶段是验证程序生成和语义审计。通过了人工审查的题目，进入自动生成Python验证代码的流程。这段代码只读取模型提交的构造方案，不看任何文字解释，然后逐项检查格式是否合规、结构是否满足要求、全局数学条件是否成立。生成验证代码之后，还要用大语言模型辅助进行语义审计，检查从原始题目到最终验证程序的整个链条是否语义一致，中间有没有出现偷换概念或弱化要求的情况。

第三阶段是记录组装和可执行参考检验。通过语义审计的记录被整合成标准格式，然后用参考方案实际运行一遍验证程序，只有程序接受参考方案的记录才会最终被纳入数据集。之后还要有人工进行最终检查，确认验证程序确实在检查实质性的数学约束，而不仅仅是表面的格式。

整个流程构建了一道严密的质量防线，确保每道题的构造任务定义清晰、验证标准严格、参考方案可靠。

四、当证明分数遇上构造验证，会发生什么？

这是ComBench最具洞察力的一个设计：对于构造型题目，最终得分不是单纯的证明分数，而是经过“验证程序把关”之后的分数。

具体规则是这样的：如果模型既写出了高分证明，又通过了构造验证，那就保留原来的证明分数；但如果证明分数很高，构造却没通过验证，那么分数会被降级——原本7分的降为6分，原本6分的降为1分；如果证明分数本来就低（0分或1分），构造失败不再进一步扣分。

这个设计背后有明确的数学直觉。当一个声称几乎完整的证明无法支撑出一个可验证的具体构造时，往往意味着那个证明在关键步骤上存在隐蔽的漏洞——它可能用了“存在这样一个对象”这样的断言，却没有真正说明如何找到它。把分数降级，就是在奖励那些真正做到言行一致的证明，而不是允许模型用漂亮的文字掩盖实质性的缺口。

五、十大顶尖模型接受考验，成绩如何？

研究团队测试了十个前沿模型，包括GPT-5.5、Gemini-3.1-Pro、Kimi-K2.6、DeepSeek-V4-Pro、Qwen3.6-Max、SU-01、GLM-5.1、Qwen3.6-35B、Nemotron-Cascade-2以及Gemma-4-31B-IT。每道题对每个模型各采样四次，用0.6的温度参数，评测指标包括平均分（所有采样的平均）和Best@4（每道题四次采样中最高分的平均）。

排名最前的GPT-5.5，平均分只有65.4%，Best@4达到75.3%。换句话说，即使给它四次机会，也有将近四分之一的题无法完全解决。Gemini-3.1-Pro紧随其后，Best@4为74.0%。这两个数字清楚地表明，ComBench远未被饱和——顶尖模型距离满分还有相当大的距离。

更有意思的发现是不同模型在两种能力上的表现差异。Kimi-K2.6在分析型题目的证明分数上明显弱于GPT-5.5，但在构造型题目的Best@4上却超过了GPT-5.5，达到83.7%。这说明“写出严密证明”和“造出正确构造”这两种能力并非完全正相关——一个模型可以在一种能力上出众，在另一种上相对平庸。研究团队把这两种能力分别命名为“严格证明推理”和“构造性实现”，并认为它们是相关但本质上不同的数学能力。

DeepSeek-V4-Pro构成了第二梯队，整体平均分45.2%，Best@4为62.1%。其余六个模型的得分则大幅下滑，普遍在20%到36%的区间，Gemma-4-31B-IT垫底，平均分只有16.8%。

六、哪类题目最难，模型都在哪里犯错？

从题目类别来看，“存在与构造”类问题是最难的一类，四个代表性前沿模型在这类题上的得分都是五类中最低的。这并不令人意外——这类题目要求模型不仅要论证某种对象的存在性，还要真正把这个对象造出来，是两种能力的双重考验。

相比之下，计数题和图论题的得分相对较高，说明当解题过程可以组织成枚举、图结构重构或局部约束推理时，现有模型表现得更加可靠。极值问题和运算策略问题则介于两者之间，这两类问题往往要求选择正确的全局目标或者在一个动态过程中维持某种不变量，对整体规划能力要求较高。

研究团队还对所有低于满分的证明样本进行了系统性的错误分类。最常见的错误类型是“缺少核心机制”，占所有失分样本的41.2%。这意味着模型写出了一些局部观察和推导，但从未找到解题所需的关键思路——可能是那个关键的不变量、那个正确的极值结构，或者那个将整个论证连接起来的主干想法。

第二常见的错误是“错误的数学目标”，占20.0%。模型解决的不是题目真正要问的问题，而是一个相近但不同的命题，或者计算了一个错误的量。格式错误或无法评分的情况占11.0%，这类问题主要集中在一些特定模型上，比如SU-01因为格式和指令遵循问题损失了不少分数。其余约25%的失分样本分布在错误引理、有缺陷的归纳、未经论证的跳跃以及不完整的分类讨论等错误类型上。

这些错误模式共同指向一个核心缺陷：模型在全局规划上的薄弱。它们擅长在给定框架内进行局部推导，但在面对一道全新的难题时，往往难以从头确定正确的大方向，无法选择合适的不变量或构造目标，也无法在推理的最后关头完成证明的闭合。

七、从具体案例看两种能力如何分离

研究团队提供了几个具体案例，生动地展示了证明质量和构造能力如何在同一道题上出现分离。

以2022年国际数学奥林匹克第六题为例，这道题关于“北欧方块”的上坡路径计数。GPT-5.5在证明部分得到了6分（接近满分），因为它给出了正确的下界论证和构造思路框架——它描述了如何用“之字形删除”的方式找到满足条件的独立集，再利用生成树来构造达到下界的填数方案。证明看起来逻辑连贯。

但是，当要求它在规定格式中提交一个具体的填数方案时，它提交的构造没有通过程序验证。原因在于，它对那个“之字形删除模式”的描述停留在高层次，从未真正将其转化为可以逐格检验的具体填法。最终，6分的证明分数被降级到1分。

相反，2020年国际数学奥林匹克第四题关于缆车公司的案例则展示了两种能力同时成功的情形。Gemini-3.1-Pro不仅写出了完整的证明——把每家公司的缆车网络建模为路径分解的有向图，用组件数量推导出鸽巢原理的应用——还提交了一个具体的构造方案，用n乘n的网格对角线和列构造出两家公司各自的缆车线路，使得任意一行和任意一列恰好共享一个站点。程序验证通过，最终得分7分满分。

还有一个特别有趣的案例来自2021年美国数学奥林匹克第三题，关于L型骨&牌填充棋盘的问题。Kimi-K2.6在证明部分只拿到1分，因为不可能方向的论证在最后变得含糊，未能严密建立对所有3不整除n的情况的阻塞。但它提交的构造方案——针对n为3的倍数的情况，给出了完整的操作序列——却通过了验证。这说明，成功实现一个构造并不能弥补不完整证明的缺陷；两种能力必须同时到位，才能在构造型题目上拿到高分。

八、这场考试对AI数学研究意味着什么？

说到底，ComBench揭示的不只是某几个模型的分数高低，而是关于当前AI数学能力的一幅更立体的图景。

现有的前沿大语言模型确实已经掌握了相当水平的数学推理能力，它们能够处理许多中等难度的奥林匹克题目，在计数和图论这样有较清晰局部结构的问题上尤其不错。但当题目要求从零选择正确的全局策略、发现关键不变量、完成证明的最后一步闭合，或者把一个存在性论断转化为可以逐项检验的具体对象时，当前最强的模型仍然频繁失手。

这个发现对AI数学研究的方向有明确的指向意义。单纯提升证明流畅度或训练更多数学文本，可能不足以突破这一瓶颈。真正需要的进步，是在全局规划能力、目标识别、不变量发现，以及将抽象论证转化为具体可验证对象这几个方向上的实质性提升。

ComBench本身也有一些公开承认的局限。验证程序只能检查预先定义好格式的构造，如果模型给出了一个数学上同样正确但格式不同的方案，程序无法识别。此外，这个基准专注于组合数学，不能代表代数、几何、数论等其他数学分支的能力。基准中有14%的题目与另一个知名的IMO-Bench存在重叠，研究团队对此做了详细记录，建议在解读结果时保持谨慎。

对那些关心AI能力边界的人来说，ComBench提供了一面更精确的镜子。它告诉我们，AI数学能力的进步是真实的，但也是不均匀的；在最需要创造性离散推理的地方，今天最强的系统离真正的奥林匹克选手仍然有一段不短的距离。下次看到“AI数学竞赛夺金”的新闻时，不妨也想想那道没有解出来的第六题。

对这项研究感兴趣的读者，可以通过arXiv编号2606.10479检索完整论文，深入了解100道题目的完整设计、评分细则和所有模型的详细得分数据。

Q&A

Q1：ComBench和以往的AI数学测试有什么本质区别？

以往的测试大多只检查最终答案是否正确，或者用语言模型打分来评估证明质量。ComBench最大的不同在于，它对构造型题目额外配备了专门编写的Python验证程序，自动逐项检查模型提交的具体方案是否满足所有数学约束条件，完全不依赖人工判断或语言模型评估。这就避免了模型用听起来合理的描述掩盖实际错误的情况。

Q2：GPT-5.5在ComBench上排名第一，说明它的数学能力已经很强了吗？

GPT-5.5确实是测试的十个模型中综合表现最好的，但它的平均分只有65.4%，即使给四次机会也只能达到75.3%。这意味着有将近四分之一的奥林匹克组合数学题，即使反复尝试也无法完整解决。ComBench的这个饱和度水平说明，当前最强的模型距离真正掌握奥林匹克级别的组合数学，仍然有相当明显的差距。

Q3：为什么存在与构造类题目对AI来说比其他类别难那么多？

这类题目要求模型同时完成两件截然不同的事：一是从理论上论证某种对象的存在性，二是真正造出那个满足所有条件的具体对象。现有模型在局部推导上已经比较熟练，但在面对新题时确定正确的全局目标、选择合适的构造策略，以及将抽象论证落实为可逐项验证的具体方案，这三个环节都容易出现问题。任何一个环节出错都会导致失分，这使得存在与构造题成为对AI能力要求最高的题目类型。