AI推理能力突破：腾讯等机构揭示如何通过题目自生成技术提升模型性能

2026-05-12阅读 0热度 0

AI模型

在数学教学中，教师常引导学生：“尝试将这两道题目的思路融合，解决一个更综合的问题。”腾讯HY、香港科技大学与香港大学的研究团队正是基于这一核心理念，开发了名为Composition-RL的创新方法。这项发表于2026年2月13日（论文编号arXiv:2602.12036v1）的研究，为大语言模型的强化学习训练提供了一条高效的新路径。

当前的AI训练模式，类似于为学生准备标准化考试。传统方法是让模型反复练习海量题目。然而，当模型能力超越题目难度时，训练效率便会骤降——如同让高中生反复解答小学数学题，正确率接近100%，这些题目便失去了训练价值。

研究团队发现了一个关键瓶颈：在训练过程中，部分题目会因“过难”导致模型始终答错，而另一部分则会因“过易”导致模型始终答对。以往研究多关注处理难题，但这项研究指出，“易题”同样是训练效率的隐形杀手。当模型在训练后期对75%的题目都能稳定答对时，真正有效的训练数据仅剩25%，造成了严重的计算资源浪费。

由此，一个高效的解决方案应运而生：既然简单题目已无挑战性，何不将多道简单题进行智能组合，生成一道全新的、难度更高的综合题？这类似于将基础的刀工与调味技巧融合，创作出一道工序复杂的创新菜肴。

一、巧妙的“题目拼接术”：把简单变复杂的艺术

团队提出的核心技术称为“顺序提示组合”（Sequential Prompt Composition, SPC），其过程如同完成一幅精密的多层拼图。

假设有两道数学题：第一题为“求解方程2x-7=3中x的值”（答案为5），第二题为“简化表达式3(5p+1-2p×4)+(4-1/3)(6p-9)”。传统训练中，模型会分别求解。而SPC方法则将它们进行逻辑融合。

组合过程遵循三步逻辑，类似于编程中的变量传递。首先，从第一题的答案中提取关键数值（例如5），将其定义为新变量（如X），并用自然语言描述：“设X为满足方程2x-7=3的x值的总和。”

接着，在第二题中选定一个特定数字（例如1），用另一个变量Y替代，将题目改写为“简化表达式3(5p+Y-2p×4)+(4-1/3)(6p-9)”。

最后，建立X与Y的逻辑关系。由于X=5，原Y=1，因此可表述为“Y比X小4”。

于是，一道全新的复合题诞生：“设X为满足方程2x-7=3的x值的总和。Y比X小4。请简化表达式3(5p+Y-2p×4)+(4-1/3)(6p-9)。”模型要正确解答，必须依次求解第一题、确定变量关系、再解决第二题，形成了一条环环相扣的推理链。

此过程可进行迭代，将三道、四道甚至更多题目进行嵌套组合，创造出层层递进的复杂问题。团队将组合的题目数量定义为“组合深度”，深度越大，对模型推理能力的挑战性越高。

二、意外的发现：简单题目竟是训练的“绊脚石”

实际训练数据的监测揭示了一个关键现象。团队追踪了训练中“全对题目”（模型每次都能答对的题目）的比例变化，发现该比例在前50步训练中从接近零迅速攀升至50%以上，并最终稳定在75%左右。

这意味着什么？假设一个包含12000道题目的训练集，随着模型学习推进，其中约9000道题对模型而言已过于简单，失去了训练意义，真正有效的题目仅剩3000道。训练效率因而被严重稀释。

更值得注意的是，团队测试了不同能力的模型，发现即使是性能更强的模型，面对组合题目时准确率也会显著下降。例如，OpenMath-Reasoning-1.5B模型在原始题目上准确率为92.3%，面对组合题则降至72.6%；JustRL-1.5B模型从94.6%降至79.2%。这有力证实了通过题目组合，能够有效将“易题”转化为具有持续训练价值的挑战。

三、跨领域的“混搭”实验：数学遇上物理

团队进一步探索了跨学科题目组合的潜力。具体而言，他们将物理题与数学题进行深度融合，创造出需要跨学科知识才能解决的复合问题。

这不同于简单的题目混合，而是真正的知识融合与迁移。传统方法好比分别提供中餐和西餐的食材；而SPC方法则是将中西烹饪技法深度融合，创造出一道全新的融合菜。

结果令人惊喜。在多项测试中，使用跨学科组合题目训练的模型，不仅在数学任务上表现更优，在物理任务上也有显著提升，甚至在法律、工程、化学等其他领域也展现出更强的推理泛化能力。

例如，在AIME24数学竞赛题上，使用物理-数学组合训练的模型比仅用数学题训练的模型准确率高出9.1%。在专业知识测评MMLU-Pro中，组合训练模型也比传统混合训练方法高出4.3%。

四、渐进式学习：从简单到复杂的阶梯式训练

团队进一步设计了一种“课程式”训练策略，类似于为学生定制的阶梯学习计划。并非一开始就让模型面对最复杂的组合题，而是从简单入手，逐步增加难度。

这个过程如同学习一门乐器：从基础音阶和练习曲开始，熟练后再挑战更复杂的协奏曲。

具体实施时，团队先让模型在原始数学题（深度1）上训练，待其表现趋于饱和后，切换至两道题组合的训练集（深度2），之后再进阶到三道题组合（深度3）。

实验数据证明了该方法的卓越效果。在AIME24测试中，采用课程式Composition-RL训练的4B参数模型达到了37.9%的准确率，甚至超越了某些使用8B参数的其他方法（如Beyond-80/20的34.6%、Alpha-RL的28.3%和RL-ZVP的24.6%）。这意味着用更小的模型、更少的数据，获得了更优的性能，堪称效率的典范。

五、深度解析：为什么这个方法如此有效

该方法成功的背后，主要有两大核心机制。

首要是“组合泛化能力”。当模型学会解决组合题目时，它实质上是在掌握如何重组和灵活运用已知技能。这好比掌握了刀工、调味、火候等基本功后，便能依据不同食材创新出各式菜肴。研究发现，在组合题上训练的模型，面对更复杂组合时表现更好，说明其真正习得了技能组合与迁移的内在能力。

其次是“隐式过程监督”。在组合题中，模型必须先正确解出前序子题，才能推进后续步骤。这类似于烹饪中的步骤依赖：必须先将洋葱炒至焦糖化，才能为后续汤汁增添风味。这种结构天然地引导模型学习正确的、多步的推理链条。团队通过追踪模型对中间变量的计算准确率发现，该指标随训练稳步提升，证实了组合题确实促进了更优的推理过程学习。

六、广泛的实验验证：从小模型到大模型的全面测试

为验证方法的普适性，团队在多种参数规模的模型上进行了系统性测试，范围从4B到30B。

结果显示，Composition-RL方法在所有规模的模型上均能带来显著提升，且模型越大，提升幅度越明显。在4B模型上整体性能提升3.3%，8B模型提升3.7%，14B模型提升4.3%，而在30B模型上达到了10.5%的显著提升。

尤为重要的是，这种提升具有跨任务泛化性。在GPQA科学问答和MMLU-Pro多任务推理等通用基准测试中，采用Composition-RL训练的模型也展现出更强的泛化能力。

团队还通过消融实验探讨了不同题目选择策略的影响。发现从更大的、多样化的题目池中选择第二题进行组合，效果显著优于从小题目池中选择。这启示我们，组合元素的多样性与差异性，是提升训练效果和模型泛化能力的关键之一。

七、实际应用价值：重新思考AI训练的资源利用

这项研究的意义超越了提出一个新方法，它更提供了一种全新的资源利用思路，以解决AI训练中高昂的数据获取与标注成本问题。

现实中，收集高质量、高难度的训练数据成本巨大。而Composition-RL提供了一种“数据增强”的高阶解决方案：通过对现有数据进行创造性组合，能生成大量新颖且更具挑战性的训练样本。

团队计算表明，基于2万道基础题，理论上可生成多达4亿道组合题（20,000×19,999）。尽管实际使用时需经过严格的逻辑与质量过滤，但其潜力足以指数级扩充有效训练素材。关键在于，这种方法创造的不是简单的数据复制，而是真正蕴含新挑战、能驱动模型学习新技能组合的问题。

八、技术细节：严谨的实验设计和质量控制

为确保组合题目的质量与逻辑一致性，团队设计了一套严格的自动化验证流程。他们利用大语言模型执行组合，但在每个关键环节都嵌入了多重质量检查机制。

这个过程如同精密制造中的质量管控。每个组合步骤完成后，系统会自动检测逻辑错误、变量冲突、语义一致性等问题。只有通过全部检查的题目才会被纳入最终训练集。经此严格过滤，最终数据集的错误率被控制在2%以下，达到了训练可接受的高质量标准。团队使用了Qwen2.5-32B-Instruct等先进模型来执行组合与验证，保证了流程的可靠性与可扩展性。

在训练配置上，团队采用了统一的超参数设置以保障实验可比性：批次大小256，学习率1×10^-6，温度参数1，每个问题采样8个回答，最大输出长度16K tokens。这些细节确保了实验结果的可复现性与严谨性。

九、未来展望：这只是开始，不是结束

团队在论文中也坦诚讨论了当前方法的局限性与未来探索方向。

首先，实验主要集中于数学推理领域，尽管跨学科实验初显成效，但在更广泛的领域（如复杂代码生成、人文社科推理）的应用效果仍需进一步验证。

其次，目前的组合模式相对简单，主要是线性串联。未来可探索更复杂的依赖结构，如树状依赖、条件分支或更灵活的交互关系。

几个颇具前景的方向包括：扩展到Polaris-53K等高难度数学数据集；将方法系统化推广至更多学科领域；探索Composition-RL与在线策略蒸馏、对抗训练等先进训练技术的结合。

十、深远影响：重新定义AI学习的边界

这项研究的影响可能远超技术本身。它提出了一个深刻命题：AI学习的瓶颈或许不在于数据量的绝对匮乏，而在于对现有数据利用效率的不足。

这类似于资源循环利用与精工制造的理念。与其不断耗费巨资开采新数据，不如更充分、更创造性地利用已有资源。Composition-RL展示了一种可能性：通过智能重组与难度提升，能从有限数据中挖掘出近乎无限的学习潜力。

从更宏大的视角看，这种方法呼应了人类高效学习的本质。卓越的学习能力并非机械记忆孤立知识点，而是能够灵活重组、迁移并创造性应用已有知识解决新问题。一位顶尖的工程师，其价值不在于记住所有图纸，而在于能依据现有条件设计出创新的解决方案。

团队已承诺将发布完整的代码、数据集及训练好的模型。他们构建的MATH-Composition-199K和Physics-MATH-Composition-141K数据集，将成为推动相关领域未来研究的重要基准。

归根结底，Composition-RL不仅是一项技术创新，更是一种思维范式的转变。它揭示，在追求更强AI的道路上，重大突破有时并非源于计算资源的简单堆砌，而是来自对训练数据更精巧、更高效的运用。这种化易为难、点石成金的智慧，或许正是推动AI持续突破现有能力边界的关键钥匙。

Q&A

Q1：Composition-RL具体是什么技术？

A：Composition-RL是一种创新的AI训练方法，其核心是通过变量绑定与逻辑串联，将多道已失去训练难度的简单题目，组合成一道全新的、更具挑战性的综合题目，用于持续高效地训练AI模型。例如，将两道独立数学题连接起来，使得解答第二题必须依赖第一题的正确结果，从而将已饱和的简单数据转化为有效的训练材料。

Q2：为什么要把简单题目组合成复杂题目？

A：因为在AI训练的中后期，随着模型能力提升，大量原有题目会变得过于简单，导致模型每次都能答对，这些“全对题目”便不再提供有效的梯度信号。研究发现，在训练后期，高达75%的题目可能陷入此状态，严重拖累训练效率与资源利用率。通过智能组合，可以使这些简单题目重新获得适宜的难度曲线，恢复其训练价值，实现数据资源的“再生”。

Q3：Composition-RL的效果如何？

A：效果显著且具有规模效应。实验表明，该方法能在不同参数规模的AI模型上带来3%至10%的性能提升，且模型越大，提升效果越明显。一个突出的效率案例是，使用该方法训练的4B参数模型，其表现在特定任务上甚至能超越某些8B参数的基线模型。这意味着，该方法有望以更少的计算与数据资源，获得更优的模型性能，提升训练的投资回报率。