AI推理能力突破:腾讯等机构揭示如何通过题目自生成技术提升模型性能

2026-05-12阅读 0热度 0
AI模型

在数学教学中,教师常引导学生:“尝试将这两道题目的思路融合,解决一个更综合的问题。”腾讯HY、香港科技大学与香港大学的研究团队正是基于这一核心理念,开发了名为Composition-RL的创新方法。这项发表于2026年2月13日(论文编号arXiv:2602.12036v1)的研究,为大语言模型的强化学习训练提供了一条高效的新路径。

腾讯等研究机构突破性进展:如何让AI模型从简单题目中

当前的AI训练模式,类似于为学生准备标准化考试。传统方法是让模型反复练习海量题目。然而,当模型能力超越题目难度时,训练效率便会骤降——如同让高中生反复解答小学数学题,正确率接近100%,这些题目便失去了训练价值。

研究团队发现了一个关键瓶颈:在训练过程中,部分题目会因“过难”导致模型始终答错,而另一部分则会因“过易”导致模型始终答对。以往研究多关注处理难题,但这项研究指出,“易题”同样是训练效率的隐形杀手。当模型在训练后期对75%的题目都能稳定答对时,真正有效的训练数据仅剩25%,造成了严重的计算资源浪费。

由此,一个高效的解决方案应运而生:既然简单题目已无挑战性,何不将多道简单题进行智能组合,生成一道全新的、难度更高的综合题?这类似于将基础的刀工与调味技巧融合,创作出一道工序复杂的创新菜肴。

一、巧妙的“题目拼接术”:把简单变复杂的艺术

团队提出的核心技术称为“顺序提示组合”(Sequential Prompt Composition, SPC),其过程如同完成一幅精密的多层拼图。

假设有两道数学题:第一题为“求解方程2x-7=3中x的值”(答案为5),第二题为“简化表达式3(5p+1-2p×4)+(4-1/3)(6p-9)”。传统训练中,模型会分别求解。而SPC方法则将它们进行逻辑融合。

组合过程遵循三步逻辑,类似于编程中的变量传递。首先,从第一题的答案中提取关键数值(例如5),将其定义为新变量(如X),并用自然语言描述:“设X为满足方程2x-7=3的x值的总和。”

接着,在第二题中选定一个特定数字(例如1),用另一个变量Y替代,将题目改写为“简化表达式3(5p+Y-2p×4)+(4-1/3)(6p-9)”。

最后,建立X与Y的逻辑关系。由于X=5,原Y=1,因此可表述为“Y比X小4”。

于是,一道全新的复合题诞生:“设X为满足方程2x-7=3的x值的总和。Y比X小4。请简化表达式3(5p+Y-2p×4)+(4-1/3)(6p-9)。”模型要正确解答,必须依次求解第一题、确定变量关系、再解决第二题,形成了一条环环相扣的推理链。

此过程可进行迭代,将三道、四道甚至更多题目进行嵌套组合,创造出层层递进的复杂问题。团队将组合的题目数量定义为“组合深度”,深度越大,对模型推理能力的挑战性越高。

二、意外的发现:简单题目竟是训练的“绊脚石”

实际训练数据的监测揭示了一个关键现象。团队追踪了训练中“全对题目”(模型每次都能答对的题目)的比例变化,发现该比例在前50步训练中从接近零迅速攀升至50%以上,并最终稳定在75%左右。

这意味着什么?假设一个包含12000道题目的训练集,随着模型学习推进,其中约9000道题对模型而言已过于简单,失去了训练意义,真正有效的题目仅剩3000道。训练效率因而被严重稀释。

更值得注意的是,团队测试了不同能力的模型,发现即使是性能更强的模型,面对组合题目时准确率也会显著下降。例如,OpenMath-Reasoning-1.5B模型在原始题目上准确率为92.3%,面对组合题则降至72.6%;JustRL-1.5B模型从94.6%降至79.2%。这有力证实了通过题目组合,能够有效将“易题”转化为具有持续训练价值的挑战。

三、跨领域的“混搭”实验:数学遇上物理

团队进一步探索了跨学科题目组合的潜力。具体而言,他们将物理题与数学题进行深度融合,创造出需要跨学科知识才能解决的复合问题。

这不同于简单的题目混合,而是真正的知识融合与迁移。传统方法好比分别提供中餐和西餐的食材;而SPC方法则是将中西烹饪技法深度融合,创造出一道全新的融合菜。

结果令人惊喜。在多项测试中,使用跨学科组合题目训练的模型,不仅在数学任务上表现更优,在物理任务上也有显著提升,甚至在法律、工程、化学等其他领域也展现出更强的推理泛化能力。

例如,在AIME24数学竞赛题上,使用物理-数学组合训练的模型比仅用数学题训练的模型准确率高出9.1%。在专业知识测评MMLU-Pro中,组合训练模型也比传统混合训练方法高出4.3%。

四、渐进式学习:从简单到复杂的阶梯式训练

团队进一步设计了一种“课程式”训练策略,类似于为学生定制的阶梯学习计划。并非一开始就让模型面对最复杂的组合题,而是从简单入手,逐步增加难度。

这个过程如同学习一门乐器:从基础音阶和练习曲开始,熟练后再挑战更复杂的协奏曲。

具体实施时,团队先让模型在原始数学题(深度1)上训练,待其表现趋于饱和后,切换至两道题组合的训练集(深度2),之后再进阶到三道题组合(深度3)。

实验数据证明了该方法的卓越效果。在AIME24测试中,采用课程式Composition-RL训练的4B参数模型达到了37.9%的准确率,甚至超越了某些使用8B参数的其他方法(如Beyond-80/20的34.6%、Alpha-RL的28.3%和RL-ZVP的24.6%)。这意味着用更小的模型、更少的数据,获得了更优的性能,堪称效率的典范。

五、深度解析:为什么这个方法如此有效

该方法成功的背后,主要有两大核心机制。

首要是“组合泛化能力”。当模型学会解决组合题目时,它实质上是在掌握如何重组和灵活运用已知技能。这好比掌握了刀工、调味、火候等基本功后,便能依据不同食材创新出各式菜肴。研究发现,在组合题上训练的模型,面对更复杂组合时表现更好,说明其真正习得了技能组合与迁移的内在能力。

其次是“隐式过程监督”。在组合题中,模型必须先正确解出前序子题,才能推进后续步骤。这类似于烹饪中的步骤依赖:必须先将洋葱炒至焦糖化,才能为后续汤汁增添风味。这种结构天然地引导模型学习正确的、多步的推理链条。团队通过追踪模型对中间变量的计算准确率发现,该指标随训练稳步提升,证实了组合题确实促进了更优的推理过程学习。

六、广泛的实验验证:从小模型到大模型的全面测试

为验证方法的普适性,团队在多种参数规模的模型上进行了系统性测试,范围从4B到30B。

结果显示,Composition-RL方法在所有规模的模型上均能带来显著提升,且模型越大,提升幅度越明显。在4B模型上整体性能提升3.3%,8B模型提升3.7%,14B模型提升4.3%,而在30B模型上达到了10.5%的显著提升。

尤为重要的是,这种提升具有跨任务泛化性。在GPQA科学问答和MMLU-Pro多任务推理等通用基准测试中,采用Composition-RL训练的模型也展现出更强的泛化能力。

团队还通过消融实验探讨了不同题目选择策略的影响。发现从更大的、多样化的题目池中选择第二题进行组合,效果显著优于从小题目池中选择。这启示我们,组合元素的多样性与差异性,是提升训练效果和模型泛化能力的关键之一。

七、实际应用价值:重新思考AI训练的资源利用

这项研究的意义超越了提出一个新方法,它更提供了一种全新的资源利用思路,以解决AI训练中高昂的数据获取与标注成本问题。

现实中,收集高质量、高难度的训练数据成本巨大。而Composition-RL提供了一种“数据增强”的高阶解决方案:通过对现有数据进行创造性组合,能生成大量新颖且更具挑战性的训练样本。

团队计算表明,基于2万道基础题,理论上可生成多达4亿道组合题(20,000×19,999)。尽管实际使用时需经过严格的逻辑与质量过滤,但其潜力足以指数级扩充有效训练素材。关键在于,这种方法创造的不是简单的数据复制,而是真正蕴含新挑战、能驱动模型学习新技能组合的问题。

八、技术细节:严谨的实验设计和质量控制

为确保组合题目的质量与逻辑一致性,团队设计了一套严格的自动化验证流程。他们利用大语言模型执行组合,但在每个关键环节都嵌入了多重质量检查机制。

这个过程如同精密制造中的质量管控。每个组合步骤完成后,系统会自动检测逻辑错误、变量冲突、语义一致性等问题。只有通过全部检查的题目才会被纳入最终训练集。经此严格过滤,最终数据集的错误率被控制在2%以下,达到了训练可接受的高质量标准。团队使用了Qwen2.5-32B-Instruct等先进模型来执行组合与验证,保证了流程的可靠性与可扩展性。

在训练配置上,团队采用了统一的超参数设置以保障实验可比性:批次大小256,学习率1×10^-6,温度参数1,每个问题采样8个回答,最大输出长度16K tokens。这些细节确保了实验结果的可复现性与严谨性。

九、未来展望:这只是开始,不是结束

团队在论文中也坦诚讨论了当前方法的局限性与未来探索方向。

首先,实验主要集中于数学推理领域,尽管跨学科实验初显成效,但在更广泛的领域(如复杂代码生成、人文社科推理)的应用效果仍需进一步验证。

其次,目前的组合模式相对简单,主要是线性串联。未来可探索更复杂的依赖结构,如树状依赖、条件分支或更灵活的交互关系。

几个颇具前景的方向包括:扩展到Polaris-53K等高难度数学数据集;将方法系统化推广至更多学科领域;探索Composition-RL与在线策略蒸馏、对抗训练等先进训练技术的结合。

十、深远影响:重新定义AI学习的边界

这项研究的影响可能远超技术本身。它提出了一个深刻命题:AI学习的瓶颈或许不在于数据量的绝对匮乏,而在于对现有数据利用效率的不足。

这类似于资源循环利用与精工制造的理念。与其不断耗费巨资开采新数据,不如更充分、更创造性地利用已有资源。Composition-RL展示了一种可能性:通过智能重组与难度提升,能从有限数据中挖掘出近乎无限的学习潜力。

从更宏大的视角看,这种方法呼应了人类高效学习的本质。卓越的学习能力并非机械记忆孤立知识点,而是能够灵活重组、迁移并创造性应用已有知识解决新问题。一位顶尖的工程师,其价值不在于记住所有图纸,而在于能依据现有条件设计出创新的解决方案。

团队已承诺将发布完整的代码、数据集及训练好的模型。他们构建的MATH-Composition-199K和Physics-MATH-Composition-141K数据集,将成为推动相关领域未来研究的重要基准。

归根结底,Composition-RL不仅是一项技术创新,更是一种思维范式的转变。它揭示,在追求更强AI的道路上,重大突破有时并非源于计算资源的简单堆砌,而是来自对训练数据更精巧、更高效的运用。这种化易为难、点石成金的智慧,或许正是推动AI持续突破现有能力边界的关键钥匙。

Q&A

Q1:Composition-RL具体是什么技术?

A:Composition-RL是一种创新的AI训练方法,其核心是通过变量绑定与逻辑串联,将多道已失去训练难度的简单题目,组合成一道全新的、更具挑战性的综合题目,用于持续高效地训练AI模型。例如,将两道独立数学题连接起来,使得解答第二题必须依赖第一题的正确结果,从而将已饱和的简单数据转化为有效的训练材料。

Q2:为什么要把简单题目组合成复杂题目?

A:因为在AI训练的中后期,随着模型能力提升,大量原有题目会变得过于简单,导致模型每次都能答对,这些“全对题目”便不再提供有效的梯度信号。研究发现,在训练后期,高达75%的题目可能陷入此状态,严重拖累训练效率与资源利用率。通过智能组合,可以使这些简单题目重新获得适宜的难度曲线,恢复其训练价值,实现数据资源的“再生”。

Q3:Composition-RL的效果如何?

A:效果显著且具有规模效应。实验表明,该方法能在不同参数规模的AI模型上带来3%至10%的性能提升,且模型越大,提升效果越明显。一个突出的效率案例是,使用该方法训练的4B参数模型,其表现在特定任务上甚至能超越某些8B参数的基线模型。这意味着,该方法有望以更少的计算与数据资源,获得更优的模型性能,提升训练的投资回报率。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策