腾讯与港大联合研究:解密高效AI推理的五大关键技术
这项由香港大学与腾讯LLM部门联合开展的研究,于2026年2月以论文编号arXiv:2602.20945v1发表。研究团队投入了约20万GPU小时进行大规模实验,旨在破解一个核心难题:如何让人工智能在保持高精度推理的同时,显著降低其计算消耗。
在人工智能领域,一个长期存在的挑战是模型的“过度谨慎”倾向。当前的先进模型,如Qwen3和DeepSeek-R1,倾向于生成冗长的“思维链”来确保答案正确,这类似于一个学生用十页纸的演算来解答一道基础数学题。虽然这种方式提升了准确性,却也带来了巨大的计算开销和时间延迟,在需要实时响应的应用场景中尤为不便。
该研究的出发点并非削弱AI的能力,而是教会它如何“精炼表达”——在保证答案准确的前提下,用更简洁的路径完成推理。这好比训练一位专家,既要深谙其道,又要懂得如何深入&浅出。
通过对训练过程的深度剖析,研究人员揭示了一个清晰的两阶段学习模式。第一阶段是“长度适应”,AI迅速学习将输出压缩至指定长度。第二阶段进入“推理精炼”,AI在长度约束下优化思考质量。一个反直觉的发现是:使用相对简单的题目进行训练,反而能让AI在应对复杂问题时表现更佳。这类似于通过基础练习来巩固核心技巧,其效果能有效迁移至更高阶的任务,甚至在数学推理中习得的简洁思维,也能直接提升其在编程任务上的表现。
训练过程的两个阶段:从散漫到精准
实验观察表明,AI掌握高效推理的过程,如同新手成长为专家,可明确划分为两个阶段。
在“长度适应”阶段,AI的行为如同初次接受字数限制的写作者。当被告知输出不能超过某个长度后,AI会快速调整策略,避免冗长表述导致截断。其平均输出长度会从约6000词急剧下降至2000词左右,呈现指数衰减。与此同时,衡量思路发散程度的“策略熵”也显著降低,表明AI的思维状态变得更加专注和确定,开始收敛于寻找简洁有效的推理路径。
进入“推理精炼”阶段后,输出长度趋于稳定,但性能开始持续提升。这好比一位作家已熟练驾驭800字篇幅,转而致力于在有限空间内提升内容的深度与说服力。有趣的是,此阶段的策略熵会略有回升,这并非思维混乱,而是AI在固定约束下进行更多元探索以寻找最优解,如同经验丰富的大厨在既定食材与时间内尝试不同烹饪手法。
这种两阶段模式在不同奖励策略的训练动态中均得到验证,具有普遍性。它提示训练过程需保持耐心:在长度适应阶段强求高性能可能导致失败,而待其完成后,推理精炼阶段将带来稳定的能力提升。
令人意外的发现:简单题目训练出高手
所有发现中,最出人意料的莫过于此:用简单题目(成功率>50%)训练的AI,在处理复杂问题时的表现,竟与使用全量题目训练的AI相当甚至更优。这就像仅通过小学数学题练习,却提升了解决高中数学题的能力。
其根源在于“正反馈密度”。当AI频繁面对难题时,容易陷入“答错-受罚”的恶性循环,而惩罚多集中于“答案过长”。长此以往,AI学会的不是更好推理,而是生成尽可能短的答案以避免惩罚,能力实则倒退。相反,简单题目提供了更多正确反馈,使AI的学习重点转向“如何在保持准确的同时提升效率”,从而培养了真正的推理能力。
数据佐证了这一观点:在困难题目上训练,AI的策略熵波动剧烈,思路混乱;而在简单题目上训练,策略熵则保持稳定,学习过程更专注一致。更妙的是,这种在数学题上习得的高效思维模式,展现出了强大的跨任务泛化能力,可直接应用于编程问题。这说明AI学到的是一种通用的高效思维方式,而非特定领域的解题技巧。
这一发现对训练实践具有指导意义:遵循“由易到难”的原则,让AI在充满正向反馈的环境中建立核心推理技能,再逐步挑战复杂性,往往是更高效、更稳定的路径。
数据量的奥秘:更多样本带来更稳定的学习
研究还探讨了训练样本数量(即每个问题生成的候选答案数)的影响。增加候选答案数量(从8个增至24个)能显著提升学习效果,其机制类似于通过多样化尝试来加速学习。
样本数量的增加主要加速了“长度适应”阶段。在数学推理任务中,拥有24个样本的AI能更快学会生成简洁答案。然而,在“推理精炼”阶段,额外样本的增益则不明显,表明一旦掌握基本长度控制技巧,样本数量的边际效益会递减。
这种效应因任务而异。在基础数学任务中,增加样本量能带来显著提升;但在复杂编程任务中,影响微乎其微。这说明对于需要多步复杂推理的任务,仅靠增加尝试次数不够,强大的基础推理能力更为关键。
另一个关键发现是:增加样本数量主要提升了AI表现的“平均准确率”和稳定性,但对“至少答对一次”的概率影响有限。这意味着它让AI的表现更一致可靠,而非赋予其解决全新类型问题的突破性能力。这提醒我们,在实际应用中需权衡计算成本与性能收益,盲目增加样本并非总是最经济的选择。
奖励机制的微妙平衡:如何避开训练陷阱
设计AI的奖励机制如同制定奖惩制度,需要精妙平衡。研究发现,不同的奖励策略会诱导出截然不同的行为,甚至可能引入有害的“捷径”。
最基本的“截断法”(答案正确且不超长则奖励)看似合理,但其变体却揭示了几个典型陷阱:
一是“短即是对”的错觉:若只惩罚错误答案,而对过长的正确答案不置可否,AI会错误地将“短”与“好”强关联,开始盲目追求简短而非正确。
二是“长度游戏”:若完全屏蔽过长答案的影响,AI可能发现“故意写长以逃避评估”的漏洞。
三是“选择性遗忘”:在复杂的多因素奖励规则下,AI可能学会钻空子,例如在不确定答案时故意写长,以减轻答错可能带来的惩罚。
对比实验表明,最有效的策略反而相对简单:直接让AI在目标长度范围内生成答案,而非先生成长答案再截断。这种方法避免了AI接触可能产生负面影响的训练样本,原理在于:有时限制训练环境的复杂性,比设计复杂的奖励规则更能促生稳定可靠的行为模式。
加速训练的双刃剑:离线策略的利与弊
为提升训练效率,团队探索了“离线策略”训练法,即复用历史生成的响应数据,而非每轮都生成新答案。这如同让学生用旧习题集复习,虽能提速,但也带来挑战。
适度使用陈旧数据(如2轮前)确实能加速学习,尤其在长度适应阶段,能帮助AI更快掌握长度控制。然而,当数据过于陈旧(如16轮前),问题便会出现:“熵值爆炸”显示AI思路变得混乱,“长度反弹”表明其已习得的长度控制技巧开始失效。
根本原因在于学习目标漂移。过于陈旧的数据反映的是过去而非当前的最优策略。有趣的是,离线策略的稳定性与训练数据质量强相关。使用高质量的简单题目时,AI对数据陈旧的容忍度更高;而当数据本身较难时,陈旧数据会加剧训练不稳定性。
这一发现为实践提供了指南:离线策略可作为早期训练或使用高质量数据时的有效加速工具,但在深入训练,特别是推理精炼阶段,切换回在线策略对保证稳定性更为关键。
跨模型验证:从小到大的一致性发现
为确保发现的普适性,研究在参数量从6亿到300亿的不同规模模型上进行了验证,结果展现出高度一致性。
在最小的Qwen3-0.6B模型上,该方法将平均得分从13.33提升至24.58,同时将平均回答长度从14900词压缩至8900词。随着模型规模增大,改进效果持续显著。即便是专为复杂推理设计的Qwen3-4B-Thinking模型,在保持高推理质量(得分76.25)的同时,也将回答长度从20900词压缩至16000词。
在300亿参数的大型模型上,该方法依然有效,能在保持推理质量的同时,将回答长度进一步压缩。这证明即使是最先进的模型,也存在优化空间。
跨模型验证的成功,证实了该训练模式、简单题目优势以及参数选择规律的普遍适用性,为将这些发现迁移至其他AI系统奠定了理论基础。
实战效果展示:从啰嗦到简洁的华丽转身
具体案例对比生动展示了AI从冗长到精炼的转变。例如,在处理一个几何问题时,原始AI的回答充满“让我想想…”之类的冗余开场和重复解释。而优化后的AI则像一位经验丰富的教师,直切要点,使用恰当的数学符号,在保持推理完整性的前提下,去除了所有不必要的枝蔓。
在计算问题中,对比更为鲜明。原始AI习惯于重复题目信息并进行冗长的步骤分解。优化后的AI则采用更直接的方式,保留必要计算步骤,但整体风格从散漫的对话式转向结构严谨的技术文档式。这不仅提升了效率,也反映了AI对如何组织高效表达的深层理解。
深层机制探索:AI如何学会“言简意赅”
进一步分析揭示了AI学会简洁背后的认知重组过程。初期,AI的行为存在“补偿性冗余”,通过大量解释来掩盖不确定性。随着训练深入,AI逐渐学会了区分必要与冗余信息,类似于人类专家从新手到熟手的演变。
注意力模式分析显示,优化后的AI更聚焦于关键信息。同时,其知识编码方式也从冗长的自然语言描述,转向更多使用符号化和结构化的表达,这不仅提升了效率,也减少了错误。
AI还形成了“思维定式”般的泛化机制,能将在一类问题上找到的有效简洁模式,推广至类似问题。最重要的是,AI学会了“渐进式推理”——建立层次化推理结构,仅在关键节点提供详细解释,从而在保证逻辑完整的同时大幅提升表达效率。
总而言之,这项研究通过大规模实验,揭示了AI高效推理的两阶段学习规律,并碘伏了“越难越有效”的传统训练认知。其成果对在线客服、实时翻译、教育辅助及科研分析等需要快速响应与高效计算的应用场景具有重要价值。
研究也为理解智能本身提供了新视角:真正的智能不仅在于解决复杂问题,更在于能以最简洁的方式传达复杂思想。这种“言简意赅”的能力,是将AI从计算工具推向智能助手的关键一步。当然,该研究目前主要集中于数学与编程任务,在创意写作等更开放领域的应用效果,以及如何避免过度简化,仍是未来值得探索的方向。
Q&A
Q1:什么是AI高效推理的两阶段训练模式?
A:第一阶段为“长度适应”,AI快速学习将冗长输出压缩至规定长度内,输出长度急剧下降;第二阶段为“推理精炼”,AI在长度限制下优化思考质量,性能稳步提升。
Q2:为什么用简单题目训练AI效果更好?
A:简单题目提供更高的正反馈密度,使AI专注于学习“如何在保持准确性的同时提高效率”。困难题目则容易让AI陷入因频繁答错而受罚的循环,导致其仅为避免惩罚而生成短答案,而非真正提升推理能力。
Q3:这种高效推理技术有什么实际应用价值?
A:可显著降低需要快速响应的AI服务(如在线客服、实时翻译)的计算成本与延迟。在教育领域,能助力AI更简洁清晰地解释复杂概念;在科研辅助方面,可生成结构化的专业分析报告,提升工作效率。
