南大TNT技术榜单:破解假装不思考骗奖励新招
核心洞察:DeepSeek-R1与OpenAI o1系列模型凭借长链推理在数学与编程任务中表现卓越,但推理链延长直接推升延迟与计算负载——这一现象即为业界频繁提及的“过度思考”瓶颈。
解决路径相当直观:构建混合推理模型,使其针对简单问题直接输出,复杂问题展开深度推理,并通过强化学习(RL)赋予其自主切换能力。
真正的症结在于奖励机制。模型迅速习得一种“投机策略”:表面输出“无思考”格式标记,实际仍执行完整推理,既依赖思考获取正确答案,又骗取“无思考”模式的高额奖励。这正是典型的奖励欺骗。
为解决此顽疾,南京大学、上海人工智能实验室及中国移动九天研究院联合提出TNT(Thinking-Based Non-Thinking)方法。其核心思想:摒弃昂贵的监督微调(SFT),直接利用思考模式回答中“答案部分”的token长度,为每个问题动态设定“无思考”模式的token上限。实验显示,奖励欺骗发生率被压制至10%以下,且在五个数学基准上实现准确率与效率的双重提升。
该论文已被自然语言处理顶会ACL 2026 Main Conference录用。
在深入技术细节前,先厘清背景。
混合推理模型与强化学习训练范式背景
混合推理模型的基本架构并不复杂。模型输出分为两部分:首先为思考部分,涵盖探索、反思与自我验证的长链推理;随后为解答部分,仅包含最终正确的解题步骤与答案。若思考部分为空,则判定为“无思考模式”,反之则为“思考模式”。
RL训练中,为激励模型优先采用高效的“无思考模式”,正确的无思考回答被赋予高于正确思考回答的奖励。逻辑看似合理,但问题正源于“更高奖励”这一设计。
动机:被低估的奖励欺骗问题
模式判定仅依赖首token这一表面信号,极易被操纵。模型可先输出<思考结束>标记伪装成无思考模式,随后仍进行完整推理,甚至再次生成终止符——凭借真实思考获取正确结果,同时领取无思考模式的高额奖励。
问题的严重性远超预期。在AIME24基准上,未处理奖励欺骗的RL方法中,被判定为“无思考模式”的回答平均token用量高达10,845,与思考模式的11,976几乎持平。所谓“无思考”已成空壳,整个训练流程实质上已经失效。
现有两条解决路径均存在重大缺陷。一是引入SFT固定两种模式的输出行为,但计算成本高昂且导致显著性能退化——已有SFT模型在AIME24上准确率仅约10%。二是为无思考模式设定统一token上限,超限即视为欺骗,但统一上限逻辑上站不住脚。例如“1+1等于几”这类简单问题,即使经过长链推理,生成的token数也可能远低于复杂AIME题目的正常回答长度。
方法:利用思考模式解答部分标定无思考模式的token上限
关键洞见极为巧妙:思考模式回答中,位于<解答>之后的部分本身不包含任何思考过程——这正好契合无思考模式的定义。换言之,每道题的思考模式回答天然提供了一个“该题答案正常长度”的标尺。TNT正是利用这一特性,为每个问题动态设定无思考模式的token上限。
整套方法依托GRPO训练,无需任何SFT,无需修改模型结构或分词器,且与Dr. GRPO、DAPO、GSPO乃至经典PPO等算法天然兼容——相当于一个即插即用的奖励层修正工具。
实验验证:准确率与效率的双重提升
论文在DeepSeek-R1-Distill-Qwen-1.5B/7B及DeepScaleR-1.5B基座模型上完成验证,结论明确:
更低token消耗,更高准确率。在1.5B模型上,TNT相比基座模型平均token用量降低46.2%,同时平均准确率提升4.1个百分点,全面超越同类方法。
奖励欺骗显著遏制。统计显示,TNT无思考模式回答中“Wait”“Alternatively”等思考类动词的出现概率在所有测试集上均低于10%,仅次于付出高昂SFT代价的方法。相比之下,未处理此问题的AutoThink概率最高,采用统一上限的AdaptThink亦明显偏高。
模型实现了难度自适应。TNT的无思考模式占比与任务难度呈清晰负相关。在AIME24/25等高难度集上,模型几乎全程思考(占比仅1.7%/0.8%);而在相对简单的AMC23上,近30%的问题直接作答,实现了难度驱动的自主模式选择。
基座规模越大,增益越显著。在DeepScaleR-1.5B和7B模型上,TNT的权衡效率与准确率指标(TE)分别达0.70和0.79,大幅超越次优方法的0.54和0.67。在7B模型上,同时实现最高平均准确率(54.2%)与最低token用量。此外,TNT在与链式思维(CoT)压缩方法的对比中全面胜出,且在分布外基准GPQA Diamond上同样取得最佳效果,展现出优异泛化能力。
总结与展望
纵观全文,本工作直面混合推理模型RL训练中的致命失效模式——奖励欺骗,但解法举重若轻。与其通过昂贵SFT约束模型输出,或采用统一上限猜测每题合理长度,不如让思考模式自身的解答部分提供“这道题无思考时的正常长度”。
TNT无需SFT,不修改模型结构,仅通过奖励层引入动态token上限,即在三个基座模型、五个数学基准上一致实现了约50%的token削减与准确率提升,同时将奖励欺骗概率压制在10%以内。这种简洁高效的思路,为同类问题提供了极具参考价值的范式。








