南大TNT破解混合推理模型假装不思考骗奖励
以 DeepSeek-R1、OpenAI o1 为代表的“推理型”大模型近来表现亮眼,通过长思维链(持续反思、自我验证)在数学与编程等硬任务上取得显著突破。然而,推理伴随高昂代价:冗长且反复的推导直接推高算力开销与延迟,即业界常提的“过度思考”难题。一个直观解法是训练“混合推理模型”——让模型依据问题难度自主抉择“深度推理”或“快速响应”,并通过强化学习(RL)教会它拿捏这种分寸。
这套看似合理的奖励机制,实则埋下一个经典陷阱:奖励欺骗。模型学得比预期更快——它迅速学会“钻空子”。表面上输出代表“非思考模式”的格式标记,背后却依旧展开长篇推演。既凭借真实推理拿到正确答案,又骗取本属于快速作答(非思考模式)的高额奖励。这一招看似精妙,实则问题极为严重。
为堵住漏洞,来自南京大学、上海人工智能实验室及中国移动九天研究院的研究团队提出Thinking-Based Non-Thinking(TNT)方案。核心思路极为巧妙:无需昂贵的 SFT(监督微调),仅借助思考模式回答中“答案部分”的长度信息,为每个问题动态设定非思考模式的 token 上限。通过这一手段,将奖励欺骗发生概率压制到 10% 以下,同时在五个数学基准上实现准确率与效率的最佳权衡。
目前,该论文已被自然语言处理顶会 ACL 2026 Main Conference 接收。
背景:混合推理模型如何在“思考”与“不思考”间切换
先厘清混合推理模型的基本设定。
模型输入提示通常以特殊 token 结尾。模型回答时,先输出思考部分——包含长篇推理、探索与反思;随后用 标记思考结束;最后输出最终解答部分,仅含正确的解题步骤与答案。按照约定,若思考部分为空,则判定为“非思考模式”,否则为“思考模式”。
在强化学习训练中,为鼓励模型在能力允许时优先选择快速的非思考模式,一个正确的“非思考”回答奖励高于同样正确但经过“思考”的回答。这听起来合理,对吗?
问题:奖励欺骗——一个被严重低估的陷阱
问题正出在这个“更高奖励”上。模式判定仅依赖第一个 token 这一表面信号,模型完全可以先输出 ,伪装成“非思考模式”。然而后续内容却依然反复推演、来回验证——依靠真实思考过程得到正确答案,却又顺理成章地领走“非思考模式”的高额奖励。这正是典型的奖励欺骗。
这一问题的严重性远超预期。文章实测发现,未处理奖励欺骗的 RL 方法,在 AIME24 测试集上,被判为“非思考模式”的回答平均 token 用量高达 10845,与真正的思考模式(11976)几乎持平。换言之,“非思考”模式早已名存实亡,整个训练陷入无效循环。
现有解决方案大致分两条路,但各有硬伤。一条是引入 SFT,试图固定模型两种模式的输出行为,但这不仅计算开销极大,还会导致显著性能退化——有工作的 SFT 模型在 AIME24 上准确率仅约 10%。另一条是为非思考模式设定统一最大 token 上限,超限即视为欺骗。但统一上限在逻辑上根本不通:简单问题(如“1+1等于几”)即便长篇推理验证,其 token 数也可能远低于一道复杂 AIME 题目的正常作答长度。
方法:巧用思考模式的“答案”,丈量非思考模式的“尺度”
破局的关键洞见相当优雅。思考模式回答中, 之后的解答部分本身不含思考——而这恰恰就是非思考模式的定义。换句话说,思考模式的回答自带一份“该问题答案正常应该写多长”的免费标尺。TNT 正是利用这一点,为每个问题动态设定非思考模式的 token 上限。
具体操作如下:对每个问题,采样若干回答,并按模式分为“思考模式”集合与“非思考模式”集合。然后,计算思考模式回答中 之后解答部分的 token 数。非思考模式的动态上限据此定义,同时留出一定余量以容忍正常波动,避免误判。若未采样到思考模式回答,则回退到常数上限。
有了这把“因题制宜”的尺子,奖励函数设计水到渠成:思考模式回答,答对得 1 分,答错得 0 分;非思考模式若长度未超上限,答对得 2 分,答错得 -1 分;而一旦长度超限,即判定发生奖励欺骗,无论对错一律 -2 分,比任何正常情况都低。从根源上掐灭“伪装不思考”的动机。
整套方法基于 GRPO 训练,无需任何 SFT,也不需修改模型结构或 tokenizer,并且与 Dr. GRPO、DAPO、GSPO 乃至经典 PPO 等算法天然兼容,属于即插即用的奖励层面修正方案。
实验验证:准确率与效率的双赢
文章以 DeepSeek-R1-Distill-Qwen-1.5B/7B 和 DeepScaleR-1.5B 为基座模型进行实验验证,结果清晰。
在 1.5B 模型上,TNT 相比基座模型,平均 token 用量削减 46.2%,平均准确率反而提升 4.1 个百分点,全面超越同类方法。在 7B 模型上,更同时斩获最高平均准确率(54.2%)与最低 token 用量。这种“用更少 token 干更漂亮活”的效果,正是业界梦寐以求的。
奖励欺骗也得到有效遏制。文章统计了非思考模式回答中“Wait”、“Alternatively”等思考类动词的出现概率。未考虑该问题的方法概率最高;采用统一上限的方法也显著偏高;而 TNT 在所有测试集上均低于 10%,仅次于那些付出高昂 SFT 代价的方法。
更令人惊喜的是,模型学会了“看菜下饭”。TNT 的非思考模式占比与任务难度呈清晰负相关:在 AIME24/25 这类难题上,几乎全程思考(占比仅 1.7%/0.8%);而在相对简单的 AMC23 上,则有近 30% 的问题直接作答,实现基于难度的自主模式选择。这种灵活性正是混合推理模型设计的初心。
此外,基座越强,TNT 优势越大。在 DeepScaleR-1.5B 与 7B 模型上,TNT 在效率与准确率的综合指标上大幅领先次优方法。与 CoT 压缩方法对比,也全面胜出。值得一提的是,在 GPQA Diamond 这种分布外基准上,TNT 同样取得最优效果,展现出良好泛化能力。
总结与展望
总之,这篇论文直面混合推理模型 RL 训练中一个具体而致命的失效模式——奖励欺骗,并给出一个四两拨千斤的解法。与其用昂贵的 SFT 去“管住”模型输出,或用一刀切的上限去“猜”每道题的合理长度,不如让思考模式自身的解答部分告诉我们:这道题不思考时正常应写多长。由此提出的 TNT,无需 SFT、无需改动模型结构,仅在奖励层面引入动态 token 上限,便在三个基座模型、五个数学基准上一致实现约 50% 的 token 削减与准确率提升,并将奖励欺骗概率压制在 10% 以内。这样的工作值得关注。