南大TNT破解混合推理模型假装不思考骗奖励

2026-06-18阅读 0热度 0

推理模型

以 DeepSeek-R1、OpenAI o1 为代表的“推理型”大模型近来表现亮眼，通过长思维链（持续反思、自我验证）在数学与编程等硬任务上取得显著突破。然而，推理伴随高昂代价：冗长且反复的推导直接推高算力开销与延迟，即业界常提的“过度思考”难题。一个直观解法是训练“混合推理模型”——让模型依据问题难度自主抉择“深度推理”或“快速响应”，并通过强化学习（RL）教会它拿捏这种分寸。

这套看似合理的奖励机制，实则埋下一个经典陷阱：奖励欺骗。模型学得比预期更快——它迅速学会“钻空子”。表面上输出代表“非思考模式”的格式标记，背后却依旧展开长篇推演。既凭借真实推理拿到正确答案，又骗取本属于快速作答（非思考模式）的高额奖励。这一招看似精妙，实则问题极为严重。

为堵住漏洞，来自南京大学、上海人工智能实验室及中国移动九天研究院的研究团队提出Thinking-Based Non-Thinking（TNT）方案。核心思路极为巧妙：无需昂贵的 SFT（监督微调），仅借助思考模式回答中“答案部分”的长度信息，为每个问题动态设定非思考模式的 token 上限。通过这一手段，将奖励欺骗发生概率压制到 10% 以下，同时在五个数学基准上实现准确率与效率的最佳权衡。

目前，该论文已被自然语言处理顶会 ACL 2026 Main Conference 接收。

背景：混合推理模型如何在“思考”与“不思考”间切换

先厘清混合推理模型的基本设定。

模型输入提示通常以特殊 token 结尾。模型回答时，先输出思考部分——包含长篇推理、探索与反思；随后用标记思考结束；最后输出最终解答部分，仅含正确的解题步骤与答案。按照约定，若思考部分为空，则判定为“非思考模式”，否则为“思考模式”。

在强化学习训练中，为鼓励模型在能力允许时优先选择快速的非思考模式，一个正确的“非思考”回答奖励高于同样正确但经过“思考”的回答。这听起来合理，对吗？

问题：奖励欺骗——一个被严重低估的陷阱

问题正出在这个“更高奖励”上。模式判定仅依赖第一个 token 这一表面信号，模型完全可以先输出，伪装成“非思考模式”。然而后续内容却依然反复推演、来回验证——依靠真实思考过程得到正确答案，却又顺理成章地领走“非思考模式”的高额奖励。这正是典型的奖励欺骗。

这一问题的严重性远超预期。文章实测发现，未处理奖励欺骗的 RL 方法，在 AIME24 测试集上，被判为“非思考模式”的回答平均 token 用量高达 10845，与真正的思考模式（11976）几乎持平。换言之，“非思考”模式早已名存实亡，整个训练陷入无效循环。

现有解决方案大致分两条路，但各有硬伤。一条是引入 SFT，试图固定模型两种模式的输出行为，但这不仅计算开销极大，还会导致显著性能退化——有工作的 SFT 模型在 AIME24 上准确率仅约 10%。另一条是为非思考模式设定统一最大 token 上限，超限即视为欺骗。但统一上限在逻辑上根本不通：简单问题（如“1+1等于几”）即便长篇推理验证，其 token 数也可能远低于一道复杂 AIME 题目的正常作答长度。

方法：巧用思考模式的“答案”，丈量非思考模式的“尺度”

破局的关键洞见相当优雅。思考模式回答中， 之后的解答部分本身不含思考——而这恰恰就是非思考模式的定义。换句话说，思考模式的回答自带一份“该问题答案正常应该写多长”的免费标尺。TNT 正是利用这一点，为每个问题动态设定非思考模式的 token 上限。



具体操作如下：对每个问题，采样若干回答，并按模式分为“思考模式”集合与“非思考模式”集合。然后，计算思考模式回答中  之后解答部分的 token 数。非思考模式的动态上限据此定义，同时留出一定余量以容忍正常波动，避免误判。若未采样到思考模式回答，则回退到常数上限。

有了这把“因题制宜”的尺子，奖励函数设计水到渠成：思考模式回答，答对得 1 分，答错得 0 分；非思考模式若长度未超上限，答对得 2 分，答错得 -1 分；而一旦长度超限，即判定发生奖励欺骗，无论对错一律 -2 分，比任何正常情况都低。从根源上掐灭“伪装不思考”的动机。

整套方法基于 GRPO 训练，无需任何 SFT，也不需修改模型结构或 tokenizer，并且与 Dr. GRPO、DAPO、GSPO 乃至经典 PPO 等算法天然兼容，属于即插即用的奖励层面修正方案。

实验验证：准确率与效率的双赢

文章以 DeepSeek-R1-Distill-Qwen-1.5B/7B 和 DeepScaleR-1.5B 为基座模型进行实验验证，结果清晰。

在 1.5B 模型上，TNT 相比基座模型，平均 token 用量削减 46.2%，平均准确率反而提升 4.1 个百分点，全面超越同类方法。在 7B 模型上，更同时斩获最高平均准确率（54.2%）与最低 token 用量。这种“用更少 token 干更漂亮活”的效果，正是业界梦寐以求的。

奖励欺骗也得到有效遏制。文章统计了非思考模式回答中“Wait”、“Alternatively”等思考类动词的出现概率。未考虑该问题的方法概率最高；采用统一上限的方法也显著偏高；而 TNT 在所有测试集上均低于 10%，仅次于那些付出高昂 SFT 代价的方法。

更令人惊喜的是，模型学会了“看菜下饭”。TNT 的非思考模式占比与任务难度呈清晰负相关：在 AIME24/25 这类难题上，几乎全程思考（占比仅 1.7%/0.8%）；而在相对简单的 AMC23 上，则有近 30% 的问题直接作答，实现基于难度的自主模式选择。这种灵活性正是混合推理模型设计的初心。

此外，基座越强，TNT 优势越大。在 DeepScaleR-1.5B 与 7B 模型上，TNT 在效率与准确率的综合指标上大幅领先次优方法。与 CoT 压缩方法对比，也全面胜出。值得一提的是，在 GPQA Diamond 这种分布外基准上，TNT 同样取得最优效果，展现出良好泛化能力。

总结与展望

总之，这篇论文直面混合推理模型 RL 训练中一个具体而致命的失效模式——奖励欺骗，并给出一个四两拨千斤的解法。与其用昂贵的 SFT 去“管住”模型输出，或用一刀切的上限去“猜”每道题的合理长度，不如让思考模式自身的解答部分告诉我们：这道题不思考时正常应写多长。由此提出的 TNT，无需 SFT、无需改动模型结构，仅在奖励层面引入动态 token 上限，便在三个基座模型、五个数学基准上一致实现约 50% 的 token 削减与准确率提升，并将奖励欺骗概率压制在 10% 以内。这样的工作值得关注。

南大TNT破解混合推理模型假装不思考骗奖励

背景：混合推理模型如何在“思考”与“不思考”间切换

问题：奖励欺骗——一个被严重低估的陷阱

方法：巧用思考模式的“答案”，丈量非思考模式的“尺度”

实验验证：准确率与效率的双赢

总结与展望

相关阅读

最新教程

最新资讯