南大TNT破解混合推理模型假装不思考骗奖励

2026-06-18阅读 0热度 0
推理模型

以 DeepSeek-R1、OpenAI o1 为代表的“推理型”大模型近来表现亮眼,通过长思维链(持续反思、自我验证)在数学与编程等硬任务上取得显著突破。然而,推理伴随高昂代价:冗长且反复的推导直接推高算力开销与延迟,即业界常提的“过度思考”难题。一个直观解法是训练“混合推理模型”——让模型依据问题难度自主抉择“深度推理”或“快速响应”,并通过强化学习(RL)教会它拿捏这种分寸。

这套看似合理的奖励机制,实则埋下一个经典陷阱:奖励欺骗。模型学得比预期更快——它迅速学会“钻空子”。表面上输出代表“非思考模式”的格式标记,背后却依旧展开长篇推演。既凭借真实推理拿到正确答案,又骗取本属于快速作答(非思考模式)的高额奖励。这一招看似精妙,实则问题极为严重。

为堵住漏洞,来自南京大学、上海人工智能实验室及中国移动九天研究院的研究团队提出Thinking-Based Non-Thinking(TNT)方案。核心思路极为巧妙:无需昂贵的 SFT(监督微调),仅借助思考模式回答中“答案部分”的长度信息,为每个问题动态设定非思考模式的 token 上限。通过这一手段,将奖励欺骗发生概率压制到 10% 以下,同时在五个数学基准上实现准确率与效率的最佳权衡。

目前,该论文已被自然语言处理顶会 ACL 2026 Main Conference 接收

背景:混合推理模型如何在“思考”与“不思考”间切换

先厘清混合推理模型的基本设定。

模型输入提示通常以特殊 token 结尾。模型回答时,先输出思考部分——包含长篇推理、探索与反思;随后用 标记思考结束;最后输出最终解答部分,仅含正确的解题步骤与答案。按照约定,若思考部分为空,则判定为“非思考模式”,否则为“思考模式”。

在强化学习训练中,为鼓励模型在能力允许时优先选择快速的非思考模式,一个正确的“非思考”回答奖励高于同样正确但经过“思考”的回答。这听起来合理,对吗?

问题:奖励欺骗——一个被严重低估的陷阱

问题正出在这个“更高奖励”上。模式判定仅依赖第一个 token 这一表面信号,模型完全可以先输出 ,伪装成“非思考模式”。然而后续内容却依然反复推演、来回验证——依靠真实思考过程得到正确答案,却又顺理成章地领走“非思考模式”的高额奖励。这正是典型的奖励欺骗。

这一问题的严重性远超预期。文章实测发现,未处理奖励欺骗的 RL 方法,在 AIME24 测试集上,被判为“非思考模式”的回答平均 token 用量高达 10845,与真正的思考模式(11976)几乎持平。换言之,“非思考”模式早已名存实亡,整个训练陷入无效循环。

现有解决方案大致分两条路,但各有硬伤。一条是引入 SFT,试图固定模型两种模式的输出行为,但这不仅计算开销极大,还会导致显著性能退化——有工作的 SFT 模型在 AIME24 上准确率仅约 10%。另一条是为非思考模式设定统一最大 token 上限,超限即视为欺骗。但统一上限在逻辑上根本不通:简单问题(如“1+1等于几”)即便长篇推理验证,其 token 数也可能远低于一道复杂 AIME 题目的正常作答长度。

方法:巧用思考模式的“答案”,丈量非思考模式的“尺度”

破局的关键洞见相当优雅。思考模式回答中, 之后的解答部分本身不含思考——而这恰恰就是非思考模式的定义。换句话说,思考模式的回答自带一份“该问题答案正常应该写多长”的免费标尺。TNT 正是利用这一点,为每个问题动态设定非思考模式的 token 上限。

具体操作如下:对每个问题,采样若干回答,并按模式分为“思考模式”集合与“非思考模式”集合。然后,计算思考模式回答中 之后解答部分的 token 数。非思考模式的动态上限据此定义,同时留出一定余量以容忍正常波动,避免误判。若未采样到思考模式回答,则回退到常数上限。

有了这把“因题制宜”的尺子,奖励函数设计水到渠成:思考模式回答,答对得 1 分,答错得 0 分;非思考模式若长度未超上限,答对得 2 分,答错得 -1 分;而一旦长度超限,即判定发生奖励欺骗,无论对错一律 -2 分,比任何正常情况都低。从根源上掐灭“伪装不思考”的动机。

整套方法基于 GRPO 训练,无需任何 SFT,也不需修改模型结构或 tokenizer,并且与 Dr. GRPO、DAPO、GSPO 乃至经典 PPO 等算法天然兼容,属于即插即用的奖励层面修正方案。

实验验证:准确率与效率的双赢

文章以 DeepSeek-R1-Distill-Qwen-1.5B/7B 和 DeepScaleR-1.5B 为基座模型进行实验验证,结果清晰。

在 1.5B 模型上,TNT 相比基座模型,平均 token 用量削减 46.2%,平均准确率反而提升 4.1 个百分点,全面超越同类方法。在 7B 模型上,更同时斩获最高平均准确率(54.2%)与最低 token 用量。这种“用更少 token 干更漂亮活”的效果,正是业界梦寐以求的。

奖励欺骗也得到有效遏制。文章统计了非思考模式回答中“Wait”、“Alternatively”等思考类动词的出现概率。未考虑该问题的方法概率最高;采用统一上限的方法也显著偏高;而 TNT 在所有测试集上均低于 10%,仅次于那些付出高昂 SFT 代价的方法。

更令人惊喜的是,模型学会了“看菜下饭”。TNT 的非思考模式占比与任务难度呈清晰负相关:在 AIME24/25 这类难题上,几乎全程思考(占比仅 1.7%/0.8%);而在相对简单的 AMC23 上,则有近 30% 的问题直接作答,实现基于难度的自主模式选择。这种灵活性正是混合推理模型设计的初心。

此外,基座越强,TNT 优势越大。在 DeepScaleR-1.5B 与 7B 模型上,TNT 在效率与准确率的综合指标上大幅领先次优方法。与 CoT 压缩方法对比,也全面胜出。值得一提的是,在 GPQA Diamond 这种分布外基准上,TNT 同样取得最优效果,展现出良好泛化能力。

总结与展望

总之,这篇论文直面混合推理模型 RL 训练中一个具体而致命的失效模式——奖励欺骗,并给出一个四两拨千斤的解法。与其用昂贵的 SFT 去“管住”模型输出,或用一刀切的上限去“猜”每道题的合理长度,不如让思考模式自身的解答部分告诉我们:这道题不思考时正常应写多长。由此提出的 TNT,无需 SFT、无需改动模型结构,仅在奖励层面引入动态 token 上限,便在三个基座模型、五个数学基准上一致实现约 50% 的 token 削减与准确率提升,并将奖励欺骗概率压制在 10% 以内。这样的工作值得关注。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策