清华TaH模型：跳过93%无效迭代，准确率反升的深度解析

2026-05-21阅读 0热度 0

大模型

在o1、R1等“推理模型”的推动下，“增加模型思考时间”已成为处理复杂任务的主流策略。无论是扩展思维链、增加测试时计算量，还是引入更深层的内部推理循环，其本质都是通过投入更多计算资源来换取答案的可靠性。

但一个核心问题常被忽略：模型是否真的需要在生成每一个词元（token）时，都进行额外的“思考”？

这对于参数受限的小型模型至关重要。小模型成本低、速度快、适合边缘部署，但在数学、代码等复杂推理任务中，往往因少数关键token预测失误而全盘皆输。现有的“循环Transformer”方案试图让模型在生成每个token前，将隐藏状态送回进行“潜空间迭代”，以此在不增加参数的前提下提升计算深度。

然而，清华大学、无问芯穹及上海交通大学的研究团队发现，这一过程存在效率瓶颈。他们的研究表明，许多token在首次前向传播时已预测正确，后续的潜空间迭代反而可能“矫枉过正”，将原本正确的答案改错。研究团队将这一现象定义为“潜空间过度思考”。

基于此洞察，他们提出了Think-at-Hard（TaH）方法。这是一种面向小模型的选择性潜空间迭代框架，其核心是让模型学会“仅在真正困难的token上投入额外算力”。通过轻量级后训练，可将标准模型转化为仅在关键位置进行循环计算的优化版本。该工作已入选ICLR LIT Workshop最佳论文候选，并被ICML 2026接收。

简言之，潜空间迭代是一把双刃剑：它能修正错误，也可能引入错误。

核心发现：对简单token进行迭代反而损害性能

已有研究指出，语言模型推理过程中，并非所有token都同等重要。决定推理路径走向的，往往是那些处于逻辑转折、因果连接或代表中间结论的关键位置。

为量化“选择性迭代”的潜力，团队设计了一个“先知策略”：仅当模型首次预测错误时，才允许其进行潜空间迭代；若首次预测正确，则直接输出。实验表明，仅凭这一理想化策略，模型在下游任务上的性能最高可提升7.3%，且仅需对11%到19%的token进行二次迭代。若采用为选择性迭代优化的TaH架构，性能提升甚至可超过25%。

这清晰地证明，推理计算资源的分配应细化至token级别。难题中包含简单token，简单题中也可能出现关键token。更重要的是，对简单token强行进行额外计算不仅是资源浪费，更会导致一部分原本正确的预测在二次迭代中被改错，这正是“潜空间过度思考”的体现。

TaH：在困难处驻足深思

TaH的思路直接而高效：让简单token快速输出，仅让困难token进入下一轮迭代思考。

具体实现上，TaH在模型中引入了一个轻量级“迭代决策器”。每完成一轮潜空间迭代后，该决策器会基于骨干网络的状态，预测一个“继续迭代”的概率。若概率低于阈值，模型直接输出当前token；若高于阈值，则进入下一轮迭代。

在实际推理中，TaH平均每个token仅执行约1.07次迭代，相当于跳过了约93%的token的二次迭代计算。相比“所有token都想两遍”的均匀策略，TaH成功将宝贵算力集中到了更易出错、且更能影响全局推理方向的关键位置上。

为使这种动态深度策略切实提升精度与效率，TaH在模型架构和训练策略上均进行了针对性设计。

Duo-Causal Attention架构

选择性迭代将模型处理的序列结构，从一维的token序列转变为“token位置 × 迭代深度”的二维网格。TaH将大模型序列维度的因果注意力机制，扩展至token维度和迭代深度的二维平面。如图所示，对于第i个token的第d次迭代，其查询可关注所有前序位置中、迭代深度不超过d的键和值。这既允许了跨迭代深度的信息流动，又保留了训练时序列维度计算的全并行性。

Depth-Aware LoRA架构

研究团队观察到，模型的首次迭代主要负责常规的下一个token预测，而更深层的迭代则专注于修正当前的困难token。因此，TaH仅在深度大于1的迭代中启用LoRA适配器，让LoRA专注于学习困难token的修正方向。配合跨迭代的残差连接，深层迭代被自然地学习为“在前一轮预测基础上进行修正”，而非从头开始预测。

两阶段训练策略

这里存在一个耦合难题：决策器的判断依赖于骨干网络的预测质量，而骨干网络的训练目标又依赖于决策器决定的迭代深度，导致端到端训练极不稳定。TaH采用解耦的两阶段方案：首先，使用静态的“先知策略”训练骨干模型；随后，冻结骨干模型，单独训练决策器以模仿“先知”的继续或停止决策。该方法显著提升了训练的稳定性和收敛速度。

结果：更少迭代，更强推理

论文在Qwen3的0.6B、1.7B和4B三个规模的骨干模型上验证了TaH。训练数据来自Open-R1中数学、问答和代码任务的均衡混合，并在GSM8K、MATH500、AMC23、AIME25、OlympiadBench、GPQA-Diamond、MMLU-STEM、HumanEval++和MBPP++共9个基准上进行了全面评测。所有对比方法均使用完全相同的训练数据，在相同的预训练骨干模型上进行后训练。

准确性显著提升。 在0.6B和1.7B的严格参数限制下，TaH相比标准Qwen3模型提升了3.0%到3.8%。TaH+在增加不超过3%额外参数（来自决策器等组件）的情况下，将提升幅度进一步扩大至5.3%到6.2%。与同类的循环Transformer方法Ouro相比，TaH取得了3.8%到4.4%的优势，而TaH+的优势达到了6.1%到6.8%。

计算效率更高。 TaH平均每个token仅执行1.07次迭代，完成问答的平均FLOPs和显存访问量相比标准模型仅增加4%到5%。在真实解码测试中，TaH相比“始终迭代”策略，显存占用降低了1.48倍，解码速度快了2.48倍，同时准确率更高。

迭代选择具有可解释的语义偏好。 一个有趣的现象是，TaH自动学习到了带有明显语义偏好的迭代行为。在验证集上，“But”和“So”是最常触发额外迭代的token，概率分别达到34%和18%。这些词大多对应着转折、因果和推理方向的切换，正是复杂推理中最可能决定后续路径的关键位置。

消融实验

为验证TaH中每项设计的必要性，研究团队进行了系统的消融实验。

模型架构方面。 将动态迭代深度的决策器替换为固定深度策略（Always-1或Always-2），基准测试性能平均分别下降6.1%和16.4%，这证明了选择性迭代本身优于统一深度。将duo-causal注意力机制替换为不同形式的传统因果注意力，测试性能下降5.4%到8.5%，证实了跨迭代深度信息流动的重要性。移除depth-aware LoRA与跨迭代残差连接，效果下降4.9%，确认了在辅助不同迭代进行优化目标转变时，专用架构的关键作用。

训练策略方面。 相比TaH的两阶段训练，简单地监督所有深度的预测会使基准测试性能下降4.3%，说明不同迭代层应承担不同的优化目标。将训练时的迭代策略从静态“先知”换成基于决策器的或动态的“先知”策略，会因骨干网络与决策器的耦合而导致训练不稳定甚至崩溃，这证明了TaH两阶段训练的必要性。

总结与展望

TaH的意义不仅在于提出了一种新的循环Transformer变体与后训练方法，更在于它探索了如何将“测试时缩放”推向更细粒度的token级别。TaH表明，更智能的动态算力分配，甚至可以比单纯使用更高算力的均匀计算模型带来更好的效果。这为后续在有限资源下最大化模型推理能力的研究，提供了新的思路与启发。

参考文献

[1] Jaech, A., Kalai, A., Lerer, A., et al. OpenAI o1 system card. arXiv preprint arXiv:2412.16720, 2024.

[2] Guo, D., Yang, D., Zhang, H., et al. DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. arXiv preprint arXiv:2501.12948, 2025.

[3] Yang, A., Li, A., Yang, B., et al. Qwen3 technical report. arXiv preprint arXiv:2505.09388, 2025.

[4] Abdin, M., Aneja, J., Awadalla, H., et al. Phi-3 technical report: A highly capable language model locally on your phone. arXiv preprint arXiv:2404.14219, 2024.

[5] Team, M., Xiao, C., Li, Y., et al. MiniCPM4: Ultra-efficient LLMs on end devices. arXiv preprint arXiv:2506.07900, 2025.

[6] Hutchins, D., Schlag, I., Wu, Y., Dyer, E., and Neyshabur, B. Block-recurrent transformers. Advances in Neural Information Processing Systems, 35:33248–33261, 2022.

[7] Saunshi, N., Dikkala, N., Li, Z., Kumar, S., and Reddi, S. J. Reasoning with latent thoughts: On the power of looped transformers. arXiv preprint arXiv:2502.17416, 2025.

[8] Zhu, R.-J., Wang, Z., Hua, K., et al. Scaling latent reasoning via looped language models. arXiv preprint arXiv:2510.25741, 2025.

[9] Wu, Y., Wang, Y., Ye, Z., Du, T., Jegelka, S., and Wang, Y. When more is less: Understanding chain-of-thought length in LLMs. arXiv preprint arXiv:2502.07266, 2025.

[10] Wang, S., Yu, L., Gao, C., et al. Beyond the 80/20 rule: High-entropy minority tokens drive effective reinforcement learning for LLM reasoning. arXiv preprint arXiv:2506.01939, 2025.

[11] Fu, T., Ge, Y., You, Y., et al. R2R: Efficiently na vigating divergent reasoning paths with small-large model token routing. arXiv preprint arXiv:2505.21600, 2025.

[12] Hu, E. J., Shen, Y., Wallis, P., et al. LoRA: Low-rank adaptation of large language models. ICLR, 2022.

[13] Hugging Face. Open R1: A fully open reproduction of DeepSeek-R1, January 2025. URL https://github.com/huggingface/open-r1.