清华TaH算法评测：跳过93%无效迭代，准确率反升的优化方案

2026-05-21阅读 0热度 0

序列

AI推理模型领域存在一个共识：增加计算量通常能提升答案的可靠性。从扩展思维链到深化内部推理，o1、R1等模型的演进路径，都指向了“延长模型思考时间”这一有效策略。

然而，一个核心问题被普遍忽视：模型是否需要在生成每一个词元时，都投入等量的计算资源进行“思考”？

这对参数规模有限的小模型而言，是一个关乎效率与性能的核心矛盾。小模型具备部署成本低、推理速度快的优势，但其短板同样突出——在数学、代码及复杂逻辑推理任务中，往往因少数关键词元预测错误，导致整个推理链条崩溃。现有的“循环Transformer”方案试图缓解此问题，其方法是在生成每个词元前，将最后一层的隐藏状态反馈给模型进行额外的“潜空间迭代”，以此在不增加参数的前提下，为每个词元都增加计算深度。

但这种方法真的最优吗？清华大学、无问芯穹及上海交通大学的研究团队在最新工作中发现，事实远非如此。他们的研究揭示了一个反直觉的现象：大量词元在首次前向传播时预测已然正确，后续的潜空间迭代不仅无法带来增益，反而可能将原本正确的预测“改错”。研究团队将这一现象定义为“潜空间过度思考”。

基于这一关键洞察，团队提出了 **Think-at-Hard（TaH）** 方法。这是一种面向小模型的选择性潜空间迭代框架，其核心理念是“精准投放计算资源”——仅让模型在真正难以预测的词元上“进行深度思考”。该方法已入选ICLR LIT Workshop最佳论文候选，并被ICML 2026接收。

潜空间迭代具有双重效应：既能修正错误，也可能引入新的错误。

核心贡献

本研究的贡献主要体现在三个方面：

首先，研究首次揭示并量化了循环Transformer中的“潜空间过度思考”现象，明确指出统一深度的迭代会同时产生“纠错”与“致错”两种相反效果。

其次，提出了完整的TaH框架。该框架通过一个轻量级“迭代决策器”、双路因果注意力机制以及深度感知的LoRA模块，实现了词元级别的动态计算资源分配。

最后，在9个涵盖数学、问答与代码的基准测试中，TaH均实现了稳定的性能提升。关键在于，该方法平均仅让约7%的词元进入第二轮迭代，跳过了93%不必要的额外计算。与要求所有词元“思考两遍”的基线方法相比，TaH在显著降低计算量的同时，准确率反而提升了3.8%至4.4%。

关键洞察：对简单词元进行迭代计算反而有害

已有研究指出，在语言模型的推理链条中，并非所有词元都同等重要。真正决定推理走向的，往往是那些标示转折、因果关系或呈现中间结论的关键词元。

为量化“选择性迭代”的潜力，研究者设计了一种“先知”策略：仅当模型首次预测某个词元错误时，才允许其进行额外迭代；若首次预测正确，则直接输出。实验表明，仅凭这一理想化策略，就能为下游任务带来最高7.3%的性能提升，且仅需让11%到19%的词元进行二次迭代。

这传递出一个明确信号：推理时的计算资源分配，必须细化到词元级别。复杂问题中包含简单词元，简单问题里也可能隐藏关键难点。更重要的是，对简单词元强行施加额外计算，不仅浪费算力，还会导致一部分原本正确的预测被“改错”，这正是“潜空间过度思考”的具体体现。

TaH框架：在困难处进行深度思考

TaH的设计思路直接而高效：简单词元快速通过，困难词元则投入更多计算资源进行“深思”。

具体实现上，TaH在模型中引入了一个轻量级“迭代决策器”（一个小型MLP）。每完成一轮潜空间迭代后，决策器会基于模型骨干网络的状态，预测一个“继续迭代”的概率。若该概率低于设定阈值，模型则直接输出当前词元；若高于阈值，则进入下一轮迭代。

在实际推理中，TaH平均每个词元仅执行1.07次迭代，相当于跳过了约93%词元的二次计算。相比“所有词元都思考两遍”的粗放策略，TaH成功地将宝贵算力集中到了那些更易出错、更能影响推理方向的关键位置上。

TaH框架架构与双路因果注意力机制示意图。

为使这种动态深度策略切实提升精度与效率，TaH在模型架构和训练策略上均进行了针对性设计：

1. 双路因果注意力机制： 选择性迭代会将模型处理的序列结构，从一维的词元序列，转变为“词元位置 × 迭代深度”的二维网格。TaH将传统的因果注意力扩展至这一二维平面。对于某个位置第d次迭代的查询，它可以关注前序位置中、迭代深度不超过d的所有键和值。此举既允许信息在不同迭代深度间流动，又保持了训练时序列维度的全并行计算能力。

2. 深度感知LoRA架构： 研究者观察到，模型的第一次迭代主要承担常规的下一个词元预测任务，而更深层的迭代则专注于修正当前的困难词元。因此，TaH仅在第二次及后续的迭代中启用LoRA适配器，让LoRA专门学习如何修正困难词元。再结合跨迭代的残差连接，深层迭代便被自然地训练为“在前一轮结果的基础上进行修正”，而非从头开始。

3. 两阶段训练策略： 由于迭代决策器的判断依赖于骨干网络的预测质量，而骨干网络的训练目标又受决策器决定的迭代深度影响，两者紧密耦合，端到端训练极不稳定。TaH采用了解耦的两阶段方案：第一阶段，使用静态的“先知”策略来训练骨干网络；第二阶段，冻结骨干网络，单独训练决策器以模仿“先知”的继续/停止决策。该方法显著提升了训练的稳定性与收敛速度。

在Qwen3-0.6B基座模型上，TaH展现出更快的收敛速度。

性能表现：更少迭代，更强推理

论文在Qwen3系列的0.6B、1.7B和4B三个规模的基座模型上验证了TaH。训练数据来自Open-R1中数学、问答和代码任务的均衡混合，并在GSM8K、MATH500等9个主流基准上进行了全面评估。

准确性方面： 在不增加参数预算的前提下，TaH相比标准Qwen3模型提升了3.0%到3.8%。而“TaH+”版本在仅增加不超过3%额外参数（来自决策器等模块）的情况下，将提升幅度扩大至5.3%到6.2%。与同类循环Transformer方法“Ouro”相比，TaH取得了3.8%到4.4%的优势，TaH+的优势则达到6.1%到6.8%。

计算效率方面： TaH平均每个词元仅执行1.07次迭代，完成问答的平均FLOPs和显存访问量相比标准模型仅增加4%到5%。在实际解码测试中，TaH相比“始终迭代”的基线方法，显存占用降低1.48倍，解码速度提升2.48倍，同时准确率更高。

迭代选择的语义可解释性： 一个有趣的现象是，TaH自动学习到了具有明显语义偏好的迭代行为。在验证集上，“But”和“So”是最常触发额外迭代的词元，概率分别达到34%和18%。这些词汇通常对应推理中的转折、因果和方向切换，恰恰是复杂推理中最可能决定后续路径的关键位置。

模型预测在两次迭代之间的变化情况。

消融实验

为验证TaH中各项设计的必要性，研究团队进行了系统的消融实验。

模型架构方面： 将动态深度的决策器替换为固定迭代1次或2次的策略，基准测试性能平均分别下降6.1%和16.4%，这证明了选择性迭代本身优于固定深度。将双路因果注意力替换为传统的因果注意力，性能下降5.4%到8.5%，说明了跨迭代深度信息流动的重要性。移除深度感知LoRA与跨迭代残差连接，效果下降4.9%，确认了针对不同迭代目标进行架构优化的价值。

训练策略方面： 相比TaH的两阶段训练，简单地用相同目标监督所有深度的预测会使性能下降4.3%，这表明不同迭代层应承担差异化的优化目标。在训练中用决策器或动态“先知”策略替代静态“先知”策略，会因骨干网络与决策器的耦合而导致训练不稳定甚至崩溃，从而证明了TaH两阶段训练策略的必要性。

TaH在模型架构和训练策略上的消融实验结果。

总结与展望

TaH的意义，远不止于提出一个新的循环Transformer变体或后训练方法。更重要的是，它探索了如何将“测试时计算扩展”推向更精细的词元粒度。这项研究表明，更智能的动态算力分配策略，有时甚至比单纯堆砌更多计算资源能带来更优的效果。这为未来如何在有限资源下最大化模型推理能力的研究，指明了一个新的、富有启发性的方向。

参考文献

[1] Jaech, A., Kalai, A., Lerer, A., et al. OpenAI o1 system card. arXiv preprint arXiv:2412.16720, 2024.

[2] Guo, D., Yang, D., Zhang, H., et al. DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. arXiv preprint arXiv:2501.12948, 2025.

[3] Yang, A., Li, A., Yang, B., et al. Qwen3 technical report. arXiv preprint arXiv:2505.09388, 2025.

[4] Abdin, M., Aneja, J., Awadalla, H., et al. Phi-3 technical report: A highly capable language model locally on your phone. arXiv preprint arXiv:2404.14219, 2024.

[5] Team, M., Xiao, C., Li, Y., et al. MiniCPM4: Ultra-efficient LLMs on end devices. arXiv preprint arXiv:2506.07900, 2025.

[6] Hutchins, D., Schlag, I., Wu, Y., Dyer, E., and Neyshabur, B. Block-recurrent transformers. Advances in Neural Information Processing Systems, 35:33248–33261, 2024.

[7] Saunshi, N., Dikkala, N., Li, Z., Kumar, S., and Reddi, S. J. Reasoning with latent thoughts: On the power of looped transformers. arXiv preprint arXiv:2502.17416, 2025.

[8] Zhu, R.-J., Wang, Z., Hua, K., et al. Scaling latent reasoning via looped language models. arXiv preprint arXiv:2510.25741, 2025.

[9] Wu, Y., Wang, Y., Ye, Z., Du, T., Jegelka, S., and Wang, Y. When more is less: Understanding chain-of-thought length in LLMs. arXiv preprint arXiv:2502.07266, 2025.

[10] Wang, S., Yu, L., Gao, C., et al. Beyond the 80/20 rule: High-entropy minority tokens drive effective reinforcement learning for LLM reasoning. arXiv preprint arXiv:2506.01939, 2025.

[11] Fu, T., Ge, Y., You, Y., et al. R2R: Efficiently na vigating divergent reasoning paths with small-large model token routing. arXiv preprint arXiv:2505.21600, 2025.

[12] Hu, E. J., Shen, Y., Wallis, P., et al. LoRA: Low-rank adaptation of large language models. ICLR, 2024.

[13] Hugging Face. Open R1: A fully open reproduction of DeepSeek-R1, January 2025. URL https://github.com/huggingface/open-r1.