清华TaH算法评测:跳过93%无效迭代,准确率反升的优化方案
AI推理模型领域存在一个共识:增加计算量通常能提升答案的可靠性。从扩展思维链到深化内部推理,o1、R1等模型的演进路径,都指向了“延长模型思考时间”这一有效策略。
然而,一个核心问题被普遍忽视:模型是否需要在生成每一个词元时,都投入等量的计算资源进行“思考”?
这对参数规模有限的小模型而言,是一个关乎效率与性能的核心矛盾。小模型具备部署成本低、推理速度快的优势,但其短板同样突出——在数学、代码及复杂逻辑推理任务中,往往因少数关键词元预测错误,导致整个推理链条崩溃。现有的“循环Transformer”方案试图缓解此问题,其方法是在生成每个词元前,将最后一层的隐藏状态反馈给模型进行额外的“潜空间迭代”,以此在不增加参数的前提下,为每个词元都增加计算深度。
但这种方法真的最优吗?清华大学、无问芯穹及上海交通大学的研究团队在最新工作中发现,事实远非如此。他们的研究揭示了一个反直觉的现象:大量词元在首次前向传播时预测已然正确,后续的潜空间迭代不仅无法带来增益,反而可能将原本正确的预测“改错”。研究团队将这一现象定义为“潜空间过度思考”。
基于这一关键洞察,团队提出了 **Think-at-Hard(TaH)** 方法。这是一种面向小模型的选择性潜空间迭代框架,其核心理念是“精准投放计算资源”——仅让模型在真正难以预测的词元上“进行深度思考”。该方法已入选ICLR LIT Workshop最佳论文候选,并被ICML 2026接收。
潜空间迭代具有双重效应:既能修正错误,也可能引入新的错误。
核心贡献
本研究的贡献主要体现在三个方面:
首先,研究首次揭示并量化了循环Transformer中的“潜空间过度思考”现象,明确指出统一深度的迭代会同时产生“纠错”与“致错”两种相反效果。
其次,提出了完整的TaH框架。该框架通过一个轻量级“迭代决策器”、双路因果注意力机制以及深度感知的LoRA模块,实现了词元级别的动态计算资源分配。
最后,在9个涵盖数学、问答与代码的基准测试中,TaH均实现了稳定的性能提升。关键在于,该方法平均仅让约7%的词元进入第二轮迭代,跳过了93%不必要的额外计算。与要求所有词元“思考两遍”的基线方法相比,TaH在显著降低计算量的同时,准确率反而提升了3.8%至4.4%。
关键洞察:对简单词元进行迭代计算反而有害
已有研究指出,在语言模型的推理链条中,并非所有词元都同等重要。真正决定推理走向的,往往是那些标示转折、因果关系或呈现中间结论的关键词元。
为量化“选择性迭代”的潜力,研究者设计了一种“先知”策略:仅当模型首次预测某个词元错误时,才允许其进行额外迭代;若首次预测正确,则直接输出。实验表明,仅凭这一理想化策略,就能为下游任务带来最高7.3%的性能提升,且仅需让11%到19%的词元进行二次迭代。
这传递出一个明确信号:推理时的计算资源分配,必须细化到词元级别。复杂问题中包含简单词元,简单问题里也可能隐藏关键难点。更重要的是,对简单词元强行施加额外计算,不仅浪费算力,还会导致一部分原本正确的预测被“改错”,这正是“潜空间过度思考”的具体体现。
TaH框架:在困难处进行深度思考
TaH的设计思路直接而高效:简单词元快速通过,困难词元则投入更多计算资源进行“深思”。
具体实现上,TaH在模型中引入了一个轻量级“迭代决策器”(一个小型MLP)。每完成一轮潜空间迭代后,决策器会基于模型骨干网络的状态,预测一个“继续迭代”的概率。若该概率低于设定阈值,模型则直接输出当前词元;若高于阈值,则进入下一轮迭代。
在实际推理中,TaH平均每个词元仅执行1.07次迭代,相当于跳过了约93%词元的二次计算。相比“所有词元都思考两遍”的粗放策略,TaH成功地将宝贵算力集中到了那些更易出错、更能影响推理方向的关键位置上。
TaH框架架构与双路因果注意力机制示意图。
为使这种动态深度策略切实提升精度与效率,TaH在模型架构和训练策略上均进行了针对性设计:
1. 双路因果注意力机制: 选择性迭代会将模型处理的序列结构,从一维的词元序列,转变为“词元位置 × 迭代深度”的二维网格。TaH将传统的因果注意力扩展至这一二维平面。对于某个位置第d次迭代的查询,它可以关注前序位置中、迭代深度不超过d的所有键和值。此举既允许信息在不同迭代深度间流动,又保持了训练时序列维度的全并行计算能力。
2. 深度感知LoRA架构: 研究者观察到,模型的第一次迭代主要承担常规的下一个词元预测任务,而更深层的迭代则专注于修正当前的困难词元。因此,TaH仅在第二次及后续的迭代中启用LoRA适配器,让LoRA专门学习如何修正困难词元。再结合跨迭代的残差连接,深层迭代便被自然地训练为“在前一轮结果的基础上进行修正”,而非从头开始。
3. 两阶段训练策略: 由于迭代决策器的判断依赖于骨干网络的预测质量,而骨干网络的训练目标又受决策器决定的迭代深度影响,两者紧密耦合,端到端训练极不稳定。TaH采用了解耦的两阶段方案:第一阶段,使用静态的“先知”策略来训练骨干网络;第二阶段,冻结骨干网络,单独训练决策器以模仿“先知”的继续/停止决策。该方法显著提升了训练的稳定性与收敛速度。
在Qwen3-0.6B基座模型上,TaH展现出更快的收敛速度。
性能表现:更少迭代,更强推理
论文在Qwen3系列的0.6B、1.7B和4B三个规模的基座模型上验证了TaH。训练数据来自Open-R1中数学、问答和代码任务的均衡混合,并在GSM8K、MATH500等9个主流基准上进行了全面评估。
准确性方面: 在不增加参数预算的前提下,TaH相比标准Qwen3模型提升了3.0%到3.8%。而“TaH+”版本在仅增加不超过3%额外参数(来自决策器等模块)的情况下,将提升幅度扩大至5.3%到6.2%。与同类循环Transformer方法“Ouro”相比,TaH取得了3.8%到4.4%的优势,TaH+的优势则达到6.1%到6.8%。
计算效率方面: TaH平均每个词元仅执行1.07次迭代,完成问答的平均FLOPs和显存访问量相比标准模型仅增加4%到5%。在实际解码测试中,TaH相比“始终迭代”的基线方法,显存占用降低1.48倍,解码速度提升2.48倍,同时准确率更高。
迭代选择的语义可解释性: 一个有趣的现象是,TaH自动学习到了具有明显语义偏好的迭代行为。在验证集上,“But”和“So”是最常触发额外迭代的词元,概率分别达到34%和18%。这些词汇通常对应推理中的转折、因果和方向切换,恰恰是复杂推理中最可能决定后续路径的关键位置。
模型预测在两次迭代之间的变化情况。
消融实验
为验证TaH中各项设计的必要性,研究团队进行了系统的消融实验。
模型架构方面: 将动态深度的决策器替换为固定迭代1次或2次的策略,基准测试性能平均分别下降6.1%和16.4%,这证明了选择性迭代本身优于固定深度。将双路因果注意力替换为传统的因果注意力,性能下降5.4%到8.5%,说明了跨迭代深度信息流动的重要性。移除深度感知LoRA与跨迭代残差连接,效果下降4.9%,确认了针对不同迭代目标进行架构优化的价值。
训练策略方面: 相比TaH的两阶段训练,简单地用相同目标监督所有深度的预测会使性能下降4.3%,这表明不同迭代层应承担差异化的优化目标。在训练中用决策器或动态“先知”策略替代静态“先知”策略,会因骨干网络与决策器的耦合而导致训练不稳定甚至崩溃,从而证明了TaH两阶段训练策略的必要性。
TaH在模型架构和训练策略上的消融实验结果。
总结与展望
TaH的意义,远不止于提出一个新的循环Transformer变体或后训练方法。更重要的是,它探索了如何将“测试时计算扩展”推向更精细的词元粒度。这项研究表明,更智能的动态算力分配策略,有时甚至比单纯堆砌更多计算资源能带来更优的效果。这为未来如何在有限资源下最大化模型推理能力的研究,指明了一个新的、富有启发性的方向。
参考文献
[1] Jaech, A., Kalai, A., Lerer, A., et al. OpenAI o1 system card. arXiv preprint arXiv:2412.16720, 2024.
[2] Guo, D., Yang, D., Zhang, H., et al. DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. arXiv preprint arXiv:2501.12948, 2025.
[3] Yang, A., Li, A., Yang, B., et al. Qwen3 technical report. arXiv preprint arXiv:2505.09388, 2025.
[4] Abdin, M., Aneja, J., Awadalla, H., et al. Phi-3 technical report: A highly capable language model locally on your phone. arXiv preprint arXiv:2404.14219, 2024.
[5] Team, M., Xiao, C., Li, Y., et al. MiniCPM4: Ultra-efficient LLMs on end devices. arXiv preprint arXiv:2506.07900, 2025.
[6] Hutchins, D., Schlag, I., Wu, Y., Dyer, E., and Neyshabur, B. Block-recurrent transformers. Advances in Neural Information Processing Systems, 35:33248–33261, 2024.
[7] Saunshi, N., Dikkala, N., Li, Z., Kumar, S., and Reddi, S. J. Reasoning with latent thoughts: On the power of looped transformers. arXiv preprint arXiv:2502.17416, 2025.
[8] Zhu, R.-J., Wang, Z., Hua, K., et al. Scaling latent reasoning via looped language models. arXiv preprint arXiv:2510.25741, 2025.
[9] Wu, Y., Wang, Y., Ye, Z., Du, T., Jegelka, S., and Wang, Y. When more is less: Understanding chain-of-thought length in LLMs. arXiv preprint arXiv:2502.07266, 2025.
[10] Wang, S., Yu, L., Gao, C., et al. Beyond the 80/20 rule: High-entropy minority tokens drive effective reinforcement learning for LLM reasoning. arXiv preprint arXiv:2506.01939, 2025.
[11] Fu, T., Ge, Y., You, Y., et al. R2R: Efficiently na vigating divergent reasoning paths with small-large model token routing. arXiv preprint arXiv:2505.21600, 2025.
[12] Hu, E. J., Shen, Y., Wallis, P., et al. LoRA: Low-rank adaptation of large language models. ICLR, 2024.
[13] Hugging Face. Open R1: A fully open reproduction of DeepSeek-R1, January 2025. URL https://github.com/huggingface/open-r1.








