天津大学TEMPO技术解析：AI临场学习突破模型僵化瓶颈

2026-05-15阅读 0热度 0

天津大学

这项由天津大学、阿里巴巴通义实验室、香港中文大学和上海人工智能实验室联合完成的研究，以预印本形式于2026年4月21日发布在arXiv平台，论文编号为arXiv:2604.19295v1，研究方向属于机器学习领域。

一、一个让人头疼的问题：AI在考场上为什么会“卡壳”

想象一下，一位参加竞赛的学生，如果仅能复述过往知识，而无法根据考场新题型即时调整解题策略，其成绩上限将大打折扣。现实中，优秀的学生懂得在考试中灵活应变，面对新题能即兴推导，遇到熟悉题型也会结合考场情境优化解法。然而，当前顶尖的AI推理模型——那些能够解决奥数题和复杂逻辑问题的大语言模型——恰恰陷入了这种困境：其“知识”与“思维模式”在训练结束后便被永久固化。在实际推理阶段，它们只能调用静态的存量知识，无法根据新问题的具体特征进行实时自我迭代与优化。

这并非一个次要问题。随着研究者日益期望AI能在实际推理阶段持续进化，一种名为“测试时训练”的技术应运而生。其核心理念是：允许模型在回答问题的过程中，对其内部参数进行微调，类似于让考场上的学生能够“边解题边补课”。

但现有测试时训练方法很快暴露了一个根本性矛盾：模型在推理时缺乏标准答案作为参照，只能依赖自身判断对错。这好比让选手同时兼任裁判，长期以往，其对答案质量的评估会逐渐产生偏差，开始用“流行度”替代“正确性”。结果是，模型性能在短暂提升后迅速陷入平台期，甚至开始“跑偏”——不再尝试多样化的解题路径，而是愈发固守于某种特定模式。这种现象在学术上被称为“多样性崩塌”。

正是为了打破这一僵局，前述四家机构的研究团队提出了TEMPO框架。TEMPO全称为“测试时期望最大化策略优化”。其核心创新在于：在模型“边考边学”的过程中，引入一个定期接受“外部校准”的独立评判模块，从而确保模型自我评估的持续可靠性。

二、现有方法为何总在原地打转：自说自话的恶性循环

要理解TEMPO的有效性，需先厘清现有方法失败的根本原因。

目前主流的测试时训练方法，如TTRL和EMPO，均采用“自我奖励”机制。以TTRL为例，其逻辑是：让模型对同一问题生成多个答案，将出现频率最高的答案视为“正确”，并以此奖励模型——鼓励其未来多生成此类答案。这类似于在一个没有教师的班级里，由学生投票决定作业答案，得票最多者即成为“标准答案”。

这一逻辑初看似乎合理：多数人的选择通常不会过于离谱。但关键在于，随着模型不断强化这个“多数派”答案，其对答案的信心会无限膨胀，即使答案是错误的，也会愈发确信其正确性，并继续以此训练自身。这就形成了一个无法自我纠正的正反馈循环：错误答案因被强化而变得更主流，主流答案又进一步被强化，最终模型的思维完全固化在一条逐渐偏离的轨道上。EMPO使用“熵”等指标来衡量答案质量，本质上仍是利用模型自身的输出来评价自己，最终遭遇了同样的困境。

研究团队从数学角度精确刻画了这一现象。他们运用经典的“期望最大化”统计框架分析整个测试时训练过程，发现了一个关键缺失：所有现有方法都只完成了EM算法中的“M步”，却完全跳过了“E步”。这就好比一条生产线在不断优化，但用于检测产品质量的测量仪器却从不校准——即使仪器已严重漂移，生产线仍依据错误的读数进行“优化”，结果自然是南辕北辙。

三、TEMPO的核心设计：给评判员装上“定期校正装置”

TEMPO的解决方案围绕一个关键洞察展开：将“答案质量评估”这一职能，从模型自身剥离，交由一个独立的评判员模型负责。并且，该评判员会定期回到拥有标准答案的题库中，重新校准其判断能力。

整个TEMPO框架包含两个交替进行的阶段，构成一个高效的学习-校准循环。

第一个阶段是“策略精炼”，对应EM算法中的M步。在此阶段，模型会针对无标准答案的新题目，生成大量解题过程。每个过程均由评判员给出一个连续的质量评分。模型则依据这些分数更新自身参数：强化高分思路，弱化低分思路。

第二个阶段是“批评者重校准”，对应EM算法中的E步，也是TEMPO框架最核心的创新。在此阶段，评判员会暂时脱离仅评估模型自生成答案的环境，回到一批拥有真实标准答案的题目上进行再训练。训练目标明确：对于每道有答案的题，预测模型生成的某个回答“最终是否正确”，并通过与真实结果的对比来持续校正其预测能力。此过程采用“均方误差最小化”这一标准技术，评判员的评分越接近真实正确性，训练就越成功。

两个阶段交替循环：模型解新题，评判员打分；评判员回题库校准；模型再解新题，评判员再打分……由于评判员的评分能力始终被真实答案所“锚定”，它不会随模型的变化而发生漂移，从而为模型的持续优化提供了可靠的方向指引。

从数学上看，TEMPO的设计保证了优化目标的证据下界在训练过程中持续收紧，而非像现有方法那样逐渐松弛。这意味着TEMPO的每一步优化都在切实推动“答题准确性”这一目标的实现，而非在一个不断漂移的伪目标上无效内耗。

在具体实现上，评判员还有一个精巧设计：它不仅在回答结束时给出总分，而是在生成每个词后都提供一个预测值，表示“若在此刻终止，该回答最终正确的概率是多少”。这种逐词评分机制使得模型能精准识别推理过程中的弯路，从而更精细地调整生成策略。模型最终获得的“优势信号”等于“最终实际奖励”减去“生成该词前评判员预测的期望奖励”。这一设计在工程上显著降低了训练方差，使学习信号更加稳定。

四、实验结果：数字背后的真实差距

研究团队在多个模型架构和基准测试上系统评估了TEMPO，对比基线包括标准强化学习方法，以及现有的两种自奖励测试时训练方法。

在数学推理评估中，使用了AIME 2024、AIME 2025、Beyond AIME、AIME 2026以及OlymMath五个奥林匹克级别数学竞赛题库。模型选用OLMO3-7B和Qwen3系列。所有模型在正式测试前，均使用一个包含约17000道有标注答案的数学数据集进行初始化训练，以建立基础能力，随后再启动TEMPO的测试时训练流程。

以OLMO3-7B模型为例，其在经过初始强化学习训练后，在AIME 2024上的平均准确率为33.0%。TTRL将其提升至40.8%，EMPO提升至41.6%，而TEMPO则将其推升至51.1%——提升幅度是前两者的三到四倍。在AIME 2025上，TEMPO从26.3%提升至37.0%，而TTRL仅达27.1%，EMPO为26.7%，几乎停滞。

在更大规模的Qwen3-14B模型上，TEMPO效果同样显著。在AIME 2024上，初始基线为42.3%，TTRL提升至53.1%，EMPO提升至55.6%，而TEMPO直接跨越至65.8%，绝对提升幅度达23.5个百分点。在AIME 2025上，TEMPO从37.1%提升至44.6%，绝对提升7.5个百分点。

除了平均准确率，研究团队还重点关注了“pass@K”指标，它衡量模型对同一问题生成K个不同答案时，至少有一个答案正确的概率。该指标反映了模型思维的多样性。

TTRL和EMPO在该指标上的表现暴露出严重问题：以Qwen3-14B为例，在Beyond AIME测试集上，基线方法的pass@8为50.0%，TTRL训练后骤降至29.4%，EMPO降至31.4%。这意味着这两种方法虽然提升了平均准确率，却是以牺牲思维多样性为代价的，模型被“训僵化”了。TEMPO在同一测试集上的pass@8为46.3%，虽略低于基线，但远优于前两者的崩塌式下降。在其他测试集上，TEMPO的pass@K甚至超过了基线。

研究团队通过训练曲线图直观展示了性能趋势：TTRL的曲线在前约50步快速上升后即进入平台期并随后下滑；而TEMPO的曲线在整个350步的训练过程中始终保持稳定的上升趋势，未出现任何停滞或下滑。这表明TEMPO的改进是可持续的，性能随着测试时计算资源的持续投入而累积提升。

五、不只会做数学题：TEMPO在通用推理上的表现

数学能力仅是推理能力的一个维度。研究团队在更广泛的通用推理任务上测试了TEMPO，包括BigBenchHard综合思维、AGI Eval逻辑推理、ZebraLogic谜题以及需要研究生级别专业知识的GPQA-Diamond。这些任务的初始化训练数据换成了一个12800道通用推理题的数据集。由于答案格式多样，还引入了一个外部评判模型进行准确性核查。

在这个更具挑战性的场景下，TEMPO的表现依然突出。OLMO3-7B在BBH上从基线的46.8%提升至68.2%，绝对增幅21.4个百分点，甚至超过了专门为通用推理设计的前沿模型。在AGI Eval上，从37.9%提升至62.4%，增幅24.5个百分点。在ZebraLogic上，从22.2%提升至35.1%。在GPQA-Diamond上，平均准确率从21.9%提升至32.4%，pass@8从62.1%提升至69.4%。

起点更高的Qwen3-8B模型在通用推理任务上提升幅度相对较小，但保持了一致的正向增益。值得一提的是，在GPQA-Diamond的pass@8指标上，Qwen3-8B经TEMPO训练后为65.3%，而TTRL为73.0%，EMPO为70.8%——这是TEMPO在整篇论文中少数未占据优势的指标，研究团队在原文中如实报告了该结果，体现了研究的客观性。

这些结果表明，TEMPO的“定期校正评判员”设计并非针对数学任务的特殊技巧，而是一种具有广泛适用性的通用机制，能够在多种需要系统性推理的任务上发挥作用。

六、做了对比实验：证明每个设计都不是多余的

为确认TEMPO的有效性源于其核心设计而非偶然因素，研究团队设计了两组消融实验。

第一组实验对比了“继续在有标注答案的题目上训练”与“使用TEMPO在无标注新题上训练”。实验从一个已在有标注数据上充分收敛的模型出发，分两条路径：一条是继续用相同数据进行更多步训练；另一条是切换到TEMPO，使用无标注新题进行测试时训练。结果清晰显示：继续在相同数据上训练，200步后准确率几乎无提升；而TEMPO训练后，准确率在200步内稳步上升超过15个百分点。这证明了“学习新题”本身的价值——当模型在某个数据集上达到性能瓶颈后，接触未见过的、无标注的新问题是实现突破的关键。

第二组实验对比了“评判员定期重校准”与“评判员一次性训练后固定不变”。在“固定评判员”版本中，评判员在初始阶段训练好后便不再更新。实验发现，该版本在训练初期表现与完整TEMPO相当，因为初期评判员的判断尚属准确。但随着策略模型不断进化，生成的答案愈发复杂，固定评判员的判断能力逐渐与模型脱节，给出的评分失去参考价值。策略模型从漂移的分数中获得错误信号，最终在大约100步后陷入停滞。完整的TEMPO由于持续校准评判员，避免了这一漂移，性能持续提升至200步仍未显现平台期。

这两组实验共同证实了TEMPO两个核心组件的必要性：缺乏“新题训练”，则无法突破知识上限；缺乏“评判员校正”，新题训练便会偏离正轨。二者缺一不可。

七、诚实的局限性：研究者自己说的不足

研究团队在论文中明确指出了TEMPO当前存在的几点局限，这是理解其适用边界的重要参考。

首先，TEMPO需同时维护策略模型和评判员模型，这比单模型方法需要更多的GPU显存和计算资源。在资源受限的环境中，这可能构成实际部署的障碍。

其次，TEMPO的评判员校准依赖于一个有标准答案的标注数据集。这意味着TEMPO并非完全“无监督”的方法——它对标注数据存在持续依赖。若标注数据与实际测试问题的类型分布差异过大，评判员的校准效果可能会减弱。

再者，现有实验主要覆盖数学、STEM和逻辑谜题推理，代码生成等其他重要的推理任务尚未得到验证。研究团队并未声称TEMPO适用于所有领域，其泛化能力需未来研究进一步检验。

此外，虽然期望最大化框架为TEMPO提供了直观的理论支撑，但论文目前尚未给出关于该交替优化过程收敛性的严格数学证明。这是理论层面有待完善之处。

简而言之，TEMPO的核心是为模型的“自我评判系统”设立了一个锚点，该锚点始终与真实世界的标准答案相连。只要锚点稳固，模型的自我进化便不会偏离轨道。这个看似简洁的构思，在实验中产生了显著效果，使模型在数百步的持续训练中保持稳定向上的性能曲线，而非如先前方法般昙花一现。

这项研究意味着，未来的AI助手可能不再是“一次训练、终身定型”的静态工具，而是能够在与用户的真实交互中持续优化其推理能力，且这种优化有机制保障不会陷入歧途。当AI遇到前所未有的复杂问题时，它将不再仅仅依赖记忆中的知识，而是能够进行真正有质量的实时探索与学习。

Q&A

Q1：TEMPO与TTRL等测试时训练方法的核心区别是什么？

A：核心区别在于评估机制的独立性。TTRL等方法依赖模型自身生成的答案进行“多数决”或基于熵的自我评估，易陷入自我强化的循环，导致思维固化。TEMPO则引入了一个独立的评判员模型，并定期使用有标准答案的真实题目校准该评判员的判断能力，从而切断评估漂移的根源，为模型的持续、可靠优化提供方向。

Q2：TEMPO需要有标准答案的数据吗？

A：需要。TEMPO的评判员模型需要定期使用有标注答案的数据集进行重新校准，这是其保持长期有效的关键。因此，TEMPO并非完全无监督的方法，它对标注数据存在持续依赖。不过，这部分标注数据仅用于校准评判员，模型学习新知识的过程使用的仍是无标注的新题目。

Q3：TEMPO在数学之外的任务上有效吗？

A：有效，但提升幅度因任务和模型基础能力而异。在BBH综合推理、AGI Eval逻辑推理、ZebraLogic谜题及GPQA-Diamond专业知识问答等任务上，基础较弱的模型获得了显著提升。基础更强的模型提升幅度相对较小，且在个别指标上可能不占优。代码生成等其他领域尚未验证。