天津大学TEMPO技术解析:AI临场学习突破模型僵化瓶颈
这项由天津大学、阿里巴巴通义实验室、香港中文大学和上海人工智能实验室联合完成的研究,以预印本形式于2026年4月21日发布在arXiv平台,论文编号为arXiv:2604.19295v1,研究方向属于机器学习领域。
一、一个让人头疼的问题:AI在考场上为什么会“卡壳”
想象一下,一位参加竞赛的学生,如果仅能复述过往知识,而无法根据考场新题型即时调整解题策略,其成绩上限将大打折扣。现实中,优秀的学生懂得在考试中灵活应变,面对新题能即兴推导,遇到熟悉题型也会结合考场情境优化解法。然而,当前顶尖的AI推理模型——那些能够解决奥数题和复杂逻辑问题的大语言模型——恰恰陷入了这种困境:其“知识”与“思维模式”在训练结束后便被永久固化。在实际推理阶段,它们只能调用静态的存量知识,无法根据新问题的具体特征进行实时自我迭代与优化。
这并非一个次要问题。随着研究者日益期望AI能在实际推理阶段持续进化,一种名为“测试时训练”的技术应运而生。其核心理念是:允许模型在回答问题的过程中,对其内部参数进行微调,类似于让考场上的学生能够“边解题边补课”。
但现有测试时训练方法很快暴露了一个根本性矛盾:模型在推理时缺乏标准答案作为参照,只能依赖自身判断对错。这好比让选手同时兼任裁判,长期以往,其对答案质量的评估会逐渐产生偏差,开始用“流行度”替代“正确性”。结果是,模型性能在短暂提升后迅速陷入平台期,甚至开始“跑偏”——不再尝试多样化的解题路径,而是愈发固守于某种特定模式。这种现象在学术上被称为“多样性崩塌”。
正是为了打破这一僵局,前述四家机构的研究团队提出了TEMPO框架。TEMPO全称为“测试时期望最大化策略优化”。其核心创新在于:在模型“边考边学”的过程中,引入一个定期接受“外部校准”的独立评判模块,从而确保模型自我评估的持续可靠性。
二、现有方法为何总在原地打转:自说自话的恶性循环
要理解TEMPO的有效性,需先厘清现有方法失败的根本原因。
目前主流的测试时训练方法,如TTRL和EMPO,均采用“自我奖励”机制。以TTRL为例,其逻辑是:让模型对同一问题生成多个答案,将出现频率最高的答案视为“正确”,并以此奖励模型——鼓励其未来多生成此类答案。这类似于在一个没有教师的班级里,由学生投票决定作业答案,得票最多者即成为“标准答案”。
这一逻辑初看似乎合理:多数人的选择通常不会过于离谱。但关键在于,随着模型不断强化这个“多数派”答案,其对答案的信心会无限膨胀,即使答案是错误的,也会愈发确信其正确性,并继续以此训练自身。这就形成了一个无法自我纠正的正反馈循环:错误答案因被强化而变得更主流,主流答案又进一步被强化,最终模型的思维完全固化在一条逐渐偏离的轨道上。EMPO使用“熵”等指标来衡量答案质量,本质上仍是利用模型自身的输出来评价自己,最终遭遇了同样的困境。
研究团队从数学角度精确刻画了这一现象。他们运用经典的“期望最大化”统计框架分析整个测试时训练过程,发现了一个关键缺失:所有现有方法都只完成了EM算法中的“M步”,却完全跳过了“E步”。这就好比一条生产线在不断优化,但用于检测产品质量的测量仪器却从不校准——即使仪器已严重漂移,生产线仍依据错误的读数进行“优化”,结果自然是南辕北辙。
三、TEMPO的核心设计:给评判员装上“定期校正装置”
TEMPO的解决方案围绕一个关键洞察展开:将“答案质量评估”这一职能,从模型自身剥离,交由一个独立的评判员模型负责。并且,该评判员会定期回到拥有标准答案的题库中,重新校准其判断能力。
整个TEMPO框架包含两个交替进行的阶段,构成一个高效的学习-校准循环。
第一个阶段是“策略精炼”,对应EM算法中的M步。在此阶段,模型会针对无标准答案的新题目,生成大量解题过程。每个过程均由评判员给出一个连续的质量评分。模型则依据这些分数更新自身参数:强化高分思路,弱化低分思路。
第二个阶段是“批评者重校准”,对应EM算法中的E步,也是TEMPO框架最核心的创新。在此阶段,评判员会暂时脱离仅评估模型自生成答案的环境,回到一批拥有真实标准答案的题目上进行再训练。训练目标明确:对于每道有答案的题,预测模型生成的某个回答“最终是否正确”,并通过与真实结果的对比来持续校正其预测能力。此过程采用“均方误差最小化”这一标准技术,评判员的评分越接近真实正确性,训练就越成功。
两个阶段交替循环:模型解新题,评判员打分;评判员回题库校准;模型再解新题,评判员再打分……由于评判员的评分能力始终被真实答案所“锚定”,它不会随模型的变化而发生漂移,从而为模型的持续优化提供了可靠的方向指引。
从数学上看,TEMPO的设计保证了优化目标的证据下界在训练过程中持续收紧,而非像现有方法那样逐渐松弛。这意味着TEMPO的每一步优化都在切实推动“答题准确性”这一目标的实现,而非在一个不断漂移的伪目标上无效内耗。
在具体实现上,评判员还有一个精巧设计:它不仅在回答结束时给出总分,而是在生成每个词后都提供一个预测值,表示“若在此刻终止,该回答最终正确的概率是多少”。这种逐词评分机制使得模型能精准识别推理过程中的弯路,从而更精细地调整生成策略。模型最终获得的“优势信号”等于“最终实际奖励”减去“生成该词前评判员预测的期望奖励”。这一设计在工程上显著降低了训练方差,使学习信号更加稳定。
四、实验结果:数字背后的真实差距
研究团队在多个模型架构和基准测试上系统评估了TEMPO,对比基线包括标准强化学习方法,以及现有的两种自奖励测试时训练方法。
在数学推理评估中,使用了AIME 2024、AIME 2025、Beyond AIME、AIME 2026以及OlymMath五个奥林匹克级别数学竞赛题库。模型选用OLMO3-7B和Qwen3系列。所有模型在正式测试前,均使用一个包含约17000道有标注答案的数学数据集进行初始化训练,以建立基础能力,随后再启动TEMPO的测试时训练流程。
以OLMO3-7B模型为例,其在经过初始强化学习训练后,在AIME 2024上的平均准确率为33.0%。TTRL将其提升至40.8%,EMPO提升至41.6%,而TEMPO则将其推升至51.1%——提升幅度是前两者的三到四倍。在AIME 2025上,TEMPO从26.3%提升至37.0%,而TTRL仅达27.1%,EMPO为26.7%,几乎停滞。
在更大规模的Qwen3-14B模型上,TEMPO效果同样显著。在AIME 2024上,初始基线为42.3%,TTRL提升至53.1%,EMPO提升至55.6%,而TEMPO直接跨越至65.8%,绝对提升幅度达23.5个百分点。在AIME 2025上,TEMPO从37.1%提升至44.6%,绝对提升7.5个百分点。
除了平均准确率,研究团队还重点关注了“pass@K”指标,它衡量模型对同一问题生成K个不同答案时,至少有一个答案正确的概率。该指标反映了模型思维的多样性。
TTRL和EMPO在该指标上的表现暴露出严重问题:以Qwen3-14B为例,在Beyond AIME测试集上,基线方法的pass@8为50.0%,TTRL训练后骤降至29.4%,EMPO降至31.4%。这意味着这两种方法虽然提升了平均准确率,却是以牺牲思维多样性为代价的,模型被“训僵化”了。TEMPO在同一测试集上的pass@8为46.3%,虽略低于基线,但远优于前两者的崩塌式下降。在其他测试集上,TEMPO的pass@K甚至超过了基线。
研究团队通过训练曲线图直观展示了性能趋势:TTRL的曲线在前约50步快速上升后即进入平台期并随后下滑;而TEMPO的曲线在整个350步的训练过程中始终保持稳定的上升趋势,未出现任何停滞或下滑。这表明TEMPO的改进是可持续的,性能随着测试时计算资源的持续投入而累积提升。
五、不只会做数学题:TEMPO在通用推理上的表现
数学能力仅是推理能力的一个维度。研究团队在更广泛的通用推理任务上测试了TEMPO,包括BigBenchHard综合思维、AGI Eval逻辑推理、ZebraLogic谜题以及需要研究生级别专业知识的GPQA-Diamond。这些任务的初始化训练数据换成了一个12800道通用推理题的数据集。由于答案格式多样,还引入了一个外部评判模型进行准确性核查。
在这个更具挑战性的场景下,TEMPO的表现依然突出。OLMO3-7B在BBH上从基线的46.8%提升至68.2%,绝对增幅21.4个百分点,甚至超过了专门为通用推理设计的前沿模型。在AGI Eval上,从37.9%提升至62.4%,增幅24.5个百分点。在ZebraLogic上,从22.2%提升至35.1%。在GPQA-Diamond上,平均准确率从21.9%提升至32.4%,pass@8从62.1%提升至69.4%。
起点更高的Qwen3-8B模型在通用推理任务上提升幅度相对较小,但保持了一致的正向增益。值得一提的是,在GPQA-Diamond的pass@8指标上,Qwen3-8B经TEMPO训练后为65.3%,而TTRL为73.0%,EMPO为70.8%——这是TEMPO在整篇论文中少数未占据优势的指标,研究团队在原文中如实报告了该结果,体现了研究的客观性。
这些结果表明,TEMPO的“定期校正评判员”设计并非针对数学任务的特殊技巧,而是一种具有广泛适用性的通用机制,能够在多种需要系统性推理的任务上发挥作用。
六、做了对比实验:证明每个设计都不是多余的
为确认TEMPO的有效性源于其核心设计而非偶然因素,研究团队设计了两组消融实验。
第一组实验对比了“继续在有标注答案的题目上训练”与“使用TEMPO在无标注新题上训练”。实验从一个已在有标注数据上充分收敛的模型出发,分两条路径:一条是继续用相同数据进行更多步训练;另一条是切换到TEMPO,使用无标注新题进行测试时训练。结果清晰显示:继续在相同数据上训练,200步后准确率几乎无提升;而TEMPO训练后,准确率在200步内稳步上升超过15个百分点。这证明了“学习新题”本身的价值——当模型在某个数据集上达到性能瓶颈后,接触未见过的、无标注的新问题是实现突破的关键。
第二组实验对比了“评判员定期重校准”与“评判员一次性训练后固定不变”。在“固定评判员”版本中,评判员在初始阶段训练好后便不再更新。实验发现,该版本在训练初期表现与完整TEMPO相当,因为初期评判员的判断尚属准确。但随着策略模型不断进化,生成的答案愈发复杂,固定评判员的判断能力逐渐与模型脱节,给出的评分失去参考价值。策略模型从漂移的分数中获得错误信号,最终在大约100步后陷入停滞。完整的TEMPO由于持续校准评判员,避免了这一漂移,性能持续提升至200步仍未显现平台期。
这两组实验共同证实了TEMPO两个核心组件的必要性:缺乏“新题训练”,则无法突破知识上限;缺乏“评判员校正”,新题训练便会偏离正轨。二者缺一不可。
七、诚实的局限性:研究者自己说的不足
研究团队在论文中明确指出了TEMPO当前存在的几点局限,这是理解其适用边界的重要参考。
首先,TEMPO需同时维护策略模型和评判员模型,这比单模型方法需要更多的GPU显存和计算资源。在资源受限的环境中,这可能构成实际部署的障碍。
其次,TEMPO的评判员校准依赖于一个有标准答案的标注数据集。这意味着TEMPO并非完全“无监督”的方法——它对标注数据存在持续依赖。若标注数据与实际测试问题的类型分布差异过大,评判员的校准效果可能会减弱。
再者,现有实验主要覆盖数学、STEM和逻辑谜题推理,代码生成等其他重要的推理任务尚未得到验证。研究团队并未声称TEMPO适用于所有领域,其泛化能力需未来研究进一步检验。
此外,虽然期望最大化框架为TEMPO提供了直观的理论支撑,但论文目前尚未给出关于该交替优化过程收敛性的严格数学证明。这是理论层面有待完善之处。
简而言之,TEMPO的核心是为模型的“自我评判系统”设立了一个锚点,该锚点始终与真实世界的标准答案相连。只要锚点稳固,模型的自我进化便不会偏离轨道。这个看似简洁的构思,在实验中产生了显著效果,使模型在数百步的持续训练中保持稳定向上的性能曲线,而非如先前方法般昙花一现。
这项研究意味着,未来的AI助手可能不再是“一次训练、终身定型”的静态工具,而是能够在与用户的真实交互中持续优化其推理能力,且这种优化有机制保障不会陷入歧途。当AI遇到前所未有的复杂问题时,它将不再仅仅依赖记忆中的知识,而是能够进行真正有质量的实时探索与学习。
Q&A
Q1:TEMPO与TTRL等测试时训练方法的核心区别是什么?
A:核心区别在于评估机制的独立性。TTRL等方法依赖模型自身生成的答案进行“多数决”或基于熵的自我评估,易陷入自我强化的循环,导致思维固化。TEMPO则引入了一个独立的评判员模型,并定期使用有标准答案的真实题目校准该评判员的判断能力,从而切断评估漂移的根源,为模型的持续、可靠优化提供方向。
Q2:TEMPO需要有标准答案的数据吗?
A:需要。TEMPO的评判员模型需要定期使用有标注答案的数据集进行重新校准,这是其保持长期有效的关键。因此,TEMPO并非完全无监督的方法,它对标注数据存在持续依赖。不过,这部分标注数据仅用于校准评判员,模型学习新知识的过程使用的仍是无标注的新题目。
Q3:TEMPO在数学之外的任务上有效吗?
A:有效,但提升幅度因任务和模型基础能力而异。在BBH综合推理、AGI Eval逻辑推理、ZebraLogic谜题及GPQA-Diamond专业知识问答等任务上,基础较弱的模型获得了显著提升。基础更强的模型提升幅度相对较小,且在个别指标上可能不占优。代码生成等其他领域尚未验证。
