CVPR 2026最佳论文候选:ViT³测试时训练突破Transformer复杂度瓶颈
CVPR 2026 刚在美国丹佛落下帷幕。16092篇投稿中,15篇杀入最佳论文决选,入围率不足千分之一。其中一篇来自阿里巴巴与清华大学的合作研究——《ViT³: Unlocking Test-Time Training in Vision》。
它要解决的,是当前视觉模型领域最普遍的一类痛点:当图像分辨率越来越高、视频越来越长、多模态输入越来越复杂时,Transformer 逐渐算不动了。ViT³ 给出了一条不同的路线。
在RTX 3090上处理1248×1248分辨率图像时,ViT³-T的推理速度达到DeiT-T的4.6倍,GPU显存消耗降低了90.3%。换句话说,它只使用接近十分之一的显存,却实现了更高的处理速度。
但这篇论文的意义,并不只是让视觉模型跑得更快。它真正尝试改变的,是视觉模型保存和调用上下文信息的方式:不再单纯依赖固定公式压缩信息,而是在处理当前输入时,通过一次快速的在线学习,把上下文写入一个紧凑的内部模型。这条路线建立在近年来受到关注的Test-Time Training(TTT,测试时训练)框架之上,而ViT³则进一步将其系统引入视觉领域,并梳理出一套可复用的设计原则。
论文地址:https://arxiv.org/pdf/2512.01643
代码:https://github.com/LeapLabTHU/ViTTT
阿里巴巴长期关注多模态大模型与新一代交互体验。随着AI逐渐进入真实生活场景,模型需要处理的视觉信息正在变得越来越复杂:更高清的图片、更长的视频,以及持续增长的多模态上下文。如何在控制算力成本的同时,让模型看得更清楚、理解得更完整,已经成为多模态技术走向实际应用时必须面对的问题。ViT³所探索的,正是这一底层能力。
把上下文压缩,变成一次临场学习
要理解ViT³的价值,需要先回到视觉模型长期面对的一组矛盾:如何在降低计算复杂度的同时,尽可能保留上下文建模能力。
Vision Transformer在2020年被提出后,迅速成为计算机视觉中最重要的主流架构之一,并持续推动图像分类、目标检测、语义分割和图像生成等任务的发展。但标准Softmax Attention有一笔随着序列长度快速膨胀的账。一张图片进入视觉Transformer后,通常会被拆分成一组token。图片分辨率越高,token数量就越多。标准Attention需要显式计算不同token之间的两两关系,其计算和显存成本会随token数量呈二次增长。
为便于理解,省略缩放系数后,标准Attention可以简写为:Softmax(QKᵀ)V。其中,Q代表query,K代表key,V代表value。真正带来高成本的,是QKᵀ形成的N×N矩阵。当模型处理的是普通分辨率图片时,这笔成本尚且可控。但一旦面对超高清图片、长视频或更复杂的多模态输入,token序列长度迅速增加,计算和显存开销就会逐渐接近成本边界。
为了降低成本,过去几年出现了多种线性复杂度方案。
Linear Attention的思路,是改变计算顺序。它将关键计算从Softmax(QKᵀ)V改写为Q(KᵀV),先把K和V压缩成一个固定大小的状态,再让Q从中读取信息。由于KᵀV的大小与序列长度N无关,复杂度可以降到O(N)。但代价也很明显:上下文被压缩进一个相对简单的线性状态。压缩效率提高了,表达能力却可能不足,实际性能往往与标准Transformer存在差距。
Mamba和状态空间模型走了另一条路。它们维护一个固定大小的隐状态,并沿着序列逐步更新。相比简单的线性映射,这种状态更新机制更灵活,但仍然需要回答同一个问题:当序列越来越长、全局依赖越来越复杂时,如何把足够丰富的信息写入一个容量有限的状态?
用一个类比来说:标准Attention是“保留全部资料,需要时重新检索”,代价是资料越多,检索成本越高;Linear Attention是“提前压缩成一份固定摘要”,速度更快,但容易遗漏细节;Mamba则像是“一边阅读,一边持续更新一份有限长度的笔记”。这些方案背后长期存在一组交换条件:压缩越激进,计算越便宜;但压缩方式越简单,模型越容易损失表达能力。
Test-Time Training试图改变这组交换条件。它不再把上下文压缩视为一次固定的矩阵运算,而是把它改写成一次快速的在线学习过程。
TTT Block保留了Transformer的宏观结构。不同之处在于,原本的Attention计算被替换为一次可学习的上下文压缩与读取过程。
具体来说,TTT将当前输入中的key-value对视为一个临时的“迷你数据集”。模型在推理过程中,对一个小型内部网络进行短暂的自监督训练,让它学习从K预测V。随后,再使用更新后的内部网络处理query。换句话说,模型面对每一组新的输入时,都会进行一次轻量级的临场适配。这也是“Test-Time Training”这个名字的来源:在测试阶段,模型会针对当前输入,短暂训练一个内部模型,再利用它完成信息读取。整个内部训练过程仍然是可微的,并与外部网络一起端到端优化,不需要拆分成多个独立阶段。
线性注意力使用固定矩阵乘法压缩上下文;TTT则使用梯度下降压缩上下文。前者是固定的线性操作,后者是一种学习驱动的非线性压缩方式。只要内部模型的规模保持固定,整体复杂度仍然可以维持在线性水平,但信息压缩能力有机会进一步提高。
论文中有一张关键示意图,展示了Softmax Attention、Linear Attention和TTT之间的关系。Softmax Attention可以被理解为一个宽度随序列长度增长的内部模型;Linear Attention对应一个固定大小的线性内部模型;TTT则进一步允许内部模型成为可训练的小型网络。ViT³并不是完全抛开Attention另起炉灶,而是在同一个框架中,打开了更大的设计空间。
Softmax Attention、Linear Attention与TTT的统一视角。Softmax Attention保留完整上下文,Linear Attention将上下文压缩为固定大小的线性状态;TTT则通过在线训练,将上下文写入一个可更新的内部模型。
在空白的设计空间里画出地图
设计空间更大,意味着选择更多,也意味着更容易走错路。在ViT³之前,TTT已经在语言模型中获得关注,但视觉数据与语言数据并不相同。语言天然具有顺序和因果结构。图像则是二维空间信息,不同token之间不存在同样明确的先后关系。当TTT进入视觉领域后,一系列基础问题都需要重新回答:内部模型应该使用什么架构?损失函数如何选择?应该更新多少轮?学习率应该多大?卷积和MLP哪一种更适合视觉任务?
ViT³的重要贡献之一,是通过系统实验梳理视觉TTT的设计空间,总结出六条可以复用的实践原则,并讨论了TTT当前存在的核心挑战和未来研究方向。
观察一:内部训练损失函数的混合二阶导数不能为零。
TTT的内部训练过程要和外部网络一起做端到端优化,这意味着梯度要穿过内部训练步骤回传到外部参数。如果损失函数的混合二阶导数为零,外部参数的梯度信号就会在回传中消失。MAE(L1)损失的导数是符号函数,混合二阶导几乎处处为零——实验中它比MSE损失低了2.4个百分点。这不是一个可以通过调参弥补的小问题,它决定了某些损失函数从根本上不适用于TTT。
观察二:视觉任务适合全批次、单轮训练。
此前NLP领域的TTT实践发现,小批量顺序更新通常更有效。但在视觉任务中,全批次更新表现更好。论文给出了一个有说服力的解释:小批量顺序更新会引入因果偏置——前面的batch影响后面的梯度,后面的更新也可能覆盖前面的信息。这种偏置适合具有方向性的语言数据,但对非因果的视觉数据反而是一种负担。综合准确率、吞吐和训练稳定性,ViT³最终采用单轮全批次更新。
观察三:在稳定的前提下,更大的内部学习率效果更好。
实验表明,在训练稳定的前提下,越大的学习率效果越好。太小的学习率会让内部模型更新不充分,无法有效存储上下文信息;过大的学习率则容易导致训练不稳定。值得注意的是,在一些特殊情况下,内部学习率可以吸收为K和V的放缩。但这并不说明内部学习率的设置不重要。一个类似的例子是Softmax注意力中的√d放缩,它也能够被Q和K吸收,但是依然重要。
观察四:增加内部模型容量,性能持续提升。
一个关键问题是:TTT能不能通过简单扩大内部模型来提升序列建模能力?为了探索这一点,论文将TTT内部模型实现为一个SiLU激活函数的两层MLP,并逐渐增加其宽度。实验表明,当隐藏维度d扩到4d,准确率从78.9%提升到79.6%,没有饱和迹象。这是TTT范式的一个核心优势,即它可以在外部模型尺寸固定的条件下,通过简单地扩展内部模型尺寸来实现更好的序列建模效果。这和Linear Attention形成鲜明对比:后者通常将上下文压缩进固定大小的线性状态,表达能力和扩展空间相对有限。
随着内部模型宽度增加,TTT的性能持续提升,说明内部模型容量仍有进一步扩展空间。
观察五:当前更深的内部模型存在优化困难,需要未来工作解锁其理论潜力。
一个不符合预期的结果是,把内部模型从一层变成两层、三层,参数更多、理论容量更大,但实际准确率反而下降。论文的分析指向优化困难:更深的内部模型在TTT的短训练步数下容易欠拟合——训练损失更高,测试准确率更低。当前深层网络的理论优势在TTT的快速训练场景中难以兑现。论文同时发现,如果把输出层固定为单位矩阵(一种“约束设计”),准确率反而比完整的两层MLP更高。这进一步证实了优化瓶颈的存在。解决较深内部模型的优化问题,是TTT的一个重要未来方向。理论工作表明,神经网络的拟合能力随深度指数增长,这正是当前神经网络成功的核心原因。因此,较深的内部模型在实现高精度测试时训练序列建模中具有突出潜力。
增加内部模型深度,并没有带来更高的准确率。随着层数增加,训练损失反而更高,说明视觉TTT当前仍面临内部模型优化瓶颈。
观察六:卷积天然适合做视觉TTT的内部模型。
随着Transformer兴起,卷积不再是视觉模型中唯一占据主导地位的结构。但在TTT框架中,它获得了一个新的角色。TTT把全局上下文压缩进内部模型的权重,当内部模型是卷积时,这些权重就是卷积核——全局信息被编码在核的参数里,而卷积操作本身又提供了局部感受野。一次前向推理同时完成了全局和局部信息的整合。实验中,一个轻量级3×3深度卷积在参数量更少的情况下,比MLP baseline高出1.2个百分点。
这六条原则并不是相互独立的经验。观察一排除了一类不适用于TTT的损失函数;观察二和观察三回答“应该怎么训练”;观察四、观察五和观察六则回答“内部模型应该如何设计”。它们共同构成了一份视觉TTT的实践地图:哪些方向值得未来工作继续探索,哪些路径容易陷入优化瓶颈,哪些设计能够在效果和效率之间取得更好的平衡。
从分类到生成,ViT³的优势在高分辨率下放大
基于前面的六条观察,研究团队最终搭建出Vision Test-Time Training模型,简称ViT³。它的整体设计并不复杂。在多数Attention head中,ViT³使用一种简化的门控内部模型,在保持易于优化的同时,提供比纯线性状态更强的表达能力。另有一个head引入轻量级的3×3深度卷积,使模型在压缩全局上下文的同时,也能够利用图像中的局部空间结构。内部训练同样保持克制:每次只进行一轮全批次梯度更新。换句话说,ViT³没有在推理过程中嵌入一套繁重的训练流程,而是在控制额外成本的前提下,让内部模型完成一次快速适配。
围绕这一模块,论文构建了三类模型:ViT³采用非层级架构,对齐经典Vision Transformer;H-ViT³使用四阶段层级设计,更适合作为通用视觉骨干网络;DiT³则将同样的TTT模块放入扩散模型,用于图像生成。这组设计的目标,不是针对某一个benchmark调整出更高的数字,而是验证一个更关键的问题:TTT能否成为一种可迁移的视觉序列建模模块?
从实验结果看,答案是积极的。在图像分类任务中,ViT³展现出有竞争力的视觉表征能力。在目标检测和语义分割等需要处理更高分辨率输入的任务中,它也能够超过多种同级别的Mamba和Linear Attention模型。这说明,相比将上下文压缩进一个简单线性状态,ViT³使用更灵活的内部模型保存信息,能够在控制计算成本的同时,维持较强的建模能力。
ViT³的适用范围也没有停留在识别任务。研究团队进一步将TTT模块放入扩散模型,构建出DiT³。实验显示,在不同模型规模和patch配置下,DiT³均能够改善原始DiT的图像生成质量。这意味着,TTT可以作为一个相对独立的模块,进入不同类型的视觉架构。
但ViT³最直观的优势,仍然来自高分辨率图像。在RTX 3090上处理1248×1248图像时,单张图片包含6084个token。此时,ViT³-T的推理速度达到DeiT-T的4.6倍,GPU显存消耗降低了90.3%。
原因并不复杂。在低分辨率输入下,序列较短,标准Attention的成本仍然可以承受。随着分辨率提高,token数量快速增加,标准Softmax Attention的计算和显存开销随序列长度呈二次增长;ViT³则保持线性复杂度。两条曲线之间的差距,会随着输入规模扩大持续拉开。
对于面向真实生活场景的多模态应用而言,这一点尤其重要。当模型开始接收更高清的图片、更长的视频和更复杂的视觉上下文时,序列长度会快速增加。单纯依赖算力堆叠,很难无限持续。这也与阿里巴巴长期关注的方向形成呼应。未来的多模态交互,不只是让模型识别一张图片,而是需要它在真实环境中持续处理更加复杂的视觉信息。无论是更自然的人机交互,还是面向生活场景的AI原生应用,都需要一个更具扩展性的视觉底座。
ViT³所验证的,是另一种可能性:通过架构创新提高上下文压缩质量,在不放弃线性复杂度优势的前提下,尽量缩小与标准Transformer之间的性能差距。但ViT³还不是对Transformer的全面替代。论文给出的定位相对克制:作为一套视觉TTT baseline,它已经超过多种线性复杂度模型,并显著缩小了与主流视觉Transformer的性能差距,但仍存在进一步提升空间。另一方面,4.6倍速度提升和90.3%显存节省来自RTX 3090上的实验结果,证明了算法层面的扩展优势,但还不能直接等同于手机、车端等边缘设备上的实际部署效果。更准确地说,ViT³为端侧部署和高分辨率多模态应用打开了新的可能性,也为后续工程优化提供了基础。
算力与性能,不必互斥
过去几年,视觉模型领域逐渐形成了一种默认路径:更好的性能,往往意味着更大的模型、更多的训练数据和更高的算力成本。线性复杂度模型虽然更加高效,但通常需要付出性能代价。ViT³试图重新检验这一前提。它系统梳理了视觉TTT的设计空间,证明学习驱动的上下文压缩可以覆盖分类、检测、分割和生成任务,并在高分辨率场景下展现出更加明显的效率优势。
这也是阿里巴巴持续探索的方向。当多模态模型持续走向高清视觉、长上下文和复杂交互,行业需要回答一个更长期的问题:能力增长是否只能依赖更多算力?ViT³给出了另一种可能:答案也许不在更大的模型里,而在更聪明的架构里。





