CVPR 2026最佳论文候选：ViT³测试时训练突破Transformer复杂度瓶颈

2026-06-13阅读 0热度 0

其他

CVPR 2026 刚在美国丹佛落下帷幕。16092篇投稿中，15篇杀入最佳论文决选，入围率不足千分之一。其中一篇来自阿里巴巴与清华大学的合作研究——《ViT³: Unlocking Test-Time Training in Vision》。

它要解决的，是当前视觉模型领域最普遍的一类痛点：当图像分辨率越来越高、视频越来越长、多模态输入越来越复杂时，Transformer 逐渐算不动了。ViT³ 给出了一条不同的路线。

在RTX 3090上处理1248×1248分辨率图像时，ViT³-T的推理速度达到DeiT-T的4.6倍，GPU显存消耗降低了90.3%。换句话说，它只使用接近十分之一的显存，却实现了更高的处理速度。

但这篇论文的意义，并不只是让视觉模型跑得更快。它真正尝试改变的，是视觉模型保存和调用上下文信息的方式：不再单纯依赖固定公式压缩信息，而是在处理当前输入时，通过一次快速的在线学习，把上下文写入一个紧凑的内部模型。这条路线建立在近年来受到关注的Test-Time Training（TTT，测试时训练）框架之上，而ViT³则进一步将其系统引入视觉领域，并梳理出一套可复用的设计原则。

论文地址：https://arxiv.org/pdf/2512.01643
代码：https://github.com/LeapLabTHU/ViTTT

阿里巴巴长期关注多模态大模型与新一代交互体验。随着AI逐渐进入真实生活场景，模型需要处理的视觉信息正在变得越来越复杂：更高清的图片、更长的视频，以及持续增长的多模态上下文。如何在控制算力成本的同时，让模型看得更清楚、理解得更完整，已经成为多模态技术走向实际应用时必须面对的问题。ViT³所探索的，正是这一底层能力。

把上下文压缩，变成一次临场学习

要理解ViT³的价值，需要先回到视觉模型长期面对的一组矛盾：如何在降低计算复杂度的同时，尽可能保留上下文建模能力。

Vision Transformer在2020年被提出后，迅速成为计算机视觉中最重要的主流架构之一，并持续推动图像分类、目标检测、语义分割和图像生成等任务的发展。但标准Softmax Attention有一笔随着序列长度快速膨胀的账。一张图片进入视觉Transformer后，通常会被拆分成一组token。图片分辨率越高，token数量就越多。标准Attention需要显式计算不同token之间的两两关系，其计算和显存成本会随token数量呈二次增长。

为便于理解，省略缩放系数后，标准Attention可以简写为：Softmax(QKᵀ)V。其中，Q代表query，K代表key，V代表value。真正带来高成本的，是QKᵀ形成的N×N矩阵。当模型处理的是普通分辨率图片时，这笔成本尚且可控。但一旦面对超高清图片、长视频或更复杂的多模态输入，token序列长度迅速增加，计算和显存开销就会逐渐接近成本边界。

为了降低成本，过去几年出现了多种线性复杂度方案。

Linear Attention的思路，是改变计算顺序。它将关键计算从Softmax(QKᵀ)V改写为Q(KᵀV)，先把K和V压缩成一个固定大小的状态，再让Q从中读取信息。由于KᵀV的大小与序列长度N无关，复杂度可以降到O(N)。但代价也很明显：上下文被压缩进一个相对简单的线性状态。压缩效率提高了，表达能力却可能不足，实际性能往往与标准Transformer存在差距。

Mamba和状态空间模型走了另一条路。它们维护一个固定大小的隐状态，并沿着序列逐步更新。相比简单的线性映射，这种状态更新机制更灵活，但仍然需要回答同一个问题：当序列越来越长、全局依赖越来越复杂时，如何把足够丰富的信息写入一个容量有限的状态？

用一个类比来说：标准Attention是“保留全部资料，需要时重新检索”，代价是资料越多，检索成本越高；Linear Attention是“提前压缩成一份固定摘要”，速度更快，但容易遗漏细节；Mamba则像是“一边阅读，一边持续更新一份有限长度的笔记”。这些方案背后长期存在一组交换条件：压缩越激进，计算越便宜；但压缩方式越简单，模型越容易损失表达能力。

Test-Time Training试图改变这组交换条件。它不再把上下文压缩视为一次固定的矩阵运算，而是把它改写成一次快速的在线学习过程。

TTT Block保留了Transformer的宏观结构。不同之处在于，原本的Attention计算被替换为一次可学习的上下文压缩与读取过程。

具体来说，TTT将当前输入中的key-value对视为一个临时的“迷你数据集”。模型在推理过程中，对一个小型内部网络进行短暂的自监督训练，让它学习从K预测V。随后，再使用更新后的内部网络处理query。换句话说，模型面对每一组新的输入时，都会进行一次轻量级的临场适配。这也是“Test-Time Training”这个名字的来源：在测试阶段，模型会针对当前输入，短暂训练一个内部模型，再利用它完成信息读取。整个内部训练过程仍然是可微的，并与外部网络一起端到端优化，不需要拆分成多个独立阶段。

线性注意力使用固定矩阵乘法压缩上下文；TTT则使用梯度下降压缩上下文。前者是固定的线性操作，后者是一种学习驱动的非线性压缩方式。只要内部模型的规模保持固定，整体复杂度仍然可以维持在线性水平，但信息压缩能力有机会进一步提高。

论文中有一张关键示意图，展示了Softmax Attention、Linear Attention和TTT之间的关系。Softmax Attention可以被理解为一个宽度随序列长度增长的内部模型；Linear Attention对应一个固定大小的线性内部模型；TTT则进一步允许内部模型成为可训练的小型网络。ViT³并不是完全抛开Attention另起炉灶，而是在同一个框架中，打开了更大的设计空间。

Softmax Attention、Linear Attention与TTT的统一视角。Softmax Attention保留完整上下文，Linear Attention将上下文压缩为固定大小的线性状态；TTT则通过在线训练，将上下文写入一个可更新的内部模型。

在空白的设计空间里画出地图

设计空间更大，意味着选择更多，也意味着更容易走错路。在ViT³之前，TTT已经在语言模型中获得关注，但视觉数据与语言数据并不相同。语言天然具有顺序和因果结构。图像则是二维空间信息，不同token之间不存在同样明确的先后关系。当TTT进入视觉领域后，一系列基础问题都需要重新回答：内部模型应该使用什么架构？损失函数如何选择？应该更新多少轮？学习率应该多大？卷积和MLP哪一种更适合视觉任务？

ViT³的重要贡献之一，是通过系统实验梳理视觉TTT的设计空间，总结出六条可以复用的实践原则，并讨论了TTT当前存在的核心挑战和未来研究方向。

观察一：内部训练损失函数的混合二阶导数不能为零。

TTT的内部训练过程要和外部网络一起做端到端优化，这意味着梯度要穿过内部训练步骤回传到外部参数。如果损失函数的混合二阶导数为零，外部参数的梯度信号就会在回传中消失。MAE（L1）损失的导数是符号函数，混合二阶导几乎处处为零——实验中它比MSE损失低了2.4个百分点。这不是一个可以通过调参弥补的小问题，它决定了某些损失函数从根本上不适用于TTT。

观察二：视觉任务适合全批次、单轮训练。

此前NLP领域的TTT实践发现，小批量顺序更新通常更有效。但在视觉任务中，全批次更新表现更好。论文给出了一个有说服力的解释：小批量顺序更新会引入因果偏置——前面的batch影响后面的梯度，后面的更新也可能覆盖前面的信息。这种偏置适合具有方向性的语言数据，但对非因果的视觉数据反而是一种负担。综合准确率、吞吐和训练稳定性，ViT³最终采用单轮全批次更新。

观察三：在稳定的前提下，更大的内部学习率效果更好。

实验表明，在训练稳定的前提下，越大的学习率效果越好。太小的学习率会让内部模型更新不充分，无法有效存储上下文信息；过大的学习率则容易导致训练不稳定。值得注意的是，在一些特殊情况下，内部学习率可以吸收为K和V的放缩。但这并不说明内部学习率的设置不重要。一个类似的例子是Softmax注意力中的√d放缩，它也能够被Q和K吸收，但是依然重要。

观察四：增加内部模型容量，性能持续提升。

一个关键问题是：TTT能不能通过简单扩大内部模型来提升序列建模能力？为了探索这一点，论文将TTT内部模型实现为一个SiLU激活函数的两层MLP，并逐渐增加其宽度。实验表明，当隐藏维度d扩到4d，准确率从78.9%提升到79.6%，没有饱和迹象。这是TTT范式的一个核心优势，即它可以在外部模型尺寸固定的条件下，通过简单地扩展内部模型尺寸来实现更好的序列建模效果。这和Linear Attention形成鲜明对比：后者通常将上下文压缩进固定大小的线性状态，表达能力和扩展空间相对有限。

随着内部模型宽度增加，TTT的性能持续提升，说明内部模型容量仍有进一步扩展空间。

观察五：当前更深的内部模型存在优化困难，需要未来工作解锁其理论潜力。

一个不符合预期的结果是，把内部模型从一层变成两层、三层，参数更多、理论容量更大，但实际准确率反而下降。论文的分析指向优化困难：更深的内部模型在TTT的短训练步数下容易欠拟合——训练损失更高，测试准确率更低。当前深层网络的理论优势在TTT的快速训练场景中难以兑现。论文同时发现，如果把输出层固定为单位矩阵（一种“约束设计”），准确率反而比完整的两层MLP更高。这进一步证实了优化瓶颈的存在。解决较深内部模型的优化问题，是TTT的一个重要未来方向。理论工作表明，神经网络的拟合能力随深度指数增长，这正是当前神经网络成功的核心原因。因此，较深的内部模型在实现高精度测试时训练序列建模中具有突出潜力。

增加内部模型深度，并没有带来更高的准确率。随着层数增加，训练损失反而更高，说明视觉TTT当前仍面临内部模型优化瓶颈。

观察六：卷积天然适合做视觉TTT的内部模型。

随着Transformer兴起，卷积不再是视觉模型中唯一占据主导地位的结构。但在TTT框架中，它获得了一个新的角色。TTT把全局上下文压缩进内部模型的权重，当内部模型是卷积时，这些权重就是卷积核——全局信息被编码在核的参数里，而卷积操作本身又提供了局部感受野。一次前向推理同时完成了全局和局部信息的整合。实验中，一个轻量级3×3深度卷积在参数量更少的情况下，比MLP baseline高出1.2个百分点。

这六条原则并不是相互独立的经验。观察一排除了一类不适用于TTT的损失函数；观察二和观察三回答“应该怎么训练”；观察四、观察五和观察六则回答“内部模型应该如何设计”。它们共同构成了一份视觉TTT的实践地图：哪些方向值得未来工作继续探索，哪些路径容易陷入优化瓶颈，哪些设计能够在效果和效率之间取得更好的平衡。

从分类到生成，ViT³的优势在高分辨率下放大

基于前面的六条观察，研究团队最终搭建出Vision Test-Time Training模型，简称ViT³。它的整体设计并不复杂。在多数Attention head中，ViT³使用一种简化的门控内部模型，在保持易于优化的同时，提供比纯线性状态更强的表达能力。另有一个head引入轻量级的3×3深度卷积，使模型在压缩全局上下文的同时，也能够利用图像中的局部空间结构。内部训练同样保持克制：每次只进行一轮全批次梯度更新。换句话说，ViT³没有在推理过程中嵌入一套繁重的训练流程，而是在控制额外成本的前提下，让内部模型完成一次快速适配。

围绕这一模块，论文构建了三类模型：ViT³采用非层级架构，对齐经典Vision Transformer；H-ViT³使用四阶段层级设计，更适合作为通用视觉骨干网络；DiT³则将同样的TTT模块放入扩散模型，用于图像生成。这组设计的目标，不是针对某一个benchmark调整出更高的数字，而是验证一个更关键的问题：TTT能否成为一种可迁移的视觉序列建模模块？

从实验结果看，答案是积极的。在图像分类任务中，ViT³展现出有竞争力的视觉表征能力。在目标检测和语义分割等需要处理更高分辨率输入的任务中，它也能够超过多种同级别的Mamba和Linear Attention模型。这说明，相比将上下文压缩进一个简单线性状态，ViT³使用更灵活的内部模型保存信息，能够在控制计算成本的同时，维持较强的建模能力。

ViT³的适用范围也没有停留在识别任务。研究团队进一步将TTT模块放入扩散模型，构建出DiT³。实验显示，在不同模型规模和patch配置下，DiT³均能够改善原始DiT的图像生成质量。这意味着，TTT可以作为一个相对独立的模块，进入不同类型的视觉架构。

但ViT³最直观的优势，仍然来自高分辨率图像。在RTX 3090上处理1248×1248图像时，单张图片包含6084个token。此时，ViT³-T的推理速度达到DeiT-T的4.6倍，GPU显存消耗降低了90.3%。

原因并不复杂。在低分辨率输入下，序列较短，标准Attention的成本仍然可以承受。随着分辨率提高，token数量快速增加，标准Softmax Attention的计算和显存开销随序列长度呈二次增长；ViT³则保持线性复杂度。两条曲线之间的差距，会随着输入规模扩大持续拉开。

对于面向真实生活场景的多模态应用而言，这一点尤其重要。当模型开始接收更高清的图片、更长的视频和更复杂的视觉上下文时，序列长度会快速增加。单纯依赖算力堆叠，很难无限持续。这也与阿里巴巴长期关注的方向形成呼应。未来的多模态交互，不只是让模型识别一张图片，而是需要它在真实环境中持续处理更加复杂的视觉信息。无论是更自然的人机交互，还是面向生活场景的AI原生应用，都需要一个更具扩展性的视觉底座。

ViT³所验证的，是另一种可能性：通过架构创新提高上下文压缩质量，在不放弃线性复杂度优势的前提下，尽量缩小与标准Transformer之间的性能差距。但ViT³还不是对Transformer的全面替代。论文给出的定位相对克制：作为一套视觉TTT baseline，它已经超过多种线性复杂度模型，并显著缩小了与主流视觉Transformer的性能差距，但仍存在进一步提升空间。另一方面，4.6倍速度提升和90.3%显存节省来自RTX 3090上的实验结果，证明了算法层面的扩展优势，但还不能直接等同于手机、车端等边缘设备上的实际部署效果。更准确地说，ViT³为端侧部署和高分辨率多模态应用打开了新的可能性，也为后续工程优化提供了基础。

算力与性能，不必互斥

过去几年，视觉模型领域逐渐形成了一种默认路径：更好的性能，往往意味着更大的模型、更多的训练数据和更高的算力成本。线性复杂度模型虽然更加高效，但通常需要付出性能代价。ViT³试图重新检验这一前提。它系统梳理了视觉TTT的设计空间，证明学习驱动的上下文压缩可以覆盖分类、检测、分割和生成任务，并在高分辨率场景下展现出更加明显的效率优势。

这也是阿里巴巴持续探索的方向。当多模态模型持续走向高清视觉、长上下文和复杂交互，行业需要回答一个更长期的问题：能力增长是否只能依赖更多算力？ViT³给出了另一种可能：答案也许不在更大的模型里，而在更聪明的架构里。