机器之心微信公众号行业动态
入围CVPR 2026最佳论文决选，ViT³用「测试时训练」突破Transformer复杂度瓶颈

发布：2026-06-13 07:12:38 · 事件：2026-06-13 07:12:38
编辑｜+0 CVPR 2026 刚在美国丹佛落下帷幕。16092 篇投稿中，15 篇杀入最佳论文决选（ Best Paper Finalists），入围率不足千分之一。其中一篇来自阿里巴巴与清华大学的合作研究：《 ViT³ : Unlocking Test-Time Training in Vision 》。它要解决的，是当前视觉模型领域最普遍的一类痛点：当图像分辨率越来越高、视频越来越长、多模态输入越来越复杂时， Transformer 逐渐算不动了。
检测
编辑｜+0

CVPR 2026 刚在美国丹佛落下帷幕。16092 篇投稿中，15 篇杀入最佳论文决选

（

Best Paper Finalists）

，入围率不足千分之一。

其中一篇来自阿里巴巴

与清华大学的合作研究：《

ViT³ : Unlocking Test-Time Training in Vision

》。

它要解决的，是当前视觉模型领域最普遍的一类痛点：当图像分辨率越来越高、视频越来越长、多模态输入越来越复杂时，

Transformer 逐渐算不动了。

ViT³ 给出了一条不同的路线。

在

&nbsp;RTX 3090 上处理 1248 × 1248 分辨率图像时，ViT³-T 的推理速度达到 DeiT-T 的 4.6 倍，GPU 显存消耗降低了 90.3%。

换句话说，它只使用接近十分之一的显存，却实现了更高的处理速度。

但这篇论文的意义，并不只是让视觉模型跑得更快。

它真正尝试改变的，是视觉模型保存和调用上下文信息的方式：不再单纯依赖固定公式压缩信息，而是在处理当前输入时，通过一次快速的在线学习，把上下文写入一个紧凑的内部模型。

这条路线建立在近年来受到关注的

&nbsp;Test-Time Training（TTT，测试时训练）框架之上，而 ViT³ 则进一步将其系统引入视觉领域，并梳理出一套可复用的设计原则。

论文地址：

https://arxiv.org/pdf/2512.01643

代码：

&nbsp;https://github.com/LeapLabTHU/ViTTT

阿里巴巴

长期关注多模态大模型与新一代交互体验。随着

&nbsp;AI 逐渐进入真实生活场景，模型需要处理的视觉信息正在变得越来越复杂：更高清的图片、更长的视频，以及持续增长的多模态上下文。

如何在控制算力成本的同时，让模型看得更清楚、理解得更完整，已经成为多模态技术走向实际应用时必须面对的问题。

ViT³ 所探索的，正是这一底层能力。

把上下文压缩，变成一次临场学习

要理解

&nbsp;ViT³ 的价值，需要先回到视觉模型长期面对的一组矛盾：如何在降低计算复杂度的同时，尽可能保留上下文建模能力。

Vision Transformer 在 2020 年被提出后，迅速成为计算机视觉中最重要的主流架构之一，并持续推动图像分类、目标检测、语义分割和图像生成等任务的发展。

但标准

&nbsp;Softmax Attention 有一笔随着序列长度快速膨胀的账。

一张图片进入视觉

&nbsp;Transformer 后，通常会被拆分成一组 token。图片分辨率越高，token 数量就越多。标准 Attention 需要显式计算不同 token 之间的两两关系，其计算和显存成本会随 token 数量呈二次增长。

为便于理解，省略缩放系数后，标准

&nbsp;Attention 可以简写为：Softmax(QKᵀ)V

其中，

Q 代表 query，K 代表 key，V 代表 value。真正带来高成本的，是 QKᵀ 形成的 N × N 矩阵。

当模型处理的是普通分辨率图片时，这笔成本尚且可控。但一旦面对超高清图片、长视频或更复杂的多模态输入，

token 序列长度迅速增加，计算和显存开销就会逐渐接近成本边界。

为了降低成本，过去几年出现了多种线性复杂度方案。

Linear Attention&nbsp;

的思路，是改变计算顺序。它将关键计算从

&nbsp;Softmax(QKᵀ)V 改写为 Q(KᵀV)，先把 K 和 V 压缩成一个固定大小的状态，再让 Q 从中读取信息。由于 KᵀV 的大小与序列长度 N 无关，复杂度可以降到 O(N)。

但代价也很明显：上下文被压缩进一个相对简单的线性状态。压缩效率提高了，表达能力却可能不足，实际性能往往与标准

&nbsp;Transformer 存在差距。

Mamba 和状态空间模型

走了另一条路。它们维护一个固定大小的隐状态，并沿着序列逐步更新。相比简单的线性映射，这种状态更新机制更灵活，但仍然需要回答同一个问题：当序列越来越长、全局依赖越来越复杂时，如何把足够丰富的信息写入一个容量有限的状态？

用一个类比来说：标准

&nbsp;attention 是「保留全部资料，需要时重新检索」，代价是资料越多，检索成本越高；Linear Attention 是「提前压缩成一份固定摘要」，速度更快，但容易遗漏细节；Mamba 则像是「一边阅读，一边持续更新一份有限长度的笔记」。

这些方案背后长期存在一组交换条件：压缩越激进，计算越便宜；但压缩方式越简单，模型越容易损失表达能力。

Test-Time Training 试图改变这组交换条件。

它不再把上下文压缩视为一次固定的矩阵运算，而是把它改写成一次快速的在线学习过程。

TTT Block 保留了 Transformer 的宏观结构。不同之处在于，原本的 Attention 计算被替换为一次可学习的上下文压缩与读取过程。

具体来说，

TTT 将当前输入中的 key-value 对视为一个临时的「迷你数据集」。模型在推理过程中，对一个小型内部网络进行短暂的自监督训练，让它学习从 K 预测 V。随后，再使用更新后的内部网络处理 query。

换句话说，模型面对每一组新的输入时，都会进行一次轻量级的临场适配。

这也是「

Test-Time Training」这个名字的来源：在测试阶段，模型会针对当前输入，短暂训练一个内部模型，再利用它完成信息读取。

整个内部训练过程仍然是可微的，并与外部网络一起端到端优化，不需要拆分成多个独立阶段。

线性注意力使用固定矩阵乘法压缩上下文；

TTT 则使用梯度下降压缩上下文。前者是固定的线性操作，后者是一种学习驱动的非线性压缩方式。只要内部模型的规模保持固定，整体复杂度仍然可以维持在线性水平，但信息压缩能力有机会进一步提高。

论文中有一张关键示意图，展示了

&nbsp;Softmax Attention、Linear Attention 和 TTT 之间的关系。

Softmax Attention 可以被理解为一个宽度随序列长度增长的内部模型；Linear Attention 对应一个固定大小的线性内部模型；TTT 则进一步允许内部模型成为可训练的小型网络。

ViT³ 并不是完全抛开 Attention 另起炉灶，而是在同一个框架中，打开了更大的设计空间。

Softmax Attention、Linear Attention 与 TTT 的统一视角。Softmax Attention 保留完整上下文，Linear Attention 将上下文压缩为固定大小的线性状态；TTT 则通过在线训练，将上下文写入一个可更新的内部模型。

在空白的设计空间里画出地图

设计空间更大，意味着选择更多，也意味着更容易走错路。

在

&nbsp;ViT³ 之前，TTT 已经在语言模型中获得关注，但视觉数据与语言数据并不相同。语言天然具有顺序和因果结构。图像则是二维空间信息，不同 token 之间不存在同样明确的先后关系。

当

&nbsp;TTT 进入视觉领域后，一系列基础问题都需要重新回答：内部模型应该使用什么架构？损失函数如何选择？应该更新多少轮？学习率应该多大？卷积和 MLP 哪一种更适合视觉任务？

ViT³ 的重要贡献之一，是通过系统实验梳理视觉 TTT 的设计空间，

总结出六条可以复用的实践原则

，并讨论了

TTT 当前存在的核心挑战和未来研究方向

。

观察

一：

内部训练

损失函数的混合二阶导数不能为零。

TTT 的内部训练过程要和外部网络一起做端到端优化，这意味着梯度要穿过内部训练步骤回传到外部参数。如果损失函数的混合二阶导数为零，外部参数的梯度信号就会在回传中消失。MAE（L1）损失的导数是符号函数，混合二阶导几乎处处为零——实验中它比 MSE 损失低了 2.4 个百分点。这不是一个可以通过调参弥补的小问题，它决定了某些损失函数从根本上不适用于 TTT。

观察

二：视觉任务适合全批次、单轮训练。

此前

&nbsp;NLP 领域的 TTT 实践发现，小批量顺序更新通常更有效。但在视觉任务中，全批次更新表现更好。论文给出了一个有说服力的解释：小批量顺序更新会引入因果偏置——前面的 batch 影响后面的梯度，后面的更新也可能覆盖前面的信息。这种偏置适合具有方向性的语言数据，但对非因果的视觉数据反而是一种负担。综合准确率、吞吐和训练稳定性，ViT³ 最终采用单轮全批次更新。

观察

三：

在稳定的前提下，更大的

内部学习率

效果更好

。

实验表明，

在训练稳定的前提下，越大的学习率效果越好

。太小的学习率会让内部模型

更新不充分，无法有效存储上下文信息；过

大的学习率则容易导致训练不稳定。

值得注意的是，在一些特殊情况下，内部学习率可以吸收为

&nbsp;

K&nbsp;

和

&nbsp;

V&nbsp;

的放缩。但是这并不内说明内部学习率的设置不重要。一个类似的例子是

Softmax注意力中的

&nbsp;

&nbsp;

放缩，它也能够被

&nbsp;

Q&nbsp;

和

&nbsp;

K&nbsp;

吸收，但是依然重要。

观察

四：增加内部模型容量，性能持续提升。

一个关键问题

是

：

TTT 能不能通过

简单

扩大内部模型来

提升序列建模能力

？

为了探索这一点，论文

将

&nbsp;

TTT

&nbsp;

内部模型实现为一个

&nbsp;

SiLU

&nbsp;

激活函数的两层

&nbsp;

MLP，并逐渐

增加其

宽度。实验表明，

当

隐藏维度

&nbsp;d 扩到 4d，准确率从 78.9%&nbsp;

提升

到

&nbsp;79.6%，没有饱和迹象。

这是

TTT 范式的一个核心优势，即它可以

在外部模型尺寸固定的条件下，通过简单地扩展内部模型尺寸来实现更好的序列建模效果

。

这和

&nbsp;Linear Attention 形成鲜明对比：后者通常将上下文压缩进固定大小的线性状态，表达能力和扩展空间相对有限。

随着内部模型宽度增加，

TTT 的性能持续提升，说明内部模型容量仍有进一步扩展空间。

观察

五：

当前

更深的内部模型

存在优化困难，需要未来工作解锁其理论潜力

。

一个不符合预期的结果是，

把内部模型从一层变成两层、三层，参数更多、理论容量更大，但实际准确率反而下降。论文的分析指向优化困难：更深的内部模型在

&nbsp;TTT 的短训练步数下容易欠拟合——训练损失更高，测试准确率更低。

当前

深层网络的理论优势在

&nbsp;TTT 的快速训练场景中

难以

兑现。

论文同时发现，如果把输出层固定为单位矩阵（一种「约束设计」），准确率反而比完整的两层

&nbsp;MLP 更高。这进一步证实了优化瓶颈的存在。

解决较深内部模型的优化问题，是

&nbsp;TTT 的一个重要未来方向。理论工作表明，神经网络的拟合能力随深度指数增长，这正是当前神经网络成功的核心原因。因此，较深的内部模型在实现高精度测试时训练序列建模中具有突出潜力。

增加内部模型深度，并没有带来更高的准确率。随着层数增加，训练损失反而更高，说明视觉

&nbsp;TTT 当前仍面临内部模型优化瓶颈。

观察

六：卷积天然适合做视觉

&nbsp;TTT 的内部模型。

随着

&nbsp;Transformer 兴起，卷积不再是视觉模型中唯一占据主导地位的结构。但在 TTT 框架中，它获得了一个新的角色。TTT 把全局上下文压缩进内部模型的权重，当内部模型是卷积时，这些权重就是卷积核——全局信息被编码在核的参数里，而卷积操作本身又提供了局部感受野。一次前向推理同时完成了全局和局部信息的整合。实验中，一个轻量级 3 × 3 深度卷积在参数量更少的情况下，比 MLP baseline 高出 1.2 个百分点。

这六条原则并不是相互独立的经验。

观察

一排除了一类不适用

于

TTT&nbsp;

的损失函数

；

观察

二和

观察

三

回答「应该怎么训练」；

观察

四、

观察

五和

观察

六

则回答「内部模型应该如何设计」。

它们共同构成了一份视觉

&nbsp;TTT 的实践地图：

哪些方向值得

未来工作

继续探索

，哪些路径容易陷入优化瓶颈，哪些设计能够在效果和效率之间取得更好的平衡。

从分类到生成，

ViT³ 的优势在高分辨率下放大

基于前面的六条

观察

，研究团队最终搭建出

&nbsp;Vision Test-Time Training 模型，简称 ViT³。

它的整体设计并不复杂。

在多数

&nbsp;Attention head 中，ViT³ 使用一种简化的门控内部模型，在保持易于优化的同时，提供比纯线性状态更强的表达能力。另有一个 head 引入轻量级的 3 × 3 深度卷积，使模型在压缩全局上下文的同时，也能够利用图像中的局部空间结构。

内部训练同样保持克制：每次只进行一轮全批次梯度更新。换句话说，

ViT³ 没有在推理过程中嵌入一套繁重的训练流程，而是在控制额外成本的前提下，让内部模型完成一次快速适配。

围绕这一模块，论文构建了三类模型：

ViT³ 采用非层级架构，对齐经典 Vision Transformer；H-ViT³ 使用四阶段层级设计，更适合作为通用视觉骨干网络；DiT³ 则将同样的 TTT 模块放入扩散模型，用于图像生成。

这组设计的目标，不是针对某一个

&nbsp;benchmark 调整出更高的数字，而是验证一个更关键的问题：TTT 能否成为一种可迁移的视觉序列建模模块？

从实验结果看，答案是积极的。

在图像分类任务中，

ViT³ 展现出有竞争力的视觉表征能力。在目标检测和语义分割等需要处理更高分辨率输入的任务中，它也能够超过多种同级别的 Mamba 和 Linear Attention 模型。

这说明，相比将上下文压缩进一个简单线性状态，

ViT³ 使用更灵活的内部模型保存信息，能够在控制计算成本的同时，维持较强的建模能力。

ViT³ 的适用范围也没有停留在识别任务。

研究团队进一步将

&nbsp;TTT 模块放入扩散模型，构建出 DiT³。实验显示，在不同模型规模和 patch 配置下，DiT³ 均能够改善原始 DiT 的图像生成质量。

这意味着，

TTT 可以作为一个相对独立的模块，进入不同类型的视觉架构。

但

&nbsp;ViT³ 最直观的优势，仍然来自高分辨率图像。

在

&nbsp;RTX 3090 上处理 1248 × 1248 图像时，单张图片包含 6084 个 token。此时，ViT³-T 的推理速度达到 DeiT-T 的 4.6 倍，GPU 显存消耗降低了 90.3%。

原因并不复杂。

在低分辨率输入下，序列较短，标准

&nbsp;Attention 的成本仍然可以承受。随着分辨率提高，token 数量快速增加，标准 Softmax Attention 的计算和显存开销随序列长度呈二次增长；ViT³ 则保持线性复杂度。两条曲线之间的差距，会随着输入规模扩大持续拉开。

对于面向真实生活场景的多模态应用而言，这一点尤其重要。

当模型开始接收更高清的图片、更长的视频和更复杂的视觉上下文时，序列长度会快速增加。单纯依赖算力堆叠，很难无限持续。

这也与阿里巴巴

长期关注的方向形成呼应。

未来的多模态交互，不只是让模型识别一张图片，而是需要它在真实环境中持续处理更加复杂的视觉信息。无论是更自然的人机交互，还是面向生活场景的

&nbsp;AI 原生应用，都需要一个更具扩展性的视觉底座。

ViT³ 所验证的，是另一种可能性：通过架构创新提高上下文压缩质量，在不放弃线性复杂度优势的前提下，尽量缩小与标准 Transformer 之间的性能差距。

但

&nbsp;ViT³ 还不是对 Transformer 的全面替代。

论文给出的定位相对克制：

作为一套视觉

&nbsp;TTT baseline，它已经超过多种线性复杂度模型，并显著缩小了与主流视觉 Transformer 的性能差距，但仍存在进一步提升空间。

另一方面，

4.6 倍速度提升和 90.3% 显存节省来自 RTX 3090 上的实验结果，证明了算法层面的扩展优势，但还不能直接等同于手机、车端等边缘设备上的实际部署效果。

更准确地说，

ViT³ 为端侧部署和高分辨率多模态应用打开了新的可能性，也为后续工程优化提供了基础。

算力与性能，不必互斥

过去几年，视觉模型领域逐渐形成了一种默认路径：更好的性能，往往意味着更大的模型、更多的训练数据和更高的算力成本。

线性复杂度模型虽然更加高效，但通常需要付出性能代价。

ViT³ 试图重新检验这一前提。

它系统梳理了视觉

&nbsp;TTT 的设计空间，证明学习驱动的上下文压缩可以覆盖分类、检测、分割和生成任务，并在高分辨率场景下展现出更加明显的效率优势。

这也是阿里巴巴

持续探索的方向。

当多模态模型持续走向高清视觉、长上下文和复杂交互，行业需要回答一个更长期的问题：能力增长是否只能依赖更多算力？

ViT³ 给出了另一种可能：答案也许不在更大的模型里，而在更聪明的架构里。

© THE END&nbsp;

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com
← 返回资讯列表