机器之心 微信公众号 行业动态

入围CVPR 2026最佳论文决选,ViT³用「测试时训练」突破Transformer复杂度瓶颈

发布:2026-06-13 07:12:38 · 事件:2026-06-13 07:12:38
编辑|+0 CVPR 2026 刚在美国丹佛落下帷幕。16092 篇投稿中,15 篇杀入最佳论文决选 ( Best Paper Finalists) ,入围率不足千分之一。 其中一篇来自阿里巴巴 与清华大学的合作研究:《 ViT³ : Unlocking Test-Time Training in Vision 》。 它要解决的,是当前视觉模型领域最普遍的一类痛点:当图像分辨率越来越高、视频越来越长、多模态输入越来越复杂时, Transformer 逐渐算不动了。
检测
编辑|+0 CVPR 2026 刚在美国丹佛落下帷幕。16092 篇投稿中,15 篇杀入最佳论文决选 ( Best Paper Finalists) ,入围率不足千分之一。 其中一篇来自阿里巴巴 与清华大学的合作研究:《 ViT³ : Unlocking Test-Time Training in Vision 》。 它要解决的,是当前视觉模型领域最普遍的一类痛点:当图像分辨率越来越高、视频越来越长、多模态输入越来越复杂时, Transformer 逐渐算不动了。 ViT³ 给出了一条不同的路线。 在  RTX 3090 上处理 1248 × 1248 分辨率图像时,ViT³-T 的推理速度达到 DeiT-T 的 4.6 倍,GPU 显存消耗降低了 90.3%。 换句话说,它只使用接近十分之一的显存,却实现了更高的处理速度。 但这篇论文的意义,并不只是让视觉模型跑得更快。 它真正尝试改变的,是视觉模型保存和调用上下文信息的方式:不再单纯依赖固定公式压缩信息,而是在处理当前输入时,通过一次快速的在线学习,把上下文写入一个紧凑的内部模型。 这条路线建立在近年来受到关注的  Test-Time Training(TTT,测试时训练)框架之上,而 ViT³ 则进一步将其系统引入视觉领域,并梳理出一套可复用的设计原则。 论文地址: https://arxiv.org/pdf/2512.01643 代码:  https://github.com/LeapLabTHU/ViTTT 阿里巴巴 长期关注多模态大模型与新一代交互体验。随着  AI 逐渐进入真实生活场景,模型需要处理的视觉信息正在变得越来越复杂:更高清的图片、更长的视频,以及持续增长的多模态上下文。 如何在控制算力成本的同时,让模型看得更清楚、理解得更完整,已经成为多模态技术走向实际应用时必须面对的问题。 ViT³ 所探索的,正是这一底层能力。 把上下文压缩,变成一次临场学习 要理解  ViT³ 的价值,需要先回到视觉模型长期面对的一组矛盾:如何在降低计算复杂度的同时,尽可能保留上下文建模能力。 Vision Transformer 在 2020 年被提出后,迅速成为计算机视觉中最重要的主流架构之一,并持续推动图像分类、目标检测、语义分割和图像生成等任务的发展。 但标准  Softmax Attention 有一笔随着序列长度快速膨胀的账。 一张图片进入视觉  Transformer 后,通常会被拆分成一组 token。图片分辨率越高,token 数量就越多。标准 Attention 需要显式计算不同 token 之间的两两关系,其计算和显存成本会随 token 数量呈二次增长。 为便于理解,省略缩放系数后,标准  Attention 可以简写为:Softmax(QKᵀ)V 其中, Q 代表 query,K 代表 key,V 代表 value。真正带来高成本的,是 QKᵀ 形成的 N × N 矩阵。 当模型处理的是普通分辨率图片时,这笔成本尚且可控。但一旦面对超高清图片、长视频或更复杂的多模态输入, token 序列长度迅速增加,计算和显存开销就会逐渐接近成本边界。 为了降低成本,过去几年出现了多种线性复杂度方案。 Linear Attention  的思路,是改变计算顺序。它将关键计算从  Softmax(QKᵀ)V 改写为 Q(KᵀV),先把 K 和 V 压缩成一个固定大小的状态,再让 Q 从中读取信息。由于 KᵀV 的大小与序列长度 N 无关,复杂度可以降到 O(N)。 但代价也很明显:上下文被压缩进一个相对简单的线性状态。压缩效率提高了,表达能力却可能不足,实际性能往往与标准  Transformer 存在差距。 Mamba 和状态空间模型 走了另一条路。它们维护一个固定大小的隐状态,并沿着序列逐步更新。相比简单的线性映射,这种状态更新机制更灵活,但仍然需要回答同一个问题:当序列越来越长、全局依赖越来越复杂时,如何把足够丰富的信息写入一个容量有限的状态? 用一个类比来说:标准  attention 是「保留全部资料,需要时重新检索」,代价是资料越多,检索成本越高;Linear Attention 是「提前压缩成一份固定摘要」,速度更快,但容易遗漏细节;Mamba 则像是「一边阅读,一边持续更新一份有限长度的笔记」。 这些方案背后长期存在一组交换条件:压缩越激进,计算越便宜;但压缩方式越简单,模型越容易损失表达能力。 Test-Time Training 试图改变这组交换条件。 它不再把上下文压缩视为一次固定的矩阵运算,而是把它改写成一次快速的在线学习过程。 TTT Block 保留了 Transformer 的宏观结构。不同之处在于,原本的 Attention 计算被替换为一次可学习的上下文压缩与读取过程。 具体来说, TTT 将当前输入中的 key-value 对视为一个临时的「迷你数据集」。模型在推理过程中,对一个小型内部网络进行短暂的自监督训练,让它学习从 K 预测 V。随后,再使用更新后的内部网络处理 query。 换句话说,模型面对每一组新的输入时,都会进行一次轻量级的临场适配。 这也是「 Test-Time Training」这个名字的来源:在测试阶段,模型会针对当前输入,短暂训练一个内部模型,再利用它完成信息读取。 整个内部训练过程仍然是可微的,并与外部网络一起端到端优化,不需要拆分成多个独立阶段。 线性注意力使用固定矩阵乘法压缩上下文; TTT 则使用梯度下降压缩上下文。前者是固定的线性操作,后者是一种学习驱动的非线性压缩方式。只要内部模型的规模保持固定,整体复杂度仍然可以维持在线性水平,但信息压缩能力有机会进一步提高。 论文中有一张关键示意图,展示了  Softmax Attention、Linear Attention 和 TTT 之间的关系。 Softmax Attention 可以被理解为一个宽度随序列长度增长的内部模型;Linear Attention 对应一个固定大小的线性内部模型;TTT 则进一步允许内部模型成为可训练的小型网络。 ViT³ 并不是完全抛开 Attention 另起炉灶,而是在同一个框架中,打开了更大的设计空间。 Softmax Attention、Linear Attention 与 TTT 的统一视角。Softmax Attention 保留完整上下文,Linear Attention 将上下文压缩为固定大小的线性状态;TTT 则通过在线训练,将上下文写入一个可更新的内部模型。 在空白的设计空间里画出地图 设计空间更大,意味着选择更多,也意味着更容易走错路。 在  ViT³ 之前,TTT 已经在语言模型中获得关注,但视觉数据与语言数据并不相同。语言天然具有顺序和因果结构。图像则是二维空间信息,不同 token 之间不存在同样明确的先后关系。 当  TTT 进入视觉领域后,一系列基础问题都需要重新回答:内部模型应该使用什么架构?损失函数如何选择?应该更新多少轮?学习率应该多大?卷积和 MLP 哪一种更适合视觉任务? ViT³ 的重要贡献之一,是通过系统实验梳理视觉 TTT 的设计空间, 总结出六条可以复用的实践原则 ,并讨论了 TTT 当前存在的核心挑战和未来研究方向 。 观察 一: 内部训练 损失函数的混合二阶导数不能为零。 TTT 的内部训练过程要和外部网络一起做端到端优化,这意味着梯度要穿过内部训练步骤回传到外部参数。如果损失函数的混合二阶导数为零,外部参数的梯度信号就会在回传中消失。MAE(L1)损失的导数是符号函数,混合二阶导几乎处处为零——实验中它比 MSE 损失低了 2.4 个百分点。这不是一个可以通过调参弥补的小问题,它决定了某些损失函数从根本上不适用于 TTT。 观察 二:视觉任务适合全批次、单轮训练。 此前  NLP 领域的 TTT 实践发现,小批量顺序更新通常更有效。但在视觉任务中,全批次更新表现更好。论文给出了一个有说服力的解释:小批量顺序更新会引入因果偏置——前面的 batch 影响后面的梯度,后面的更新也可能覆盖前面的信息。这种偏置适合具有方向性的语言数据,但对非因果的视觉数据反而是一种负担。综合准确率、吞吐和训练稳定性,ViT³ 最终采用单轮全批次更新。 观察 三: 在稳定的前提下,更大的 内部学习率 效果更好 。 实验表明, 在训练稳定的前提下,越大的学习率效果越好 。太小的学习率会让内部模型 更新不充分,无法有效存储上下文信息;过 大的学习率则容易导致训练不稳定。 值得注意的是,在一些特殊情况下,内部学习率可以吸收为   K  和   V  的放缩。但是这并不内说明内部学习率的设置不重要。一个类似的例子是 Softmax注意力中的     放缩,它也能够被   Q  和   K  吸收,但是依然重要。 观察 四:增加内部模型容量,性能持续提升。 一个关键问题 是 : TTT 能不能通过 简单 扩大内部模型来 提升序列建模能力 ? 为了探索这一点,论文 将   TTT   内部模型实现为一个   SiLU   激活函数的两层   MLP,并逐渐 增加其 宽度。实验表明, 当 隐藏维度  d 扩到 4d,准确率从 78.9%  提升 到  79.6%,没有饱和迹象。 这是 TTT 范式的一个核心优势,即它可以 在外部模型尺寸固定的条件下,通过简单地扩展内部模型尺寸来实现更好的序列建模效果 。 这和  Linear Attention 形成鲜明对比:后者通常将上下文压缩进固定大小的线性状态,表达能力和扩展空间相对有限。 随着内部模型宽度增加, TTT 的性能持续提升,说明内部模型容量仍有进一步扩展空间。 观察 五: 当前 更深的内部模型 存在优化困难,需要未来工作解锁其理论潜力 。 一个不符合预期的结果是, 把内部模型从一层变成两层、三层,参数更多、理论容量更大,但实际准确率反而下降。论文的分析指向优化困难:更深的内部模型在  TTT 的短训练步数下容易欠拟合——训练损失更高,测试准确率更低。 当前 深层网络的理论优势在  TTT 的快速训练场景中 难以 兑现。 论文同时发现,如果把输出层固定为单位矩阵(一种「约束设计」),准确率反而比完整的两层  MLP 更高。这进一步证实了优化瓶颈的存在。 解决较深内部模型的优化问题,是  TTT 的一个重要未来方向。理论工作表明,神经网络的拟合能力随深度指数增长,这正是当前神经网络成功的核心原因。因此,较深的内部模型在实现高精度测试时训练序列建模中具有突出潜力。 增加内部模型深度,并没有带来更高的准确率。随着层数增加,训练损失反而更高,说明视觉  TTT 当前仍面临内部模型优化瓶颈。 观察 六:卷积天然适合做视觉  TTT 的内部模型。 随着  Transformer 兴起,卷积不再是视觉模型中唯一占据主导地位的结构。但在 TTT 框架中,它获得了一个新的角色。TTT 把全局上下文压缩进内部模型的权重,当内部模型是卷积时,这些权重就是卷积核——全局信息被编码在核的参数里,而卷积操作本身又提供了局部感受野。一次前向推理同时完成了全局和局部信息的整合。实验中,一个轻量级 3 × 3 深度卷积在参数量更少的情况下,比 MLP baseline 高出 1.2 个百分点。 这六条原则并不是相互独立的经验。 观察 一排除了一类不适用 于 TTT  的损失函数 ; 观察 二和 观察 三 回答「应该怎么训练」; 观察 四、 观察 五和 观察 六 则回答「内部模型应该如何设计」。 它们共同构成了一份视觉  TTT 的实践地图: 哪些方向值得 未来工作 继续探索 ,哪些路径容易陷入优化瓶颈,哪些设计能够在效果和效率之间取得更好的平衡。 从分类到生成, ViT³ 的优势在高分辨率下放大 基于前面的六条 观察 ,研究团队最终搭建出  Vision Test-Time Training 模型,简称 ViT³。 它的整体设计并不复杂。 在多数  Attention head 中,ViT³ 使用一种简化的门控内部模型,在保持易于优化的同时,提供比纯线性状态更强的表达能力。另有一个 head 引入轻量级的 3 × 3 深度卷积,使模型在压缩全局上下文的同时,也能够利用图像中的局部空间结构。 内部训练同样保持克制:每次只进行一轮全批次梯度更新。换句话说, ViT³ 没有在推理过程中嵌入一套繁重的训练流程,而是在控制额外成本的前提下,让内部模型完成一次快速适配。 围绕这一模块,论文构建了三类模型: ViT³ 采用非层级架构,对齐经典 Vision Transformer;H-ViT³ 使用四阶段层级设计,更适合作为通用视觉骨干网络;DiT³ 则将同样的 TTT 模块放入扩散模型,用于图像生成。 这组设计的目标,不是针对某一个  benchmark 调整出更高的数字,而是验证一个更关键的问题:TTT 能否成为一种可迁移的视觉序列建模模块? 从实验结果看,答案是积极的。 在图像分类任务中, ViT³ 展现出有竞争力的视觉表征能力。在目标检测和语义分割等需要处理更高分辨率输入的任务中,它也能够超过多种同级别的 Mamba 和 Linear Attention 模型。 这说明,相比将上下文压缩进一个简单线性状态, ViT³ 使用更灵活的内部模型保存信息,能够在控制计算成本的同时,维持较强的建模能力。 ViT³ 的适用范围也没有停留在识别任务。 研究团队进一步将  TTT 模块放入扩散模型,构建出 DiT³。实验显示,在不同模型规模和 patch 配置下,DiT³ 均能够改善原始 DiT 的图像生成质量。 这意味着, TTT 可以作为一个相对独立的模块,进入不同类型的视觉架构。 但  ViT³ 最直观的优势,仍然来自高分辨率图像。 在  RTX 3090 上处理 1248 × 1248 图像时,单张图片包含 6084 个 token。此时,ViT³-T 的推理速度达到 DeiT-T 的 4.6 倍,GPU 显存消耗降低了 90.3%。 原因并不复杂。 在低分辨率输入下,序列较短,标准  Attention 的成本仍然可以承受。随着分辨率提高,token 数量快速增加,标准 Softmax Attention 的计算和显存开销随序列长度呈二次增长;ViT³ 则保持线性复杂度。两条曲线之间的差距,会随着输入规模扩大持续拉开。 对于面向真实生活场景的多模态应用而言,这一点尤其重要。 当模型开始接收更高清的图片、更长的视频和更复杂的视觉上下文时,序列长度会快速增加。单纯依赖算力堆叠,很难无限持续。 这也与阿里巴巴 长期关注的方向形成呼应。 未来的多模态交互,不只是让模型识别一张图片,而是需要它在真实环境中持续处理更加复杂的视觉信息。无论是更自然的人机交互,还是面向生活场景的  AI 原生应用,都需要一个更具扩展性的视觉底座。 ViT³ 所验证的,是另一种可能性:通过架构创新提高上下文压缩质量,在不放弃线性复杂度优势的前提下,尽量缩小与标准 Transformer 之间的性能差距。 但  ViT³ 还不是对 Transformer 的全面替代。 论文给出的定位相对克制: 作为一套视觉  TTT baseline,它已经超过多种线性复杂度模型,并显著缩小了与主流视觉 Transformer 的性能差距,但仍存在进一步提升空间。 另一方面, 4.6 倍速度提升和 90.3% 显存节省来自 RTX 3090 上的实验结果,证明了算法层面的扩展优势,但还不能直接等同于手机、车端等边缘设备上的实际部署效果。 更准确地说, ViT³ 为端侧部署和高分辨率多模态应用打开了新的可能性,也为后续工程优化提供了基础。 算力与性能,不必互斥 过去几年,视觉模型领域逐渐形成了一种默认路径:更好的性能,往往意味着更大的模型、更多的训练数据和更高的算力成本。 线性复杂度模型虽然更加高效,但通常需要付出性能代价。 ViT³ 试图重新检验这一前提。 它系统梳理了视觉  TTT 的设计空间,证明学习驱动的上下文压缩可以覆盖分类、检测、分割和生成任务,并在高分辨率场景下展现出更加明显的效率优势。 这也是阿里巴巴 持续探索的方向。 当多模态模型持续走向高清视觉、长上下文和复杂交互,行业需要回答一个更长期的问题:能力增长是否只能依赖更多算力? ViT³ 给出了另一种可能:答案也许不在更大的模型里,而在更聪明的架构里。 © THE END  转载请联系本公众号获得授权 投稿或寻求报道:liyazhou@jiqizhixin.com
← 返回资讯列表