量子位微信公众号行业动态

UCL长视频理解新思路：视频转记忆，再让模型去检索

发布：2026-06-09 07:14:37 · 事件：2026-06-09 07:14:37

VAM团队投稿量子位 | 公众号 QbitAI 上下文窗口越来越长，长视频理解的问题就真的解决了吗？事实并非如此。当一段跨度长达51天、总时长超过100小时的视频流被喂给最强大模型，模型依然会困惑：注意力稀释让它在海量信息中迷失，证据丢失让它在回答细节问题时只能靠幻觉猜测，而无法回溯的黑盒特性则让答案变得不可信。为应对这一挑战，伦敦大学学院团队刚刚开源了一项极具启发性的工作—— VAM （Visual Agentic Memory）。

VAM团队 投稿

量子位 | 公众号 QbitAI

上下文窗口越来越长，长视频理解的问题就真的解决了吗？

事实并非如此。

当一段跨度长达51天、总时长超过100小时的视频流被喂给最强大模型，模型依然会困惑：

注意力稀释

让它在海量信息中迷失，

证据丢失

让它在回答细节问题时只能靠幻觉猜测，而

无法回溯

的黑盒特性则让答案变得不可信。

为应对这一挑战，伦敦大学学院团队刚刚开源了一项极具启发性的工作——

VAM

（Visual Agentic Memory）

。

它的核心逻辑很简单：长视频理解不应该只是“卷窗口”，而应该为大模型补齐缺失的

视觉记忆系统

。

其关键特征在于：

免训练、即插即用

：无需对模型进行任何昂贵的微调，直接作为现有多模态大模型的“逻辑外挂”。

极致压缩，证据不丢

：在51天的视频挑战中，仅保留0.06%的关键帧，却能实现极高的细节找回率。

性能反超原生

：在OVO-Bench榜单上，VAM配合Gemini 3 Flash，在同底座情况下反超了Gemini原生的端到端表现。

目前，相关论文已公开，核心代码也已全面开源。

不只是“看不完”，更是“记不住”

长视频与短视频的本质区别在于其

信息分布的稀疏性

和

后验查询的随机性

。

一段生活记录视频中，绝大多数时间都是静止或无意义的背景，而用户关心的“那个瞬间”可能发生在任何一个时刻。

研究团队指出，现有的长上下文方案面临三个致命挑战：

1、注意力稀释：

当视频帧数过多时，Transformer 的注意力机制会被大量背景噪声稀释，导致模型“看过就忘”。

2、可恢复性崩溃：

很多方案为了节省计算量，会将历史视频高度压缩为文本摘要。

但这会导致一种“语义上的近视”——模型记得发生过什么，但当你问“那个人穿什么颜色的袜子”时，因为它已经丢弃了原始图像，只能根据上下文瞎编。

3、核验成本极高：

在安防巡检或具身智能场景中，答案必须有据可查。如果模型不能精确指向某一帧画面作为证据，其应用价值将大打折扣。

△

三大范式对比

VAM构建“过目不忘”的记忆库

VAM 框架由三个紧密耦合的部分组成：

在线索引

（Online Indexing）

、

分层记忆

（Hierarchical Memory）

和

智能体检索

（Agentic Retrieval）

。

在线索引：自适应的“关键帧捕获”

为了在不丢证据的前提下极度压缩数据，VAM采用了一种非常“聪明”的在线过滤机制：

Laplacian 模糊检测

：在任何神经网络处理之前，先通过拉普拉斯方差检测画质。糊掉的、曝光异常的帧会被直接剔除，确保记忆库里的每一条证据都是清晰可读的。

Otsu-style 自适应去重

：这是VAM的硬核所在。它不使用固定的相似度阈值，而是实时分析视频流的动态特征，利用大津法

（Otsu Partitioning）

动态调整去重门槛。这意味着在画面静止时它极度节约，在画面剧烈变化时它能敏锐捕捉。

△

在线索引过滤流程

分层记忆：时空并行的“双轨制”存储

存下来的记忆不是一团乱麻，而是被组织成了

并行的时间与空间表示

：

时间侧

（索引轴）

：将连续的时刻组织成“事件

（Events）

”，并让MLLM撰写事件摘要。这就像是为视频建立了一个“目录”，支持大模型快速定位。

空间侧

（证据轴）

：保留最原始的关键帧图像和视觉Embedding。这意味着AI不仅能“想起”发生了什么，还能“回看”当时的画面。

此外，VAM还引入了

年龄感知

（Age-aware）

存储

。越近的记忆越密集，越远的记忆越精简，完美模拟了生物脑的记忆遗忘曲线。

△

时刻到事件的映射

智能体检索：化身“赛博侦探”多轮取证

检索阶段，MLLM不再是一个简单的问答机器，而是一个

自主决策的检索Agent

。

它会根据问题，执行一个多轮的循环：

观察

（Observe）

&nbsp;-&gt; 假设

（Hypothesize）&nbsp;

-&gt; 检查

（Inspect）

。

它会先去翻阅“目录”

（事件摘要）

，锁定嫌疑片段，然后明确发出指令：

请把第142分钟的那几张原图调出来，我要仔细看看细节。

只有当它亲眼核实了原始视觉证据后，才会给出最终答案并引用对应的时刻。

这种

“不见证据不撒网”

的逻辑，是压制幻觉的关键。

△

VAM整体架构

同底座下性能全方位跃迁

团队在两个最具挑战性的在线视频理解榜单上进行了实测，结果令人振奋。

1、OVO-Bench：外挂记忆反超原生端到端

在OVO-Bench榜单上，VAM取得了

68.41

的RT+BT平均分，排名第一。最值得关注的对比是：

Gemini 3 Flash

&nbsp;(原生端到端)

：67.46

VAM

&nbsp;(Gemini 3 Flash 作为底座)

：68.41

在底座模型完全一致的情况下，仅仅通过引入 VAM 的记忆架构，性能就提升了约 1 个百分点。&nbsp;

尤其在空间理解

（STU）

子项上，VAM 更是表现出了压倒性的优势，证明了显式记忆在处理细节问题时的不可替代性。

△

VAM典型应用场景

2、MM-Lifelong：51天超长跨度的终极挑战

在跨度达51天

（总时长105.6小时）

的MM-Lifelong测试中，VAM展现了惊人的效率：

存储效率

：看完这51 天的视频，VAM仅保留了6876帧图像，仅占原始视频流的0.06%。作为对比，传统的0.5 fps采样会留下19万张图，开销大出27倍。

准确率

：VAM取得了17.11%的准确率，在所有已发表的工作中位列第二，仅次于使用了更强底座

（GPT-5）

的ReMA架构。

△

MM-Lifelong存储开销对比

△

VAM执行示例

总之，VAM的出现，实际上是在挑战一种固有的偏见：即“感知模型能解决一切”。

研究团队的工作说明，对于复杂的长时序智能，

记忆管理

（Memory Management）

与

推理决策

（Decision Making）

同等重要。

这种将视觉记忆作为“一等公民”的设计思路，不仅解决了当下大模型在长视频上的短板，也为未来具身智能、个人助理等需要长期与世界交互的场景奠定了基础。

与其被动地等待更长的上下文窗口，不如主动地为模型构建一套高效、可审计的记忆基建。

论文链接：https://arxiv.org/abs/2605.16481

代码链接：https://github.com/yiliu-li/Visual-Agentic-Memory

一键三连

「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

—&nbsp;

完

&nbsp;—

我们正在招聘一名眼疾手快、关注AI的

学术编辑实习生

&nbsp;

🎓

感兴趣的小伙伴欢迎关注 👉&nbsp;
了解详情

🌟 点亮星标 🌟

科技前沿进展每日见

← 上一篇

腾讯想让企业打开AI的方式只剩一个

全链条·全场景·智构未来：中车时代电气携光储风氢全域矩阵亮相SNEC 2026

← 返回资讯列表