量子位
微信公众号
行业动态
UCL长视频理解新思路:视频转记忆,再让模型去检索
发布:2026-06-09 07:14:37
· 事件:2026-06-09 07:14:37
VAM团队 投稿 量子位 | 公众号 QbitAI 上下文窗口越来越长,长视频理解的问题就真的解决了吗? 事实并非如此。 当一段跨度长达51天、总时长超过100小时的视频流被喂给最强大模型,模型依然会困惑: 注意力稀释 让它在海量信息中迷失, 证据丢失 让它在回答细节问题时只能靠幻觉猜测,而 无法回溯 的黑盒特性则让答案变得不可信。 为应对这一挑战,伦敦大学学院团队刚刚开源了一项极具启发性的工作—— VAM (Visual Agentic Memory) 。
VAM团队 投稿
量子位 | 公众号 QbitAI
上下文窗口越来越长,长视频理解的问题就真的解决了吗?
事实并非如此。
当一段跨度长达51天、总时长超过100小时的视频流被喂给最强大模型,模型依然会困惑:
注意力稀释
让它在海量信息中迷失,
证据丢失
让它在回答细节问题时只能靠幻觉猜测,而
无法回溯
的黑盒特性则让答案变得不可信。
为应对这一挑战,伦敦大学学院团队刚刚开源了一项极具启发性的工作——
VAM
(Visual Agentic Memory)
。
它的核心逻辑很简单:长视频理解不应该只是“卷窗口”,而应该为大模型补齐缺失的
视觉记忆系统
。
其关键特征在于:
免训练、即插即用
:无需对模型进行任何昂贵的微调,直接作为现有多模态大模型的“逻辑外挂”。
极致压缩,证据不丢
:在51天的视频挑战中,仅保留0.06%的关键帧,却能实现极高的细节找回率。
性能反超原生
:在OVO-Bench榜单上,VAM配合Gemini 3 Flash,在同底座情况下反超了Gemini原生的端到端表现。
目前,相关论文已公开,核心代码也已全面开源。
不只是“看不完”,更是“记不住”
长视频与短视频的本质区别在于其
信息分布的稀疏性
和
后验查询的随机性
。
一段生活记录视频中,绝大多数时间都是静止或无意义的背景,而用户关心的“那个瞬间”可能发生在任何一个时刻。
研究团队指出,现有的长上下文方案面临三个致命挑战:
1、注意力稀释:
当视频帧数过多时,Transformer 的注意力机制会被大量背景噪声稀释,导致模型“看过就忘”。
2、可恢复性崩溃:
很多方案为了节省计算量,会将历史视频高度压缩为文本摘要。
但这会导致一种“语义上的近视”——模型记得发生过什么,但当你问“那个人穿什么颜色的袜子”时,因为它已经丢弃了原始图像,只能根据上下文瞎编。
3、核验成本极高:
在安防巡检或具身智能场景中,答案必须有据可查。如果模型不能精确指向某一帧画面作为证据,其应用价值将大打折扣。
△
三大范式对比
VAM构建“过目不忘”的记忆库
VAM 框架由三个紧密耦合的部分组成:
在线索引
(Online Indexing)
、
分层记忆
(Hierarchical Memory)
和
智能体检索
(Agentic Retrieval)
。
在线索引:自适应的“关键帧捕获”
为了在不丢证据的前提下极度压缩数据,VAM采用了一种非常“聪明”的在线过滤机制:
Laplacian 模糊检测
:在任何神经网络处理之前,先通过拉普拉斯方差检测画质。糊掉的、曝光异常的帧会被直接剔除,确保记忆库里的每一条证据都是清晰可读的。
Otsu-style 自适应去重
:这是VAM的硬核所在。它不使用固定的相似度阈值,而是实时分析视频流的动态特征,利用大津法
(Otsu Partitioning)
动态调整去重门槛。这意味着在画面静止时它极度节约,在画面剧烈变化时它能敏锐捕捉。
△
在线索引过滤流程
分层记忆:时空并行的“双轨制”存储
存下来的记忆不是一团乱麻,而是被组织成了
并行的时间与空间表示
:
时间侧
(索引轴)
:将连续的时刻组织成“事件
(Events)
”,并让MLLM撰写事件摘要。这就像是为视频建立了一个“目录”,支持大模型快速定位。
空间侧
(证据轴)
:保留最原始的关键帧图像和视觉Embedding。这意味着AI不仅能“想起”发生了什么,还能“回看”当时的画面。
此外,VAM还引入了
年龄感知
(Age-aware)
存储
。越近的记忆越密集,越远的记忆越精简,完美模拟了生物脑的记忆遗忘曲线。
△
时刻到事件的映射
智能体检索:化身“赛博侦探”多轮取证
检索阶段,MLLM不再是一个简单的问答机器,而是一个
自主决策的检索Agent
。
它会根据问题,执行一个多轮的循环:
观察
(Observe)
-> 假设
(Hypothesize)
-> 检查
(Inspect)
。
它会先去翻阅“目录”
(事件摘要)
,锁定嫌疑片段,然后明确发出指令:
请把第142分钟的那几张原图调出来,我要仔细看看细节。
只有当它亲眼核实了原始视觉证据后,才会给出最终答案并引用对应的时刻。
这种
“不见证据不撒网”
的逻辑,是压制幻觉的关键。
△
VAM整体架构
同底座下性能全方位跃迁
团队在两个最具挑战性的在线视频理解榜单上进行了实测,结果令人振奋。
1、OVO-Bench:外挂记忆反超原生端到端
在OVO-Bench榜单上,VAM取得了
68.41
的RT+BT平均分,排名第一。最值得关注的对比是:
Gemini 3 Flash
(原生端到端)
:67.46
VAM
(Gemini 3 Flash 作为底座)
:68.41
在底座模型完全一致的情况下,仅仅通过引入 VAM 的记忆架构,性能就提升了约 1 个百分点。
尤其在空间理解
(STU)
子项上,VAM 更是表现出了压倒性的优势,证明了显式记忆在处理细节问题时的不可替代性。
△
VAM典型应用场景
2、MM-Lifelong:51天超长跨度的终极挑战
在跨度达51天
(总时长105.6小时)
的MM-Lifelong测试中,VAM展现了惊人的效率:
存储效率
:看完这51 天的视频,VAM仅保留了6876帧图像,仅占原始视频流的0.06%。作为对比,传统的0.5 fps采样会留下19万张图,开销大出27倍。
准确率
:VAM取得了17.11%的准确率,在所有已发表的工作中位列第二,仅次于使用了更强底座
(GPT-5)
的ReMA架构。
△
MM-Lifelong存储开销对比
△
VAM执行示例
总之,VAM的出现,实际上是在挑战一种固有的偏见:即“感知模型能解决一切”。
研究团队的工作说明,对于复杂的长时序智能,
记忆管理
(Memory Management)
与
推理决策
(Decision Making)
同等重要。
这种将视觉记忆作为“一等公民”的设计思路,不仅解决了当下大模型在长视频上的短板,也为未来具身智能、个人助理等需要长期与世界交互的场景奠定了基础。
与其被动地等待更长的上下文窗口,不如主动地为模型构建一套高效、可审计的记忆基建。
论文链接:https://arxiv.org/abs/2605.16481
代码链接:https://github.com/yiliu-li/Visual-Agentic-Memory
一键三连
「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
—
完
—
我们正在招聘一名眼疾手快、关注AI的
学术编辑实习生
🎓
感兴趣的小伙伴欢迎关注 👉
了解详情
🌟 点亮星标 🌟
科技前沿进展每日见