量子位 微信公众号 行业动态

UCL长视频理解新思路:视频转记忆,再让模型去检索

发布:2026-06-09 07:14:37 · 事件:2026-06-09 07:14:37
VAM团队 投稿 量子位 | 公众号 QbitAI 上下文窗口越来越长,长视频理解的问题就真的解决了吗? 事实并非如此。 当一段跨度长达51天、总时长超过100小时的视频流被喂给最强大模型,模型依然会困惑: 注意力稀释 让它在海量信息中迷失, 证据丢失 让它在回答细节问题时只能靠幻觉猜测,而 无法回溯 的黑盒特性则让答案变得不可信。 为应对这一挑战,伦敦大学学院团队刚刚开源了一项极具启发性的工作—— VAM (Visual Agentic Memory) 。
VAM团队 投稿 量子位 | 公众号 QbitAI 上下文窗口越来越长,长视频理解的问题就真的解决了吗? 事实并非如此。 当一段跨度长达51天、总时长超过100小时的视频流被喂给最强大模型,模型依然会困惑: 注意力稀释 让它在海量信息中迷失, 证据丢失 让它在回答细节问题时只能靠幻觉猜测,而 无法回溯 的黑盒特性则让答案变得不可信。 为应对这一挑战,伦敦大学学院团队刚刚开源了一项极具启发性的工作—— VAM (Visual Agentic Memory) 。 它的核心逻辑很简单:长视频理解不应该只是“卷窗口”,而应该为大模型补齐缺失的 视觉记忆系统 。 其关键特征在于: 免训练、即插即用 :无需对模型进行任何昂贵的微调,直接作为现有多模态大模型的“逻辑外挂”。 极致压缩,证据不丢 :在51天的视频挑战中,仅保留0.06%的关键帧,却能实现极高的细节找回率。 性能反超原生 :在OVO-Bench榜单上,VAM配合Gemini 3 Flash,在同底座情况下反超了Gemini原生的端到端表现。 目前,相关论文已公开,核心代码也已全面开源。 不只是“看不完”,更是“记不住” 长视频与短视频的本质区别在于其 信息分布的稀疏性 和 后验查询的随机性 。 一段生活记录视频中,绝大多数时间都是静止或无意义的背景,而用户关心的“那个瞬间”可能发生在任何一个时刻。 研究团队指出,现有的长上下文方案面临三个致命挑战: 1、注意力稀释: 当视频帧数过多时,Transformer 的注意力机制会被大量背景噪声稀释,导致模型“看过就忘”。 2、可恢复性崩溃: 很多方案为了节省计算量,会将历史视频高度压缩为文本摘要。 但这会导致一种“语义上的近视”——模型记得发生过什么,但当你问“那个人穿什么颜色的袜子”时,因为它已经丢弃了原始图像,只能根据上下文瞎编。 3、核验成本极高: 在安防巡检或具身智能场景中,答案必须有据可查。如果模型不能精确指向某一帧画面作为证据,其应用价值将大打折扣。 △ 三大范式对比 VAM构建“过目不忘”的记忆库 VAM 框架由三个紧密耦合的部分组成: 在线索引 (Online Indexing) 、 分层记忆 (Hierarchical Memory) 和 智能体检索 (Agentic Retrieval) 。 在线索引:自适应的“关键帧捕获” 为了在不丢证据的前提下极度压缩数据,VAM采用了一种非常“聪明”的在线过滤机制: Laplacian 模糊检测 :在任何神经网络处理之前,先通过拉普拉斯方差检测画质。糊掉的、曝光异常的帧会被直接剔除,确保记忆库里的每一条证据都是清晰可读的。 Otsu-style 自适应去重 :这是VAM的硬核所在。它不使用固定的相似度阈值,而是实时分析视频流的动态特征,利用大津法 (Otsu Partitioning) 动态调整去重门槛。这意味着在画面静止时它极度节约,在画面剧烈变化时它能敏锐捕捉。 △ 在线索引过滤流程 分层记忆:时空并行的“双轨制”存储 存下来的记忆不是一团乱麻,而是被组织成了 并行的时间与空间表示 : 时间侧 (索引轴) :将连续的时刻组织成“事件 (Events) ”,并让MLLM撰写事件摘要。这就像是为视频建立了一个“目录”,支持大模型快速定位。 空间侧 (证据轴) :保留最原始的关键帧图像和视觉Embedding。这意味着AI不仅能“想起”发生了什么,还能“回看”当时的画面。 此外,VAM还引入了 年龄感知 (Age-aware) 存储 。越近的记忆越密集,越远的记忆越精简,完美模拟了生物脑的记忆遗忘曲线。 △ 时刻到事件的映射 智能体检索:化身“赛博侦探”多轮取证 检索阶段,MLLM不再是一个简单的问答机器,而是一个 自主决策的检索Agent 。 它会根据问题,执行一个多轮的循环: 观察 (Observe)  -> 假设 (Hypothesize)  -> 检查 (Inspect) 。 它会先去翻阅“目录” (事件摘要) ,锁定嫌疑片段,然后明确发出指令: 请把第142分钟的那几张原图调出来,我要仔细看看细节。 只有当它亲眼核实了原始视觉证据后,才会给出最终答案并引用对应的时刻。 这种 “不见证据不撒网” 的逻辑,是压制幻觉的关键。 △ VAM整体架构 同底座下性能全方位跃迁 团队在两个最具挑战性的在线视频理解榜单上进行了实测,结果令人振奋。 1、OVO-Bench:外挂记忆反超原生端到端 在OVO-Bench榜单上,VAM取得了 68.41 的RT+BT平均分,排名第一。最值得关注的对比是: Gemini 3 Flash  (原生端到端) :67.46 VAM  (Gemini 3 Flash 作为底座) :68.41 在底座模型完全一致的情况下,仅仅通过引入 VAM 的记忆架构,性能就提升了约 1 个百分点。  尤其在空间理解 (STU) 子项上,VAM 更是表现出了压倒性的优势,证明了显式记忆在处理细节问题时的不可替代性。 △ VAM典型应用场景 2、MM-Lifelong:51天超长跨度的终极挑战 在跨度达51天 (总时长105.6小时) 的MM-Lifelong测试中,VAM展现了惊人的效率: 存储效率 :看完这51 天的视频,VAM仅保留了6876帧图像,仅占原始视频流的0.06%。作为对比,传统的0.5 fps采样会留下19万张图,开销大出27倍。 准确率 :VAM取得了17.11%的准确率,在所有已发表的工作中位列第二,仅次于使用了更强底座 (GPT-5) 的ReMA架构。 △ MM-Lifelong存储开销对比 △ VAM执行示例 总之,VAM的出现,实际上是在挑战一种固有的偏见:即“感知模型能解决一切”。 研究团队的工作说明,对于复杂的长时序智能, 记忆管理 (Memory Management) 与 推理决策 (Decision Making) 同等重要。 这种将视觉记忆作为“一等公民”的设计思路,不仅解决了当下大模型在长视频上的短板,也为未来具身智能、个人助理等需要长期与世界交互的场景奠定了基础。 与其被动地等待更长的上下文窗口,不如主动地为模型构建一套高效、可审计的记忆基建。 论文链接:https://arxiv.org/abs/2605.16481 代码链接:https://github.com/yiliu-li/Visual-Agentic-Memory 一键三连 「点赞」「转发」「小心心」 欢迎在评论区留下你的想法! —  完  — 我们正在招聘一名眼疾手快、关注AI的 学术编辑实习生   🎓 感兴趣的小伙伴欢迎关注 👉  了解详情 🌟 点亮星标 🌟 科技前沿进展每日见
← 上一篇
腾讯想让企业打开AI的方式只剩一个
下一篇 →
全链条·全场景·智构未来:中车时代电气携光储风氢全域矩阵亮相SNEC 2026
← 返回资讯列表