量子位 微信公众号 行业动态

7B打败o3、GPT-5!医学AI智能体让模型学会“看哪里、怎么看”

发布:2026-05-28 · 事件:2026-05-28 08:25:07
上海创智学院 LeapQuest 团队 投稿 量子位 | 公众号 QbitAI 医学AI会写解释,但不代表它真的“看到”了关键证据。 过去的医学多模态模型,大多是把一张影像或一段视频编码成视觉特征,然后让大模型生成答案与解释。 但问题在于——一个微小病灶、一个边界变化、一段几秒钟的手术动作,往往就决定了答案是否成立。 而模型“被动接收”视觉上下文时,很容易看错区域、漏看病灶。
数据
上海创智学院 LeapQuest 团队 投稿 量子位 | 公众号 QbitAI 医学AI会写解释,但不代表它真的“看到”了关键证据。 过去的医学多模态模型,大多是把一张影像或一段视频编码成视觉特征,然后让大模型生成答案与解释。 但问题在于——一个微小病灶、一个边界变化、一段几秒钟的手术动作,往往就决定了答案是否成立。 而模型“被动接收”视觉上下文时,很容易看错区域、漏看病灶。 为应对这一问题, 上海创智学院LeapQuest团队 联合 浙江大学、上海交通大学、复旦大学 ,一口气拿出了两篇  ICML 2026 接收论文,首次把 Think with Images/Think with Videos 范式应用在医学AI领域: 模型不再只是看完图像或视频后生成解释,而是在推理链中主动调用视觉工具,重新观察关键区域或关键时刻,并用新证据修正判断。 这意味着,视觉不再只是输入,视觉证据本身成了模型思考过程的一部分。 两篇工作的核心关键词如下: 两篇工作不是孤立模型升级,而是共同提出医学AI的新范式: 让视觉证据进入模型的中间思考过程,把“解释”从事后语言生成推进为推理过程中的证据查证。 △ Ophiuchus:面向医学图像的tool-augmented Think with Images △ MedScope:面向临床长视频的Think with Videos 不是更会“写解释”,而是开始会“用视觉证据思考” 医学AI过去最常见的工作方式,是把一张影像或一段视频编码成视觉特征,然后让大模型生成答案与解释。 问题在于, 解释看起来完整,并不代表模型真的看到了关键证据 。尤其在医学场景里,一个微小病灶、一个边界变化、一段几秒钟的手术动作,往往就决定了答案是否成立。 Ophiuchus和MedScope共同把这个问题向前推进了一步:多模态模型不再只是“被动接收视觉上下文”,而是在推理过程中 主动决定是否需要更多证据 、 应该看哪里 、 应该回看哪一段 ,并把工具返回的观察结果纳入后续推理。 这就是医学AI领域首次被系统化提出的 “think with images/think with videos” 范式:视觉不再只是输入,视觉证据本身成为模型思考过程的一部分。 △ Think with Images Think with Images:让模型在图像诊断中“重新看一眼” Ophiuchus的切入点非常直接:现有医学多模态大模型虽然能写出逐步推理,但遇到需要细粒度视觉证据的任务时,仍然容易“ 看错区域、漏看病灶、误把正常结构当异常 ”。 这不是单纯语言能力不足,而是 视觉交互机制不足 。 因此,Ophiuchus将大模型改造成一个能与医学图像工具协同的视觉智能体。 它可以根据当前推理状态,决定是否调用外部视觉工具:用 SAM2 做精细分割,用 BiomedParse 根据文字提示定位医学结构,用 Zoom-in 放大关键区域。 工具调用后的输出不是孤立结果,而会以 observation 的形式回到推理链,驱动下一步判断。 更关键的是,Ophiuchus并不是把工具“外挂”在模型外面,而是 让工具成为推理链的一部分 。 模型要学会何时调用工具、选择哪个工具、如何解释工具输出,以及当工具结果不可靠时如何修正策略。 这使得模型从“会调用工具”走向“ 会用工具思考 ”。 △ Ophiuchus 技术框架 Ophiuchus的价值不只是让医学大模型多了几个视觉工具,而是让模型学会在诊断过程中主动“看哪里、怎么看、看完如何修正”。 从闭源SOTA到医学Agent:Ophiuchus用结果证明“看得更细”才是关键 在同样外部工具配置下, Ophiuchus-7B 在8个VQA benchmark上取得 68.0 的平均分,高于 OpenAI-o3的62.2 、 Gemini 2.5 Pro的61.8 和 GPT-5的59.9 。 在工具使用准确性评估中,Ophiuchus达到 97.9% 的平均工具调用准确率。 这些结果背后的含义,比“某个榜单第一”更重要: 当问题真正依赖局部结构、病灶边界和细胞级证据时,模型大小或语言推理并不是唯一瓶颈。 医学AI需要一种能让视觉证据不断进入推理过程的机制 。 Think with Videos:从“看图思考”走向“回看关键时刻” 如果说Ophiuchus解决的是医学图像中的局部证据问题,那么MedScope则把这一范式推进到更难的长视频场景。 长临床视频的挑战在于: 关键证据不仅细,而且稀疏 ;不仅要看对内容,还要 看对时间 。 一个手术动作、一个内镜视野变化、一个器械进入与离开的瞬间,可能只持续几秒,却决定模型是否真的理解了临床过程。 MedScope 提出的 “ think with videos ” 不是让模型把整段视频一次性压缩成上下文,而是模拟临床医生的观察方式: 先快速建立全局理解,再回到可疑时间窗,用 crop_video 截取片段,用 get_frame 获取关键帧,最后把这些局部观察结果整合进答案。 △ Textual CoT与 Visual CoT的差别 这使MedScope的推理过程天然具备 可审查性 :模型为什么回答这个结果,不只看它“说了什么”,还可以看它“ 回看了哪一段视频、找到了哪些帧 、这些证据是否支持结论”。 △ MedScope 框架 ClinVideoSuite与GA-GRPO:让视频模型学会“找证据”,而不只是“猜答案” 为了让模型真正学会这种行为,MedScope构建了 ClinVideoSuite :包含 635K 时间戳密集 caption、 254K 证据关联QA、 34K 视觉CoT轨迹,以及用于强化学习的交互式训练环境。 数据不是简单问答,而是强调问题必须依赖 局部时间窗中的视觉证据 。 训练上,MedScope 采用 三阶段路线 —— 第一阶段 进行临床推理warm-up,学习医学语义和长程视频理解; 第二阶段 用visual-CoT cold-start SFT教会模型何时需要更多证据、如何调用工具; 第三阶段 用GA-GRPO强化时序对齐的工具使用,通过grounding-aware reward和evidence-modulated advantage,让模型更偏向检索真正支持结论的视觉片段。 △ ClinVideoSuite数据合成管线 在SVU-31K、ClinVideo-Eval等评测中,MedScope在多粒度视频理解、细粒度时序推理和grounded VQA上取得开源模型中的 SOTA 。 论文还显示,去掉 evidence reward 会显著降低定位质量,例如 R@0.5从40.1下降到33.2 , mIoU从4.3下降到38.8 ,说明答案级监督不足以教会模型可靠地选择证据。 真正的范式变化:视觉从“输入”变成“思维过程” 把两篇工作放在一起看,最重要的不是Ophiuchus处理图像、MedScope处理视频,而是它们共同定义了一种 新的医学多模态智能范式 : 模型的推理过程不再只是语言token的展开,而是语言、工具、图像区域、视频片段和证据反馈之间的 闭环交互 。 医学AI的下一个关键能力,不是生成更长的解释,而是在给出解释前主动寻找、验证并引用视觉证据。 Ophiuchus和MedScope把这一点从方法论变成了可训练、可评测、可扩展的技术路线。 为什么这可能成为医学AI Agent的关键拐点 医学任务与通用视觉问答最大的不同,是 每一个结论都需要证据链 。 放射科医生会放大病灶边缘,病理医生会寻找细胞形态,外科医生会回看关键操作,内镜医生会追踪病灶在时间中的出现与消失。 也就是说,临床视觉推理天然就是 交互式、证据驱动和可复核 的。 “Think with Images/Videos”的意义,正是让医学AI向这种真实临床认知方式靠近。 它不再满足于一次性预测,而是在模型内部建立“ 假设-查证-修正-回答 ”的循环。 这为临床可信AI提供了三类重要能力: 更少幻觉、更强可解释性、更适合复杂流程 。 医学AI开始真正“边看边想” 从Ophiuchus到MedScope,可以看到医学多模态大模型正在发生一次 底层范式转向 : 从看图、看视频,到在推理过程中持续地看;从输出答案,到主动寻找证据;从语言链条,到 视觉证据参与的多模态思维链 。 这也解释了为什么“think with images/videos”值得被单独提出。 它不是一个更花哨的工具调用框架,而是在医学AI里 重新定义了“推理”的边界 :推理不只是语言生成,而是围绕证据进行的 动态视觉探索 。 当模型能够在思考中主动回看影像、放大病灶、截取视频、验证证据,医学AI才真正从“会回答问题”走向“会进行临床视觉推理”。 LeapQuest[起跃界问] 是上海创智学院面向下一代医学AI Agent、视觉推理与多模态大模型的青年交叉研究团队,聚焦Visual Reasoning、Agentic RL、Clinical Tools,推动模型从“生成答案”走向基于证据的观察、验证与行动。 项目GitHub: MedScope|Think with Videos:https://github.com/SII-WenjieLisjtu/MedScope Ophiuchus|Think with Images:https://github.com/SII-zyj/Ophiuchus 一键三连 「点赞」「转发」「小心心」 欢迎在评论区留下你的想法! —  完  — 我们正在招聘一名眼疾手快、关注AI的 学术编辑实习生   🎓 感兴趣的小伙伴欢迎关注 👉  了解详情 🌟 点亮星标 🌟 科技前沿进展每日见
← 返回资讯列表