量子位 微信公众号 行业动态

画数独、烧蜡烛都不翻车了?浙大&阿里让AI先三思再下笔|ACL 2026

发布:2026-05-28 · 事件:2026-05-28 08:25:15
浙江大学 阿里巴巴团队 投稿 量子位 | 公众号 QbitAI 当下视觉生成正陷入一个能力错位困境—— 扩散模型的像素画质已接近完美,但 一遇到需要逻辑推理的生成任务就频频翻车。 让模型画 “数独解完后的样子”、“蜡烛燃烧6小时后的状态”,开源模型要么出现逻辑幻觉,要么无法把文字指令转化为精准视觉操作,形成难以跨越的执行鸿沟。 反观Nano Banana、GPT-Image等闭源模型,早已具备成熟的推理驱动生成能力。
设计
浙江大学&阿里巴巴团队 投稿  量子位 | 公众号 QbitAI 当下视觉生成正陷入一个能力错位困境—— 扩散模型的像素画质已接近完美,但 一遇到需要逻辑推理的生成任务就频频翻车。 让模型画 “数独解完后的样子”、“蜡烛燃烧6小时后的状态”,开源模型要么出现逻辑幻觉,要么无法把文字指令转化为精准视觉操作,形成难以跨越的执行鸿沟。 反观Nano Banana、GPT-Image等闭源模型,早已具备成熟的推理驱动生成能力。 开源模型与闭源模型的差距,真的是生成器不够强吗? 浙江大学 联合 阿里巴巴 的研究团队给出答案:问题不在 “手”,而在缺少独立的 “大脑”。 他们提出的 Unified Thinker ,将 思考 与 执行 彻底解耦的通用推理核心,让图像生成从 “端到端黑盒映射”,升级为 “模块化思维链规划”。 这项工作已被ACL 2026正式接收为Oral。 推理不应只是文本空间的“自嗨” 今天多模态生成模型的问题,很多时候并不出在会不会想,而是出在 想完之后能不能落到画面里 。 谁在画面里、位置关系是什么、动作如何发生、前后状态如何变化、哪些信息要被视觉化表达。 这时,如果推理仍然停留在文本空间里自我循环,很容易出现一种尴尬:语言上听起来很合理,生成出来却完全不是那么回事。 现有的多模态生成路径,大致受困于两类技术路线。 一是试图在单一网络中兼顾理解 与生成的 大一统 模型 ,这种紧耦合常导致训练不稳定,且生成质量与逻辑推理难以兼得。 二是使用通用LLM作为Planner的外挂模式。然而,这又会面临严重的语义-视觉错位(Semantic-Visual Misalignment)问题。 LLM认为合理的描述,扩散模型可能因缺乏相应的视觉先验而无法执行。 △ AI生成 Unified Thinker的核心洞察在于—— 推理不应只是文本空间的逻辑推演,而必须是“可执行的计划(Executable Plan)”。 研究者设计了一个独立的Thinker模块,它不直接生成像素,而是充当大脑,负责将模糊的用户意图分解为分层、结构化、且对下游生成器友好的中间表示。 而Generator则作为双手,专注于高精度的像素合成。 这种解耦设计不仅允许开发者单独升级大脑的逻辑能力,更实现了逻辑能力在不同生成底座(如Qwen-Image, BAGEL等)间的通用化迁移。 从数据到算法:构建可执行的思维链 为了让“思考”真正落到画面里,研究团队没有只停留在模型结构层面,而是先从最底层的数据工程开始改造。 他们构建了一个包含4万条样本的数据集: HieraReason-40K 。 它和传统图文对最大的区别在于,引入了 结构化推理轨迹(Structured Reasoning Trace) 。 也就是说,模型在生成或编辑图像前,要先走完一套固定思考链路:意图拆解→逻辑具体化→视觉转译。 先判断用户真正想改什么,再把抽象需求拆成具体视觉元素,最后转化成下游生成器能执行的指令。 不仅如此,在图像编辑场景中,研究者还提出了一个“黄金法则”—— 严禁在Prompt中描述未改变的区域,这一策略极大减少了扩散模型在编辑过程中的语义漂移,确保生成过程精准聚焦。 在优化阶段,仅靠监督微调(SFT)难以保证推理结果对生成的实际增益。 为此,Unified Thinker引入了基于 GRPO算法 的创新双阶段强化学习方案。 在 推理导向 RL 阶段,Thinker产生的多条推理路径直接由生成图像的视觉质量打分反馈,这迫使模型放弃空洞的辞藻,转而学习生成“视觉可执行”的指令。 在 生成导向 RL 阶段,则通过随机性采样优化生成器对复杂指令的保真度。这种双向反馈机制,真正实现了脑与手的深度协同。 迈向“先规划、后生成”的演变 实验结果也验证了这种解耦架构的价值。 在更考验推理能力的基准测试中,Unified Thinker表现尤其突出—— 比如侧重推理图像编辑的 RISEBench ,以及知识密集型文生图任务 WiseBench ,都取得了明显提升。 此外在涉及 时间尺度演演化 (如预测物体陈旧化过程)与 复杂空间定位 的任务上,其表现大幅优于现有的开源基线模型,并表现出足以媲美闭源模型的指令遵循能力: 更具实用价值的是,这套架构具备较强的 泛化性 。 作为一种即插即用的推 理核心,Thinker的逻辑规划能力可以跨模型迁移。 实验显示,即便将其挂载到未参与训练的生成底座上,也能有效提升后者的逻辑执行准确度。 从更长远的视角看,Unified Thinker的提出,可以视为视觉生成从“概率拟合”走向“逻辑导向”的一次尝试。 过去,模型更多依赖特征匹配和随机采样来生成画面;而现在,通过引入 可解释、可干预的结构化推理轨迹 ,生成过程多了一层前置规划,也因此具备了更高的确定性。 这也为未来构建具备自主决策能力的生成式智能体(Generative Agent),提供了一种可行的架构思路。 可以预见,随着推理成本进一步优化,“先规划、后生成”将成为提升视觉生成质量的一条重要路径。 参考链接: [1]论文链接:https://arxiv.org/pdf/2601.03127 [2] 代码仓库:https://github.com/LivingFutureLab/UnifiedThinker [3]数据链接:https://huggingface.co/datasets/demo911/HieraReason_40K 一键三连 「点赞」「转发」「小心心」 欢迎在评论区留下你的想法! —  完  — 我们正在招聘一名眼疾手快、关注AI的 学术编辑实习生   🎓 感兴趣的小伙伴欢迎关注 👉  了解详情 🌟 点亮星标 🌟 科技前沿进展每日见
← 返回资讯列表