量子位微信公众号行业动态

画数独、烧蜡烛都不翻车了？浙大&阿里让AI先三思再下笔｜ACL 2026

发布：2026-05-28 · 事件：2026-05-28 08:25:15

浙江大学阿里巴巴团队投稿量子位 | 公众号 QbitAI 当下视觉生成正陷入一个能力错位困境—— 扩散模型的像素画质已接近完美，但一遇到需要逻辑推理的生成任务就频频翻车。让模型画 “数独解完后的样子”、“蜡烛燃烧6小时后的状态”，开源模型要么出现逻辑幻觉，要么无法把文字指令转化为精准视觉操作，形成难以跨越的执行鸿沟。反观Nano Banana、GPT-Image等闭源模型，早已具备成熟的推理驱动生成能力。

设计

浙江大学&amp;阿里巴巴团队 投稿&nbsp;

量子位 | 公众号 QbitAI

当下视觉生成正陷入一个能力错位困境——

扩散模型的像素画质已接近完美，但
一遇到需要逻辑推理的生成任务就频频翻车。

让模型画 “数独解完后的样子”、“蜡烛燃烧6小时后的状态”，开源模型要么出现逻辑幻觉，要么无法把文字指令转化为精准视觉操作，形成难以跨越的执行鸿沟。

反观Nano Banana、GPT-Image等闭源模型，早已具备成熟的推理驱动生成能力。

开源模型与闭源模型的差距，真的是生成器不够强吗？

浙江大学
联合
阿里巴巴
的研究团队给出答案：问题不在 “手”，而在缺少独立的 “大脑”。

他们提出的
Unified Thinker
，将

思考

与

执行

彻底解耦的通用推理核心，让图像生成从 “端到端黑盒映射”，升级为 “模块化思维链规划”。

这项工作已被ACL 2026正式接收为Oral。

推理不应只是文本空间的“自嗨”

今天多模态生成模型的问题，很多时候并不出在会不会想，而是出在

想完之后能不能落到画面里

。

谁在画面里、位置关系是什么、动作如何发生、前后状态如何变化、哪些信息要被视觉化表达。

这时，如果推理仍然停留在文本空间里自我循环，很容易出现一种尴尬：语言上听起来很合理，生成出来却完全不是那么回事。

现有的多模态生成路径，大致受困于两类技术路线。

一是试图在单一网络中兼顾理解

与生成的

大一统

模型

，这种紧耦合常导致训练不稳定，且生成质量与逻辑推理难以兼得。

二是使用通用LLM作为Planner的外挂模式。然而，这又会面临严重的语义-视觉错位（Semantic-Visual Misalignment）问题。

LLM认为合理的描述，扩散模型可能因缺乏相应的视觉先验而无法执行。

△

AI生成

Unified Thinker的核心洞察在于——

推理不应只是文本空间的逻辑推演，而必须是“可执行的计划（Executable Plan）”。

研究者设计了一个独立的Thinker模块，它不直接生成像素，而是充当大脑，负责将模糊的用户意图分解为分层、结构化、且对下游生成器友好的中间表示。

而Generator则作为双手，专注于高精度的像素合成。

这种解耦设计不仅允许开发者单独升级大脑的逻辑能力，更实现了逻辑能力在不同生成底座（如Qwen-Image, BAGEL等）间的通用化迁移。

从数据到算法：构建可执行的思维链

为了让“思考”真正落到画面里，研究团队没有只停留在模型结构层面，而是先从最底层的数据工程开始改造。

他们构建了一个包含4万条样本的数据集：

HieraReason-40K

。

它和传统图文对最大的区别在于，引入了

结构化推理轨迹（Structured Reasoning Trace）

。

也就是说，模型在生成或编辑图像前，要先走完一套固定思考链路：意图拆解→逻辑具体化→视觉转译。

先判断用户真正想改什么，再把抽象需求拆成具体视觉元素，最后转化成下游生成器能执行的指令。

不仅如此，在图像编辑场景中，研究者还提出了一个“黄金法则”——

严禁在Prompt中描述未改变的区域，这一策略极大减少了扩散模型在编辑过程中的语义漂移，确保生成过程精准聚焦。

在优化阶段，仅靠监督微调（SFT）难以保证推理结果对生成的实际增益。

为此，Unified Thinker引入了基于

GRPO算法

的创新双阶段强化学习方案。

在

推理导向 RL

阶段，Thinker产生的多条推理路径直接由生成图像的视觉质量打分反馈，这迫使模型放弃空洞的辞藻，转而学习生成“视觉可执行”的指令。

在

生成导向 RL

阶段，则通过随机性采样优化生成器对复杂指令的保真度。这种双向反馈机制，真正实现了脑与手的深度协同。

迈向“先规划、后生成”的演变

实验结果也验证了这种解耦架构的价值。

在更考验推理能力的基准测试中，Unified Thinker表现尤其突出——

比如侧重推理图像编辑的
RISEBench
，以及知识密集型文生图任务
WiseBench
，都取得了明显提升。

此外在涉及
时间尺度演演化
（如预测物体陈旧化过程）与
复杂空间定位
的任务上，其表现大幅优于现有的开源基线模型，并表现出足以媲美闭源模型的指令遵循能力：

更具实用价值的是，这套架构具备较强的
泛化性
。

作为一种即插即用的推

理核心，Thinker的逻辑规划能力可以跨模型迁移。

实验显示，即便将其挂载到未参与训练的生成底座上，也能有效提升后者的逻辑执行准确度。

从更长远的视角看，Unified Thinker的提出，可以视为视觉生成从“概率拟合”走向“逻辑导向”的一次尝试。

过去，模型更多依赖特征匹配和随机采样来生成画面；而现在，通过引入
可解释、可干预的结构化推理轨迹
，生成过程多了一层前置规划，也因此具备了更高的确定性。

这也为未来构建具备自主决策能力的生成式智能体（Generative Agent），提供了一种可行的架构思路。

可以预见，随着推理成本进一步优化，“先规划、后生成”将成为提升视觉生成质量的一条重要路径。

参考链接：

[1]论文链接：https://arxiv.org/pdf/2601.03127

[2]

代码仓库：https://github.com/LivingFutureLab/UnifiedThinker

[3]数据链接：https://huggingface.co/datasets/demo911/HieraReason_40K

一键三连

「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

—&nbsp;

完

&nbsp;—

我们正在招聘一名眼疾手快、关注AI的

学术编辑实习生

&nbsp;

🎓

感兴趣的小伙伴欢迎关注 👉&nbsp;
了解详情

🌟 点亮星标 🌟

科技前沿进展每日见

← 返回资讯列表