机器之心 微信公众号 行业动态

ICML 2026|FusionRoute:从专家路由到自我修正,一种新的多LLM协作范式

发布:2026-06-08 07:12:46 · 事件:2026-06-08 07:12:46
本文由 Nuoya Xiong 、 Yuhang Zhou 、 Hanqing Zeng 、 Zhaorun Chen 、 Furong Huang 、 Shuchao Bi 、 Lizhu Zhang 、 Zhuokai Zhao 等研究者合作完成。论文第一作者 Nuoya Xiong 为 CMU 计算机学院二年级博士生,研究方向为大语言模型的后训练与强化学习,本工作完成于其在 Meta 实习期间。
本文由  Nuoya Xiong 、 Yuhang Zhou 、 Hanqing Zeng 、 Zhaorun Chen 、 Furong Huang 、 Shuchao Bi 、 Lizhu Zhang 、 Zhuokai Zhao  等研究者合作完成。论文第一作者  Nuoya Xiong  为 CMU  计算机学院二年级博士生,研究方向为大语言模型的后训练与强化学习,本工作完成于其在  Meta  实习期间。该项目由  Meta AI  的  Zhuokai Zhao  和 Lizhu Zhang  共同领导,合作者还包括来自  Meta TBD  团队的  Shuchao Bi  以及  University of Maryland  的  Furong Huang  教授。   近年来,大语言模型能力的提升,已不再仅仅依赖于更大的模型规模或更多的训练数据。越来越多的研究开始探索另一条路径: 通过多个专家模型的协作来完成生成任务 。 这一思路背后的直觉并不复杂:现实中往往不存在一个在所有任务上都同样出色的模型,而是会涌现出大量各有所长的 “ 专家模型 ” 。例如,专门针对数学数据训练的模型更擅长复杂推理,代码模型在程序生成和语法结构上表现更稳定,而指令微调模型则更擅长对话理解与交互表达。与其追求一个 “ 无所不能 ” 的统一大模型,不如将多个领域专家进行组合,让它们在各自擅长的子问题上发挥作用。这种方式不仅能够更充分地利用已有模型的能力,也避免了单一模型在所有维度上都需要做到极致所带来的训练成本与优化难度。 针对这一方向,论文提出了 FusionRoute ,一种基于  token-level  路由的多  LLM  协作范式 。不同于以往在整段生成中选择单一模型, FusionRoute 训练一个路由模型, 在每一步生成时,使用该路由模型动态判断当前这个  token 更适合由哪个专家模型来生成。这种更细粒度的路由方式,使模型能够在同一段生成过程中灵活切换不同专家,在推理、代码生成和自然语言表达等不同子任务之间进行动态分工,从而更充分地发挥各个模型的优势。 在此基础上, FusionRoute  进一步利用路由器本身的理解能力,引入了一种 补充生成( complementary generation )机制 。除了进行  expert  选择之外,路由器还会为当前  token  提供额外的生成信号,并与  expert  的输出共同作用,形成最终结果。由此,路由器不再只是一个 “ 选择器 ” ,而成为生成过程中的参与者,进一步提升了整体表达能力。 相比  sequence-level  的协作方式, FusionRoute  具有更高的灵活性和更细粒度的控制能力。同时,不同于传统  MoE  , FusionRoute  的专家可以是结构各异、已经训练完成的独立模型,从而在实际部署中更加灵活、也更具工程可行性。 论文标题: Token-Level LLM Collaboration via FusionRoute arXiv  地址: https://arxiv.org/pdf/2601.05106 代码地址: https://github.com/xiongny/FusionRoute 以往的 sequence-level collaboration 在整段生成完成后再进行模型融合,讨论或选择。多个模型需要生成完整回答,再通过  reranking  或辩论得到最终结果。这种方式虽然简单,但存在明显问题:一方面计算开销较大(需要多次完整生成),另一方面协作粒度较粗,因此往往比较低效。 相比之下, 以往的  token-level collaboration 将协作粒度细化到每一步生成,通过在多个模型之间进行  token  级别的选择来决定下一个  token 。这种方法能够实现更灵活的专家切换,但其核心仍然是 “ 从多个候选中进行选择 ”。 因此,一旦选择结果不稳定或某一步选择出现偏差,误差会在后续生成中不断累积,导致整体生成过程不够稳定。文章也通过理论推导,证明了在仅有  single policy coverage  的合理假设下,纯粹基于专家选择的 token-level  路由存在本质上的 " 不可识别性 "—— 即便存在一条最优路径,仅凭沿最优轨迹观测到的  Q  值也无法可靠地识别出哪个专家应被选中,揭示了以往 token-level 协作的主要瓶颈。 FusionRoute  的关键思路是引入了一个可训练的 router  模块,提供两个功能: 1、对于 decoding 过程中的每个 token ,输出一个路由权重。系统之后会选择权重最高的专家进行这个 token 的生成。 2、输出 router logits ,利用 router 的理解能力对  expert  的 token logits 进行补充生成。最终的 logits 合并专家 logits 和 router      logits 。这种设计使得最终生成不再仅依赖于单一专家的输出,而是融合了  expert  能力与全局理解,从而在保持细粒度协作的同时,显著提升了生成的稳定性与鲁棒性。 路由模型训练 在训练上, FusionRoute  无需对专家进行额外微调,而是固定已有的专家,仅训练一个轻量级的  router 模块。训练分为两个阶段: 1、首先,在监督微调( SFT )阶段,训练  router  使其能够在给定上下文下学习如何组合不同专家的输出。具体而言, router  自身会生成补充的  logits ,并通过  next-token       cross-entropy loss  进行优化;同时, router  输出的路由权重与多个  expert  提供的  token  分布加权得到最终的聚合  logits ,并通过专家选择损失对路由线性层进行端到端优化。值得注意的是,论文在路由损失中只保留了 " 信息性  token"—— 即不同专家预测结果存在分歧的位置,避免标点、虚词等所有专家都能正确预测的  token  主导梯度,从而让路由真正学到的是专家之间的能力差异。经过这一阶段, router  已能够学习基本的专家选择与语言能力。 2、第二个阶段是训练 router logits 的补充生成能力( CDPO )。具体来说, FusionRoute 将 router logits 和专家 logits 合并起来,然后在偏好数据集上计算 token 的概率,并基于 DPO 进行优化。这里的一个关键设计是,专家提供的  log-ratio  项被作为不传梯度的 " 偏置项 " 处理 —— 当专家本身已经能给出强策略时,该偏置项较大, router  自身的梯度自然变小;当专家薄弱时, log-ratio gap  缩小, router  会获得更大的修正信号。这种机制让  router  在专家失效的位置才发力,自动实现 " 按需补充 " 。另一大挑战在于,单独训练 router logits 的补充生成能力会使得 router 的参数与输出路由权重的线性层不匹配。由此, FusionRoute  设计了一种  混合训练策略 ,将监督微调( SFT )与基于偏好的优化( CDPO )结合在同一训练流程中 。   实验 1:  在多个领域上显著提升了综合能力 论文使用了 MergeBench 里的数学专家模型,代码生成专家模型和指令跟随专家模型,涵盖 Llama-3 和 Gemma-2 两个模型种类。文章在五个基准上评估 FusionRoute :数学推理任务  GSM8K 、 MATH-500 ,代码生成任务 HumanEval 、 MBPP 以及指令跟随任务 IfEval 。基线包含不同的专家 Sequence Selection (令所有模型均生成回答,并使用外部 reward 模型选择最优回答),以往的 token-level 协作范式 Collab ,两个 Model Merging 的方法( DARE, TaskArithmetic) ,以及在数据集上直接微调的模型 (“Fine-tuned” in Table 1) 。实验结果如  Table 1  所示, FusionRoute  取得了稳定的性能提升。更值得关注的是, FusionRoute  在专家本身擅长的领域并没有牺牲性能 —— 在  GSM8K 、 HumanEval  等任务上,它的表现与对应专家持平甚至略胜,说明这种细粒度协作真正做到了 " 取长补短 " 。   实验 2: 在通用数据集上显著提升整体生成质量   除了数学推理和代码生成等  domain-specific  任务之外,论文还进一步评估了  FusionRoute  在通用场景下的整体生成质量。为此,论文在  PerfectBlend  测试集上随机采样  500  条 prompt ,让各方法生成不超过  300  个  token  的回答,并使用  GPT-4o  进行  pairwise  比较,以 Fine-tuned Model  的回答作为参照计算  win rate 。实验结果表明, FusionRoute  在通用数据集上依然能够优于微调模型以及其他协作方法,说明其能够融合不同 expert  的能力,能够在混合场景下生成更加高质量且更自然的回答。 另一个有趣的现象是在不同模型规模之间的对比上。在更大的  8B Llama-3  家族上, FusionRoute  相对基线的优势显著扩大,而其他  token-level  协作方法(如  Collab )和 sequence-level  选择方法反而出现明显退化;而在  2B  的 Gemma-2  家族上,纯专家选择类的方法表现尚可。这说明随着模型容量上升, " 纯粹从专家中挑一个 " 的范式变得越来越脆弱 —— 专家越强,候选之间的细微差别越难仅凭外部  reward  区分出来;而  router  提供的补充生成机制能够更充分地利用额外的表达能力,把模型容量真正转化为协作质量。换句话说, FusionRoute  的设计哲学在更强的底座上反而更具优势。 意义 FusionRoute  的核心贡献可以从几个层面来看。 在方法层面 , FusionRoute  首次将 " 专家选择 " 与 " 补充生成 " 统一在同一个轻量级  router  模块中。以往的多  LLM  协作要么是 sequence-level  的粗粒度融合,要么是  token-level  但纯粹基于选择的方案 —— 前者效率低、粒度粗,后者依赖专家在每一个  token  上的正确性,鲁棒性不够。 FusionRoute  让  router  同时承担 " 指挥 " 和 " 补位 " 两个角色,既保留了  token-level  的细粒度优势,又通过补充  logits  修正专家在不擅长场景下的输出,从根本上提升了协作系统的稳定性。 在理论层面 ,论文给出了一个对该方向具有指导意义的结果 —— 在仅有  single policy coverage  的合理假设下,纯粹依赖专家选择的 token-level  协作存在本质上的不可识别性,无法保证恢复出近似最优策略。这一不可能性结果解释了过去 token-level  方法在实践中表现不稳定的根源,也从理论上论证了  router  作为补充生成器的必要性 —— 在加入补充  logits  之后,最终策略的可表达策略类被显著扩张,从而能够在更弱的假设下恢复近似最优。 在工程层面 , FusionRoute  既不要求各专家模型结构同构,也无需对专家进行任何额外的梯度更新,仅需训练一个轻量级  router ,就可以将一组现成的、结构异质的领域模型组装成一个综合能力更强的系统。这种 " 即插即用 " 的设计在实际部署中具有重要意义 —— 当一个新的领域专家出现时,可以快速纳入协作框架,而无需推倒重训整个系统。 最重要的是,这些性能提升并不依赖于对  expert  模型的额外微调,而是通过更高效的推理协作机制实现的。这表明  FusionRoute  能够在保持较低额外成本的前提下,充分挖掘多模型之间的互补能力,从而实现更强的综合表现。沿着这一方向,多个专门化小模型的协作正在成为通用大模型之外一条具有现实价值的技术路径。 © THE END  转载请联系本公众号获得授权 投稿或寻求报道:liyazhou@jiqizhixin.com
← 上一篇
AI真能学会心算?隐式思维链首次得到理论证明,Stuart Russell参与
下一篇 →
论文精选|PTC电热膜供暖系统间歇运行方案优化
← 返回资讯列表