机器之心微信公众号行业动态
ICML 2026｜FusionRoute：从专家路由到自我修正，一种新的多LLM协作范式

发布：2026-06-08 07:12:46 · 事件：2026-06-08 07:12:46
本文由 Nuoya Xiong 、 Yuhang Zhou 、 Hanqing Zeng 、 Zhaorun Chen 、 Furong Huang 、 Shuchao Bi 、 Lizhu Zhang 、 Zhuokai Zhao 等研究者合作完成。论文第一作者 Nuoya Xiong 为 CMU 计算机学院二年级博士生，研究方向为大语言模型的后训练与强化学习，本工作完成于其在 Meta 实习期间。
本文由

&nbsp;Nuoya Xiong

、

Yuhang Zhou

、

Hanqing Zeng

、

Zhaorun Chen

、

Furong Huang

、

Shuchao Bi

、

Lizhu Zhang

、

Zhuokai Zhao&nbsp;

等研究者合作完成。论文第一作者

&nbsp;Nuoya Xiong&nbsp;

为

CMU&nbsp;

计算机学院二年级博士生，研究方向为大语言模型的后训练与强化学习，本工作完成于其在

&nbsp;Meta&nbsp;

实习期间。该项目由

&nbsp;Meta AI&nbsp;

的

&nbsp;Zhuokai Zhao&nbsp;

和

Lizhu Zhang&nbsp;

共同领导，合作者还包括来自

&nbsp;Meta TBD&nbsp;

团队的

&nbsp;Shuchao Bi&nbsp;

以及

&nbsp;University of Maryland&nbsp;

的

&nbsp;Furong Huang&nbsp;

教授。

&nbsp;

近年来，大语言模型能力的提升，已不再仅仅依赖于更大的模型规模或更多的训练数据。越来越多的研究开始探索另一条路径：

通过多个专家模型的协作来完成生成任务

。

这一思路背后的直觉并不复杂：现实中往往不存在一个在所有任务上都同样出色的模型，而是会涌现出大量各有所长的

“

专家模型

”

。例如，专门针对数学数据训练的模型更擅长复杂推理，代码模型在程序生成和语法结构上表现更稳定，而指令微调模型则更擅长对话理解与交互表达。与其追求一个

“

无所不能

”

的统一大模型，不如将多个领域专家进行组合，让它们在各自擅长的子问题上发挥作用。这种方式不仅能够更充分地利用已有模型的能力，也避免了单一模型在所有维度上都需要做到极致所带来的训练成本与优化难度。

针对这一方向，论文提出了

FusionRoute

，一种基于&nbsp;

token-level&nbsp;

路由的多

&nbsp;LLM&nbsp;

协作范式

。不同于以往在整段生成中选择单一模型，

FusionRoute

训练一个路由模型， 在每一步生成时，使用该路由模型动态判断当前这个

&nbsp;token

更适合由哪个专家模型来生成。这种更细粒度的路由方式，使模型能够在同一段生成过程中灵活切换不同专家，在推理、代码生成和自然语言表达等不同子任务之间进行动态分工，从而更充分地发挥各个模型的优势。

在此基础上，

FusionRoute&nbsp;

进一步利用路由器本身的理解能力，引入了一种

补充生成（

complementary generation

）机制

。除了进行

&nbsp;expert&nbsp;

选择之外，路由器还会为当前

&nbsp;token&nbsp;

提供额外的生成信号，并与

&nbsp;expert&nbsp;

的输出共同作用，形成最终结果。由此，路由器不再只是一个

“

选择器

”

，而成为生成过程中的参与者，进一步提升了整体表达能力。

相比

&nbsp;sequence-level&nbsp;

的协作方式，

FusionRoute&nbsp;

具有更高的灵活性和更细粒度的控制能力。同时，不同于传统

&nbsp;MoE&nbsp;

，

FusionRoute&nbsp;

的专家可以是结构各异、已经训练完成的独立模型，从而在实际部署中更加灵活、也更具工程可行性。

论文标题：

Token-Level LLM Collaboration via FusionRoute

arXiv&nbsp;

地址：

https://arxiv.org/pdf/2601.05106

代码地址：

https://github.com/xiongny/FusionRoute

以往的

sequence-level collaboration

在整段生成完成后再进行模型融合，讨论或选择。多个模型需要生成完整回答，再通过

&nbsp;reranking&nbsp;

或辩论得到最终结果。这种方式虽然简单，但存在明显问题：一方面计算开销较大（需要多次完整生成），另一方面协作粒度较粗，因此往往比较低效。

相比之下，

以往的

&nbsp;token-level collaboration

将协作粒度细化到每一步生成，通过在多个模型之间进行

&nbsp;token&nbsp;

级别的选择来决定下一个

&nbsp;token

。这种方法能够实现更灵活的专家切换，但其核心仍然是

“

从多个候选中进行选择

”。

因此，一旦选择结果不稳定或某一步选择出现偏差，误差会在后续生成中不断累积，导致整体生成过程不够稳定。文章也通过理论推导，证明了在仅有

&nbsp;single policy coverage&nbsp;

的合理假设下，纯粹基于专家选择的

token-level&nbsp;

路由存在本质上的

"

不可识别性

"——

即便存在一条最优路径，仅凭沿最优轨迹观测到的

&nbsp;Q&nbsp;

值也无法可靠地识别出哪个专家应被选中，揭示了以往

token-level

协作的主要瓶颈。

FusionRoute&nbsp;

的关键思路是引入了一个可训练的

router&nbsp;

模块，提供两个功能：

1、对于

decoding

过程中的每个

token

，输出一个路由权重。系统之后会选择权重最高的专家进行这个

token

的生成。

2、输出

router logits

，利用

router

的理解能力对

&nbsp;expert&nbsp;

的

token logits

进行补充生成。最终的

logits

合并专家

logits

和

router &nbsp; &nbsp; &nbsp;logits

。这种设计使得最终生成不再仅依赖于单一专家的输出，而是融合了

&nbsp;expert&nbsp;

能力与全局理解，从而在保持细粒度协作的同时，显著提升了生成的稳定性与鲁棒性。

路由模型训练

在训练上，

FusionRoute&nbsp;

无需对专家进行额外微调，而是固定已有的专家，仅训练一个轻量级的

&nbsp;router

模块。训练分为两个阶段：

1、首先，在监督微调（

SFT

）阶段，训练

&nbsp;router&nbsp;

使其能够在给定上下文下学习如何组合不同专家的输出。具体而言，

router&nbsp;

自身会生成补充的

&nbsp;logits

，并通过&nbsp;

next-token

&nbsp; &nbsp; &nbsp; cross-entropy loss&nbsp;

进行优化；同时，

router&nbsp;

输出的路由权重与多个

&nbsp;expert&nbsp;

提供的

&nbsp;token&nbsp;

分布加权得到最终的聚合

&nbsp;logits

，并通过专家选择损失对路由线性层进行端到端优化。值得注意的是，论文在路由损失中只保留了

"

信息性

&nbsp;token"——

即不同专家预测结果存在分歧的位置，避免标点、虚词等所有专家都能正确预测的

&nbsp;token&nbsp;

主导梯度，从而让路由真正学到的是专家之间的能力差异。经过这一阶段，

router&nbsp;

已能够学习基本的专家选择与语言能力。

2、第二个阶段是训练

router logits

的补充生成能力（

CDPO

）。具体来说，

FusionRoute

将

router logits

和专家

logits

合并起来，然后在偏好数据集上计算

token

的概率，并基于

DPO

进行优化。这里的一个关键设计是，专家提供的

&nbsp;log-ratio&nbsp;

项被作为不传梯度的

"

偏置项

"

处理

——

当专家本身已经能给出强策略时，该偏置项较大，

router&nbsp;

自身的梯度自然变小；当专家薄弱时，

log-ratio gap&nbsp;

缩小，

router&nbsp;

会获得更大的修正信号。这种机制让

&nbsp;router&nbsp;

在专家失效的位置才发力，自动实现

"

按需补充

"

。另一大挑战在于，单独训练

router logits

的补充生成能力会使得

router

的参数与输出路由权重的线性层不匹配。由此，

FusionRoute&nbsp;

设计了一种&nbsp;

混合训练策略

，将监督微调（

SFT

）与基于偏好的优化（

CDPO

）结合在同一训练流程中

。

&nbsp;

实验

1:&nbsp;

在多个领域上显著提升了综合能力

论文使用了

MergeBench

里的数学专家模型，代码生成专家模型和指令跟随专家模型，涵盖

Llama-3

和

Gemma-2

两个模型种类。文章在五个基准上评估

FusionRoute

：数学推理任务

&nbsp;GSM8K

、

MATH-500

，代码生成任务

HumanEval

、

MBPP

以及指令跟随任务

IfEval

。基线包含不同的专家

Sequence Selection

（令所有模型均生成回答，并使用外部

reward

模型选择最优回答），以往的

token-level

协作范式

Collab

，两个

Model Merging

的方法（

DARE, TaskArithmetic)

，以及在数据集上直接微调的模型

(“Fine-tuned” in Table 1)

。实验结果如

&nbsp;Table 1&nbsp;

所示，

FusionRoute&nbsp;

取得了稳定的性能提升。更值得关注的是，

FusionRoute&nbsp;

在专家本身擅长的领域并没有牺牲性能

——

在

&nbsp;GSM8K

、

HumanEval&nbsp;

等任务上，它的表现与对应专家持平甚至略胜，说明这种细粒度协作真正做到了

"

取长补短

"

。

&nbsp;

实验

2:

在通用数据集上显著提升整体生成质量

&nbsp;

除了数学推理和代码生成等

&nbsp;domain-specific&nbsp;

任务之外，论文还进一步评估了

&nbsp;FusionRoute&nbsp;

在通用场景下的整体生成质量。为此，论文在

&nbsp;PerfectBlend&nbsp;

测试集上随机采样

&nbsp;500&nbsp;

条

prompt

，让各方法生成不超过

&nbsp;300&nbsp;

个

&nbsp;token&nbsp;

的回答，并使用

&nbsp;GPT-4o&nbsp;

进行

&nbsp;pairwise&nbsp;

比较，以

Fine-tuned Model&nbsp;

的回答作为参照计算

&nbsp;win rate

。实验结果表明，

FusionRoute&nbsp;

在通用数据集上依然能够优于微调模型以及其他协作方法，说明其能够融合不同

expert&nbsp;

的能力，能够在混合场景下生成更加高质量且更自然的回答。

另一个有趣的现象是在不同模型规模之间的对比上。在更大的

&nbsp;8B Llama-3&nbsp;

家族上，

FusionRoute&nbsp;

相对基线的优势显著扩大，而其他

&nbsp;token-level&nbsp;

协作方法（如

&nbsp;Collab

）和

sequence-level&nbsp;

选择方法反而出现明显退化；而在

&nbsp;2B&nbsp;

的

Gemma-2&nbsp;

家族上，纯专家选择类的方法表现尚可。这说明随着模型容量上升，

"

纯粹从专家中挑一个

"

的范式变得越来越脆弱

——

专家越强，候选之间的细微差别越难仅凭外部

&nbsp;reward&nbsp;

区分出来；而

&nbsp;router&nbsp;

提供的补充生成机制能够更充分地利用额外的表达能力，把模型容量真正转化为协作质量。换句话说，

FusionRoute&nbsp;

的设计哲学在更强的底座上反而更具优势。

意义

FusionRoute&nbsp;

的核心贡献可以从几个层面来看。

在方法层面

，

FusionRoute&nbsp;

首次将

"

专家选择

"

与

"

补充生成

"

统一在同一个轻量级

&nbsp;router&nbsp;

模块中。以往的多

&nbsp;LLM&nbsp;

协作要么是

sequence-level&nbsp;

的粗粒度融合，要么是

&nbsp;token-level&nbsp;

但纯粹基于选择的方案

——

前者效率低、粒度粗，后者依赖专家在每一个

&nbsp;token&nbsp;

上的正确性，鲁棒性不够。

FusionRoute&nbsp;

让

&nbsp;router&nbsp;

同时承担

"

指挥

"

和

"

补位

"

两个角色，既保留了

&nbsp;token-level&nbsp;

的细粒度优势，又通过补充

&nbsp;logits&nbsp;

修正专家在不擅长场景下的输出，从根本上提升了协作系统的稳定性。

在理论层面

，论文给出了一个对该方向具有指导意义的结果

——

在仅有

&nbsp;single policy coverage&nbsp;

的合理假设下，纯粹依赖专家选择的

token-level&nbsp;

协作存在本质上的不可识别性，无法保证恢复出近似最优策略。这一不可能性结果解释了过去

token-level&nbsp;

方法在实践中表现不稳定的根源，也从理论上论证了

&nbsp;router&nbsp;

作为补充生成器的必要性

——

在加入补充

&nbsp;logits&nbsp;

之后，最终策略的可表达策略类被显著扩张，从而能够在更弱的假设下恢复近似最优。

在工程层面

，

FusionRoute&nbsp;

既不要求各专家模型结构同构，也无需对专家进行任何额外的梯度更新，仅需训练一个轻量级

&nbsp;router

，就可以将一组现成的、结构异质的领域模型组装成一个综合能力更强的系统。这种

"

即插即用

"

的设计在实际部署中具有重要意义

——

当一个新的领域专家出现时，可以快速纳入协作框架，而无需推倒重训整个系统。

最重要的是，这些性能提升并不依赖于对

&nbsp;expert&nbsp;

模型的额外微调，而是通过更高效的推理协作机制实现的。这表明

&nbsp;FusionRoute&nbsp;

能够在保持较低额外成本的前提下，充分挖掘多模型之间的互补能力，从而实现更强的综合表现。沿着这一方向，多个专门化小模型的协作正在成为通用大模型之外一条具有现实价值的技术路径。

© THE END&nbsp;

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com
← 上一篇
AI真能学会心算？隐式思维链首次得到理论证明，Stuart Russell参与
论文精选｜PTC电热膜供暖系统间歇运行方案优化
← 返回资讯列表