一群 LLM 一起解一道题——谁和谁说话，让梯度自己决定

"一个 LLM 不够，那就上好几个。"

这是去年到现在多智能体系统突然火起来的原因。你把几个 LLM 放到一个"群聊"里，让它们互相讨论、辩论、审阅答案，结果往往比单个 LLM 好不少。

但大多数的多智能体系统有一个共同的局限：谁和谁在什么时候说话，是人预先定好的。比如"先让检索智能体给出参考资料，然后让推理智能体读这些资料，最后让审查智能体检查答案"。这是一个固定的流水线。如果某个问题根本不需要检索——直接推理更快——系统还是先把检索跑一遍，把资源浪费掉了。

Wu、Lu、Yan、Qiu、Hu、Guo 和 Yang 的这篇论文（2605.15706）想解决的就是这个问题：能不能让多智能体系统自己学会，在每一步决定"目前这种情况，谁应该发言"？

🧠 可微分路由

他们的框架叫 Differentiable Mixture-of-Agents——DMoA。核心是一个可微分的路由机制。

每次推理，系统维护一个所有智能体之间可能对话的集合。但不会全部激活——路由机制选择"哪些智能体在这个步骤上参与"。选择不是硬性的——某些智能体可能被完全静音，某些被部分激活。

路由机制本身是一个小型的循环神经网络。它在每一步接收当前和历史上下文，输出一个稀疏的激活掩码。这个掩码决定了每个智能体的权重。

关键点：这个路由机制是通过梯度下降训练出来的。如果在某个任务上，最好的策略是让智能体 A 发言后智能体 B 发言，路由机制会在训练过程中学会这个模式。如果是智能体 B 先发言再激活 C，它也学会。

不需要人工为每个任务设计通信拓扑。

🎯 自监督的路由优化

更巧妙的是，他们用"预测熵"作为自监督信号来优化路由。原理是这样的：如果当前所有智能体的输出高度一致（低熵），说明这个问题可能不需要更多讨论，系统可以进入总结阶段。如果输出高度分歧（高熵），说明还需要更多的交互来收敛答案。

不需要外部标注，不需要奖励模型，不需要人类反馈。系统在推理时自行决定"还需要讨论多久"。

在 9 个基准上的实验表明，DMoA 达到了当前最佳结果，同时展现了很好的效率和鲁棒性。

🤷 不清楚的地方

我不确定的事情：

第一，路由机制学习的"通信策略"能泛化到没见过的任务类型吗？如果训练集里都是数学推理任务，路由学会了"数学家模式"——先算再验。把它放到一个需要外部知识检索的任务上，它会自动切换到"先查再算"模式吗？路由网络的循环结构有能力做这种切换——但它的训练数据可能已经决定了哪些模式被学习过。

第二，可微分路由要求整个多智能体前向传播是可微的。但 LLM 的离散 token 生成是不可微的——你没法通过 argmax 采样传递梯度。如果 DMoA 用的是连续表示（如隐层激活）的交流而不是离散文本的交流，那它在实际部署中是否和训练时一致？如果用的是离散文本交流，那路由的梯度是怎么穿过离散采样的？论文摘要没有解释这个工程细节。

第三，稀疏激活避免了不必要的计算，但路由网络本身也消耗计算。路由决策可能是每步都要做的，如果智能体数量大——比如几十个——路由的计算量可能接近甚至超过实际推理的计算量。论文没有讨论这个开销有多显著。

不过总体上说，DMoA 提供了一个自然的改进方向：不要手写智能体的沟通规则，让系统在数据中发现哪些规则最有效。

---

参考文献

1. Wu, X., et al. (2026). *Differentiable Mixture-of-Agents Incentivizes Swarm Intelligence of Large Language Models*. arXiv:2605.15706 [cs.LG]. https://arxiv.org/abs/2605.15706

2. Wang, L., et al. (2024). *A Survey on Large Language Model based Autonomous Agents*. arXiv:2308.11432.

3. Du, Y., et al. (2024). *Improving Factuality and Reasoning in Language Models through Multiagent Debate*. ICML 2024.

4. Shazeer, N., et al. (2017). *Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer*. ICLR 2017.

5. Vaswani, A., et al. (2017). *Attention Is All You Need*. NeurIPS 2017.

一群 LLM 一起解一道题——谁和谁说话，让梯度自己决定

🌟 智谱 GLM-5 已上线