"一个 LLM 不够,那就上好几个。"
这是去年到现在多智能体系统突然火起来的原因。你把几个 LLM 放到一个"群聊"里,让它们互相讨论、辩论、审阅答案,结果往往比单个 LLM 好不少。
但大多数的多智能体系统有一个共同的局限:谁和谁在什么时候说话,是人预先定好的。比如"先让检索智能体给出参考资料,然后让推理智能体读这些资料,最后让审查智能体检查答案"。这是一个固定的流水线。如果某个问题根本不需要检索——直接推理更快——系统还是先把检索跑一遍,把资源浪费掉了。
Wu、Lu、Yan、Qiu、Hu、Guo 和 Yang 的这篇论文(2605.15706)想解决的就是这个问题:能不能让多智能体系统自己学会,在每一步决定"目前这种情况,谁应该发言"?
**🧠 可微分路由**
他们的框架叫 Differentiable Mixture-of-Agents——DMoA。核心是一个可微分的路由机制。
每次推理,系统维护一个所有智能体之间可能对话的集合。但不会全部激活——路由机制选择"哪些智能体在这个步骤上参与"。选择不是硬性的——某些智能体可能被完全静音,某些被部分激活。
路由机制本身是一个小型的循环神经网络。它在每一步接收当前和历史上下文,输出一个稀疏的激活掩码。这个掩码决定了每个智能体的权重。
关键点:这个路由机制是通过梯度下降训练出来的。如果在某个任务上,最好的策略是让智能体 A 发言后智能体 B 发言,路由机制会在训练过程中学会这个模式。如果是智能体 B 先发言再激活 C,它也学会。
不需要人工为每个任务设计通信拓扑。
**🎯 自监督的路由优化**
更巧妙的是,他们用"预测熵"作为自监督信号来优化路由。原理是这样的:如果当前所有智能体的输出高度一致(低熵),说明这个问题可能不需要更多讨论,系统可以进入总结阶段。如果输出高度分歧(高熵),说明还需要更多的交互来收敛答案。
不需要外部标注,不需要奖励模型,不需要人类反馈。系统在推理时自行决定"还需要讨论多久"。
在 9 个基准上的实验表明,DMoA 达到了当前最佳结果,同时展现了很好的效率和鲁棒性。
**🤷 不清楚的地方**
我不确定的事情:
第一,路由机制学习的"通信策略"能泛化到没见过的任务类型吗?如果训练集里都是数学推理任务,路由学会了"数学家模式"——先算再验。把它放到一个需要外部知识检索的任务上,它会自动切换到"先查再算"模式吗?路由网络的循环结构有能力做这种切换——但它的训练数据可能已经决定了哪些模式被学习过。
第二,可微分路由要求整个多智能体前向传播是可微的。但 LLM 的离散 token 生成是不可微的——你没法通过 argmax 采样传递梯度。如果 DMoA 用的是连续表示(如隐层激活)的交流而不是离散文本的交流,那它在实际部署中是否和训练时一致?如果用的是离散文本交流,那路由的梯度是怎么穿过离散采样的?论文摘要没有解释这个工程细节。
第三,稀疏激活避免了不必要的计算,但路由网络本身也消耗计算。路由决策可能是每步都要做的,如果智能体数量大——比如几十个——路由的计算量可能接近甚至超过实际推理的计算量。论文没有讨论这个开销有多显著。
不过总体上说,DMoA 提供了一个自然的改进方向:不要手写智能体的沟通规则,让系统在数据中发现哪些规则最有效。
---
**参考文献**
1. Wu, X., et al. (2026). *Differentiable Mixture-of-Agents Incentivizes Swarm Intelligence of Large Language Models*. arXiv:2605.15706 [cs.LG]. https://arxiv.org/abs/2605.15706
2. Wang, L., et al. (2024). *A Survey on Large Language Model based Autonomous Agents*. arXiv:2308.11432.
3. Du, Y., et al. (2024). *Improving Factuality and Reasoning in Language Models through Multiagent Debate*. ICML 2024.
4. Shazeer, N., et al. (2017). *Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer*. ICLR 2017.
5. Vaswani, A., et al. (2017). *Attention Is All You Need*. NeurIPS 2017.
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力