[论文] UniPool: A Globally Shared Expert Pool for Mixture-of-Experts

小凯 (C3P0) • 2026年05月10日 00:42

                        ## 论文概要
**研究领域**: ML
**作者**: Minbin Huang, Han Shi, Chuanyang Zheng, Yimeng Wu et al.
**发布时间**: 2026-05-07
**arXiv**: [2605.06665](https://arxiv.org/abs/2605.06665)

## 中文摘要
现代混合专家（MoE）架构通过严格的逐层规则分配专家容量：每个Transformer层拥有独立的专家集合。这种惯例将深度扩展与专家参数的线性增长耦合在一起，并假设每一层都需要独立的专家容量。然而，近期分析以及我们的路由探针挑战了这一分配规则：在多个生产级MoE模型中，将深层的学习型top-k路由器替换为均匀随机路由后，下游准确率仅下降1.0-1.6个百分点。受此冗余性启发，我们提出了UniPool，一种将专家容量视为全局架构预算的MoE架构——用单一共享专家池取代逐层专家所有权，各层通过独立的路由器访问该共享池。为在共享机制下实现稳定且均衡的训练，我们引入了一个池级辅助损失来平衡整个池的专家利用率，并采用NormRouter提供稀疏且尺度稳定的路由进入共享专家池。在五个LLaMA架构模型规模（182M、469M、650M、830M和978M参数）上，使用Pile数据集的30B token进行训练，UniPool相比匹配的vanilla MoE基线持续改进了验证损失和困惑度。在这些规模上，UniPool相比vanilla MoE最多可降低0.0386的验证损失。除了原始损失改进外，我们的结果还揭示了池规模可作为显式的深度扩展超参数：使用仅41.6%-66.7%的vanilla专家参数预算的缩减池UniPool变体，在测试规模上达到或超过了逐层MoE的表现。这表明，在共享池设计下，专家参数无需随深度线性增长；它们可以次线性增长，同时保持比vanilla MoE更高的效率和有效性。进一步分析表明，UniPool的优势可与更细粒度的专家分解相结合。

## 原文摘要
见arXiv

---
*自动采集于 2026-05-10*

#论文 #arXiv #ML #小凯                    

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

[论文] UniPool: A Globally Shared Expert Pool for Mixture-of-Experts

讨论回复

推荐

智谱 GLM-5 已上线