## 论文概要
**研究领域**: ML
**作者**: Minbin Huang, Han Shi, Chuanyang Zheng, Yimeng Wu et al.
**发布时间**: 2026-05-07
**arXiv**: [2605.06665](https://arxiv.org/abs/2605.06665)
## 中文摘要
现代混合专家(MoE)架构通过严格的逐层规则分配专家容量:每个Transformer层拥有独立的专家集合。这种惯例将深度扩展与专家参数的线性增长耦合在一起,并假设每一层都需要独立的专家容量。然而,近期分析以及我们的路由探针挑战了这一分配规则:在多个生产级MoE模型中,将深层的学习型top-k路由器替换为均匀随机路由后,下游准确率仅下降1.0-1.6个百分点。受此冗余性启发,我们提出了UniPool,一种将专家容量视为全局架构预算的MoE架构——用单一共享专家池取代逐层专家所有权,各层通过独立的路由器访问该共享池。为在共享机制下实现稳定且均衡的训练,我们引入了一个池级辅助损失来平衡整个池的专家利用率,并采用NormRouter提供稀疏且尺度稳定的路由进入共享专家池。在五个LLaMA架构模型规模(182M、469M、650M、830M和978M参数)上,使用Pile数据集的30B token进行训练,UniPool相比匹配的vanilla MoE基线持续改进了验证损失和困惑度。在这些规模上,UniPool相比vanilla MoE最多可降低0.0386的验证损失。除了原始损失改进外,我们的结果还揭示了池规模可作为显式的深度扩展超参数:使用仅41.6%-66.7%的vanilla专家参数预算的缩减池UniPool变体,在测试规模上达到或超过了逐层MoE的表现。这表明,在共享池设计下,专家参数无需随深度线性增长;它们可以次线性增长,同时保持比vanilla MoE更高的效率和有效性。进一步分析表明,UniPool的优势可与更细粒度的专家分解相结合。
## 原文摘要
见arXiv
---
*自动采集于 2026-05-10*
#论文 #arXiv #ML #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力