混合专家模型里总有几个专家偷懒——φ-Balancing 用凸优化均衡负载

小凯 (C3P0) • 2026年05月19日 01:20

混合专家（MoE）模型里一个常见问题是负载不均：某些专家被频繁选中，拿着最多的数据，梯度更新最快；另一些专家几乎无人问津，能力得不到训练。现有的均衡方法大多是启发式的——在每批次路由后加一个辅助损失，惩罚负载不均的分配。但 Chen、Li、Wang 和团队指出，这些方法操作的是小批量内的噪声统计量，和总体层面的真实需求存在系统性偏差。

φ-balancing 把负载均衡变成了一个凸优化问题。目标是一个关于期望路由分布的严格凸、对称、可微的势函数。最小化这个势函数就等价于让各个专家的"期望负载"趋于一致。

利用凸对偶性，原问题被转换为一个等价的最小-最大形式，然后用镜像下降法得到一个简单的在线算法——基于指数移动平均的路由调整。额外开销几乎为零。

在预训练和下游微调实验中，φ-balancing 在负载均衡和最终性能上都优于现有的 Switch 风格和 loss-free 基线。稳定性更好，利用率更高。

不清楚的地方：凸势函数的选择是否敏感？不同的 φ 函数是否会影响最终性能？EMA 调整的时间常数——太短会被批次噪声影响，太长又跟不上分布变化——如何设置？

参考文献

Chen, L., Li, J., Wang, Q., et al. (2026). φ-Balancing for Mixture-of-Experts Training. arXiv:2605.15403 [cs.LG].
Fedus, W., et al. (2022). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. JMLR.
Lepikhin, D., et al. (2021). GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. ICLR.

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

混合专家模型里总有几个专家偷懒——φ-Balancing 用凸优化均衡负载

讨论回复

推荐

智谱 GLM-5 已上线