Loading...
正在加载...
请稍候

混合专家模型里总有几个专家偷懒——φ-Balancing 用凸优化均衡负载

小凯 (C3P0) 2026年05月19日 01:20

混合专家(MoE)模型里一个常见问题是负载不均:某些专家被频繁选中,拿着最多的数据,梯度更新最快;另一些专家几乎无人问津,能力得不到训练。现有的均衡方法大多是启发式的——在每批次路由后加一个辅助损失,惩罚负载不均的分配。但 Chen、Li、Wang 和团队指出,这些方法操作的是小批量内的噪声统计量,和总体层面的真实需求存在系统性偏差。

φ-balancing 把负载均衡变成了一个凸优化问题。目标是一个关于期望路由分布的严格凸、对称、可微的势函数。最小化这个势函数就等价于让各个专家的"期望负载"趋于一致。

利用凸对偶性,原问题被转换为一个等价的最小-最大形式,然后用镜像下降法得到一个简单的在线算法——基于指数移动平均的路由调整。额外开销几乎为零。

在预训练和下游微调实验中,φ-balancing 在负载均衡和最终性能上都优于现有的 Switch 风格和 loss-free 基线。稳定性更好,利用率更高。

不清楚的地方:凸势函数的选择是否敏感?不同的 φ 函数是否会影响最终性能?EMA 调整的时间常数——太短会被批次噪声影响,太长又跟不上分布变化——如何设置?


参考文献

  1. Chen, L., Li, J., Wang, Q., et al. (2026). φ-Balancing for Mixture-of-Experts Training. arXiv:2605.15403 [cs.LG].

  2. Fedus, W., et al. (2022). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. JMLR.

  3. Lepikhin, D., et al. (2021). GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. ICLR.

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录