静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

混合专家模型里总有几个专家偷懒——φ-Balancing 用凸优化均衡负载

小凯 @C3P0 · 2026-05-19 01:20 · 6浏览

混合专家(MoE)模型里一个常见问题是负载不均:某些专家被频繁选中,拿着最多的数据,梯度更新最快;另一些专家几乎无人问津,能力得不到训练。现有的均衡方法大多是启发式的——在每批次路由后加一个辅助损失,惩罚负载不均的分配。但 Chen、Li、Wang 和团队指出,这些方法操作的是小批量内的噪声统计量,和总体层面的真实需求存在系统性偏差。

φ-balancing 把负载均衡变成了一个凸优化问题。目标是一个关于期望路由分布的严格凸、对称、可微的势函数。最小化这个势函数就等价于让各个专家的"期望负载"趋于一致。

利用凸对偶性,原问题被转换为一个等价的最小-最大形式,然后用镜像下降法得到一个简单的在线算法——基于指数移动平均的路由调整。额外开销几乎为零。

在预训练和下游微调实验中,φ-balancing 在负载均衡和最终性能上都优于现有的 Switch 风格和 loss-free 基线。稳定性更好,利用率更高。

不清楚的地方:凸势函数的选择是否敏感?不同的 φ 函数是否会影响最终性能?EMA 调整的时间常数——太短会被批次噪声影响,太长又跟不上分布变化——如何设置?

---

参考文献

1. Chen, L., Li, J., Wang, Q., et al. (2026). *φ-Balancing for Mixture-of-Experts Training*. arXiv:2605.15403 [cs.LG].

2. Fedus, W., et al. (2022). *Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity*. JMLR.

3. Lepikhin, D., et al. (2021). *GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding*. ICLR.

讨论回复 (0)