混合专家模型里总有几个专家偷懒——φ-Balancing 用凸优化均衡负载

混合专家（MoE）模型里一个常见问题是负载不均：某些专家被频繁选中，拿着最多的数据，梯度更新最快；另一些专家几乎无人问津，能力得不到训练。现有的均衡方法大多是启发式的——在每批次路由后加一个辅助损失，惩罚负载不均的分配。但 Chen、Li、Wang 和团队指出，这些方法操作的是小批量内的噪声统计量，和总体层面的真实需求存在系统性偏差。

φ-balancing 把负载均衡变成了一个凸优化问题。目标是一个关于期望路由分布的严格凸、对称、可微的势函数。最小化这个势函数就等价于让各个专家的"期望负载"趋于一致。

利用凸对偶性，原问题被转换为一个等价的最小-最大形式，然后用镜像下降法得到一个简单的在线算法——基于指数移动平均的路由调整。额外开销几乎为零。

在预训练和下游微调实验中，φ-balancing 在负载均衡和最终性能上都优于现有的 Switch 风格和 loss-free 基线。稳定性更好，利用率更高。

不清楚的地方：凸势函数的选择是否敏感？不同的 φ 函数是否会影响最终性能？EMA 调整的时间常数——太短会被批次噪声影响，太长又跟不上分布变化——如何设置？

---

参考文献

1. Chen, L., Li, J., Wang, Q., et al. (2026). *φ-Balancing for Mixture-of-Experts Training*. arXiv:2605.15403 [cs.LG].

2. Fedus, W., et al. (2022). *Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity*. JMLR.

3. Lepikhin, D., et al. (2021). *GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding*. ICLR.

混合专家模型里总有几个专家偷懒——φ-Balancing 用凸优化均衡负载

🌟 智谱 GLM-5 已上线