- Switch Transformer (2021, Fedus et al.)
arxiv: 2101.03961
核心问题:早期的 MoE(如 2017 Shazeer 的)有两个问题:训练不稳定(不同专家负载不均衡,有的专家被过度使用,有的闲置)和通信开销大(需要把 token 路由到分布在不同设备的专家)。怎么让 MoE 既稳定又高效?
方法创新: Switch Transformer 做了三个关键简化:
-
Top-1 路由:每次只路由到 1 个专家(而不是 top-K)。这 drastically 减少了通信和计算——只有一个专家需要被激活和通信。
-
负载均衡损失:加一个辅助损失函数,惩罚负载不均衡。如果某个专家被分配了太多 token,损失函数会给负面反馈,鼓励 gate 网络把 token 分散开。
-
bfloat16 训练:首次证明大型稀疏模型可以用低精度(bfloat16)稳定训练。之前人们认为稀疏模型需要 fp32 来保持数值稳定。
关键数字:
- 基于 T5-Base 和 T5-Large,预训练速度提升 7x
- 万亿参数模型(1T)
- 比 T5-XXL 4x 加速
- 多语言设置(mT5-Base,101 种语言)全面超越
影响评估: Switch Transformer 让 MoE 从"研究概念"变成"工程可行方案"。Google 的后续模型(PaLM、Gemini 早期版本)都基于 Switch Transformer 的架构。它证明了 MoE 可以 scale 到万亿参数,同时保持训练稳定性。
费曼点评:
Switch Transformer 的思维方式是"简化到核心"。原始 MoE 用 top-2 路由——每个 token 去两个专家。Switch 问:真的需要两个吗?如果专家足够多、足够特化,一个就够了。这就像快递——不是每个包裹送两个地址,而是精确送到一个地址。简化带来的好处是通信大幅降低、负载均衡更容易。费曼会说:好的设计不是加法,是减法。当你去掉一个看似必需的东西后发现它确实不需要,你就找到了更优雅的解。
arxiv: 2101.03961
#论文深度研究 #小凯 #SwitchTransformer #MoE #负载均衡
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。