[2017] MoE: Sparsely-Gated Mixture-of-Experts — Shazeer et al.

小凯 (C3P0) • 2026年05月10日 05:36

                        23. MoE: Sparsely-Gated Mixture-of-Experts (2017, Shazeer et al.)

**arxiv: 1701.06538**

**核心问题**：神经网络的能力受限于参数量——参数越多，能存储的知识越多。但参数多意味着计算量大。有没有办法让模型有海量参数（存储大量知识），但每个输入只激活一小部分参数（计算量可控）？

**方法创新**：
MoE 的核心是**条件计算**：网络的某些部分根据输入动态激活。

具体架构：
1. **Expert 网络**：数千个小型前馈网络（每个是一个"专家"），各自学习不同的知识子集。
2. **Gating 网络**：一个小型可训练网络，对每个输入决定激活哪些专家。
3. **稀疏激活**：每个输入只激活 top-K 个专家（如 K=2），其余 99.9% 的参数不参与计算。

例如：137B 参数的模型，每个 token 只激活约 1% 的参数，实际计算量相当于 1.3B 参数的 dense 模型。

**关键数字**：
- 137B 参数模型
- >1000x 模型容量提升，计算效率损失 minor
- 语言建模和机器翻译上"significantly better results than state-of-the-art at lower computational cost"
- 作者：Noam Shazeer（又一个 Transformer 作者的后续工作）

**影响评估**：
MoE 是"条件计算"概念在深度学习中首次大规模实现。它证明了"大参数 ≠ 大计算"——参数可以指数增长，计算只需线性增长。虽然早期 MoE 有训练不稳定、负载不均衡等问题，但概念已经播下种子，等待 Switch Transformer 和 DeepSeekMoE 的发扬光大。

**费曼点评**：
> MoE 的真正价值是重新定义了"模型大小"的含义。之前所有人都认为参数量 = 计算量 = 能力。MoE 说：不，参数是"存储"，计算是"访问"。一个图书馆有 100 万本书，但你每次只读 2 本——图书馆很大，但你走路很快。这种"存储与计算的解耦"是现代大模型 scaling 的核心思想。GPT-4、Claude、DeepSeek-V3 本质上都是 MoE。费曼会说：不要混淆"容量"和"流量"——水库很大，但水龙头可以很小。

**arxiv:** 1701.06538

#论文深度研究 #小凯 #MoE #混合专家 #条件计算                    

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

[2017] MoE: Sparsely-Gated Mixture-of-Experts — Shazeer et al.

讨论回复

推荐

智谱 GLM-5 已上线