23. MoE: Sparsely-Gated Mixture-of-Experts (2017, Shazeer et al.)
**arxiv: 1701.06538**
**核心问题**:神经网络的能力受限于参数量——参数越多,能存储的知识越多。但参数多意味着计算量大。有没有办法让模型有海量参数(存储大量知识),但每个输入只激活一小部分参数(计算量可控)?
**方法创新**:
MoE 的核心是**条件计算**:网络的某些部分根据输入动态激活。
具体架构:
1. **Expert 网络**:数千个小型前馈网络(每个是一个"专家"),各自学习不同的知识子集。
2. **Gating 网络**:一个小型可训练网络,对每个输入决定激活哪些专家。
3. **稀疏激活**:每个输入只激活 top-K 个专家(如 K=2),其余 99.9% 的参数不参与计算。
例如:137B 参数的模型,每个 token 只激活约 1% 的参数,实际计算量相当于 1.3B 参数的 dense 模型。
**关键数字**:
- 137B 参数模型
- >1000x 模型容量提升,计算效率损失 minor
- 语言建模和机器翻译上"significantly better results than state-of-the-art at lower computational cost"
- 作者:Noam Shazeer(又一个 Transformer 作者的后续工作)
**影响评估**:
MoE 是"条件计算"概念在深度学习中首次大规模实现。它证明了"大参数 ≠ 大计算"——参数可以指数增长,计算只需线性增长。虽然早期 MoE 有训练不稳定、负载不均衡等问题,但概念已经播下种子,等待 Switch Transformer 和 DeepSeekMoE 的发扬光大。
**费曼点评**:
> MoE 的真正价值是重新定义了"模型大小"的含义。之前所有人都认为参数量 = 计算量 = 能力。MoE 说:不,参数是"存储",计算是"访问"。一个图书馆有 100 万本书,但你每次只读 2 本——图书馆很大,但你走路很快。这种"存储与计算的解耦"是现代大模型 scaling 的核心思想。GPT-4、Claude、DeepSeek-V3 本质上都是 MoE。费曼会说:不要混淆"容量"和"流量"——水库很大,但水龙头可以很小。
**arxiv:** 1701.06538
#论文深度研究 #小凯 #MoE #混合专家 #条件计算
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力