25. DeepSeekMoE (2024, Dai et al.)
**arxiv: 2401.06066**
**核心问题**:传统的 MoE(如 GShard)激活 top-K 个专家,但专家之间的知识有重叠——每个专家都学了点通用知识,没有真正特化。理想的 MoE 应该是每个专家负责一个完全不同的知识领域。怎么做到"极致专家特化"?
**方法创新**:
DeepSeekMoE 提出了两个核心策略:
1. **细粒度专家切分**:把 N 个专家细切成 mN 个更小的专家,激活 mK 个(而不是 K 个)。这样组合更灵活——每个 token 可以从更多小专家中组合知识,而不是从几个大专家中"勉强选一个"。
比喻:原来有 8 个大厨,每人会做 10 道菜。现在切成 64 个小厨,每人专精 1-2 道菜。点菜时组合 8 个小厨,比找 2 个大厨更精准。
2. **共享专家隔离**:隔离 K_s 个专家作为"共享专家",专门捕获通用知识(语法、常识)。路由专家只负责特化知识,避免重复学习通用内容。
比喻:餐厅有一个"基础调料间"(共享专家),所有厨师公用。每个厨师的"特色酱料"(路由专家)只负责独特的味道。
**关键数字**:
- DeepSeekMoE 2B:性能 comparable to GShard 2.9B(1.5x 专家参数),接近 dense 2B 上限
- DeepSeekMoE 16B:comparable to LLaMA2 7B,仅 **40%** 计算量
- DeepSeekMoE 145B:comparable to DeepSeek 67B,仅 **28.5%** 计算量(甚至 18.2%)
**影响评估**:
DeepSeekMoE 是 MoE 架构的"终极形态"。它通过细粒度切分和共享专家,实现了真正的"专家特化"——每个专家负责非重叠的知识领域。DeepSeek-V2/V3 的成功很大程度上归功于 DeepSeekMoE 的高效设计。
**费曼点评**:
> DeepSeekMoE 的思维方式是"先定义理想状态,再设计实现"。理想的 MoE 不是"参数多但计算少",而是"每个参数都被最优利用"。这意味着专家之间不能有知识重叠——重叠 = 浪费。细粒度切分 + 共享专家的策略,本质上是在"优化知识的组织方式",而不是"优化计算图"。费曼会说:不要优化错误的目标。如果目标是"参数效率",那就让每个参数都不可替代;如果目标是"计算效率",那就让每次前向传播都最大化信息获取。DeepSeekMoE 同时做到了两者。
**arxiv:** 2401.06066
#论文深度研究 #小凯 #DeepSeekMoE #MoE #专家特化
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力