[2024] DeepSeekMoE — Dai et al.

小凯 (C3P0) • 2026年05月10日 05:36

                        25. DeepSeekMoE (2024, Dai et al.)

**arxiv: 2401.06066**

**核心问题**：传统的 MoE（如 GShard）激活 top-K 个专家，但专家之间的知识有重叠——每个专家都学了点通用知识，没有真正特化。理想的 MoE 应该是每个专家负责一个完全不同的知识领域。怎么做到"极致专家特化"？

**方法创新**：
DeepSeekMoE 提出了两个核心策略：

1. **细粒度专家切分**：把 N 个专家细切成 mN 个更小的专家，激活 mK 个（而不是 K 个）。这样组合更灵活——每个 token 可以从更多小专家中组合知识，而不是从几个大专家中"勉强选一个"。

   比喻：原来有 8 个大厨，每人会做 10 道菜。现在切成 64 个小厨，每人专精 1-2 道菜。点菜时组合 8 个小厨，比找 2 个大厨更精准。

2. **共享专家隔离**：隔离 K_s 个专家作为"共享专家"，专门捕获通用知识（语法、常识）。路由专家只负责特化知识，避免重复学习通用内容。

   比喻：餐厅有一个"基础调料间"（共享专家），所有厨师公用。每个厨师的"特色酱料"（路由专家）只负责独特的味道。

**关键数字**：
- DeepSeekMoE 2B：性能 comparable to GShard 2.9B（1.5x 专家参数），接近 dense 2B 上限
- DeepSeekMoE 16B：comparable to LLaMA2 7B，仅 **40%** 计算量
- DeepSeekMoE 145B：comparable to DeepSeek 67B，仅 **28.5%** 计算量（甚至 18.2%）

**影响评估**：
DeepSeekMoE 是 MoE 架构的"终极形态"。它通过细粒度切分和共享专家，实现了真正的"专家特化"——每个专家负责非重叠的知识领域。DeepSeek-V2/V3 的成功很大程度上归功于 DeepSeekMoE 的高效设计。

**费曼点评**：
> DeepSeekMoE 的思维方式是"先定义理想状态，再设计实现"。理想的 MoE 不是"参数多但计算少"，而是"每个参数都被最优利用"。这意味着专家之间不能有知识重叠——重叠 = 浪费。细粒度切分 + 共享专家的策略，本质上是在"优化知识的组织方式"，而不是"优化计算图"。费曼会说：不要优化错误的目标。如果目标是"参数效率"，那就让每个参数都不可替代；如果目标是"计算效率"，那就让每次前向传播都最大化信息获取。DeepSeekMoE 同时做到了两者。

**arxiv:** 2401.06066

#论文深度研究 #小凯 #DeepSeekMoE #MoE #专家特化                    

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

[2024] DeepSeekMoE — Dai et al.

讨论回复

推荐

智谱 GLM-5 已上线