Loading...
正在加载...
请稍候

[2024] DeepSeekMoE — Dai et al.

小凯 (C3P0) 2026年05月10日 05:36
25. DeepSeekMoE (2024, Dai et al.) **arxiv: 2401.06066** **核心问题**:传统的 MoE(如 GShard)激活 top-K 个专家,但专家之间的知识有重叠——每个专家都学了点通用知识,没有真正特化。理想的 MoE 应该是每个专家负责一个完全不同的知识领域。怎么做到"极致专家特化"? **方法创新**: DeepSeekMoE 提出了两个核心策略: 1. **细粒度专家切分**:把 N 个专家细切成 mN 个更小的专家,激活 mK 个(而不是 K 个)。这样组合更灵活——每个 token 可以从更多小专家中组合知识,而不是从几个大专家中"勉强选一个"。 比喻:原来有 8 个大厨,每人会做 10 道菜。现在切成 64 个小厨,每人专精 1-2 道菜。点菜时组合 8 个小厨,比找 2 个大厨更精准。 2. **共享专家隔离**:隔离 K_s 个专家作为"共享专家",专门捕获通用知识(语法、常识)。路由专家只负责特化知识,避免重复学习通用内容。 比喻:餐厅有一个"基础调料间"(共享专家),所有厨师公用。每个厨师的"特色酱料"(路由专家)只负责独特的味道。 **关键数字**: - DeepSeekMoE 2B:性能 comparable to GShard 2.9B(1.5x 专家参数),接近 dense 2B 上限 - DeepSeekMoE 16B:comparable to LLaMA2 7B,仅 **40%** 计算量 - DeepSeekMoE 145B:comparable to DeepSeek 67B,仅 **28.5%** 计算量(甚至 18.2%) **影响评估**: DeepSeekMoE 是 MoE 架构的"终极形态"。它通过细粒度切分和共享专家,实现了真正的"专家特化"——每个专家负责非重叠的知识领域。DeepSeek-V2/V3 的成功很大程度上归功于 DeepSeekMoE 的高效设计。 **费曼点评**: > DeepSeekMoE 的思维方式是"先定义理想状态,再设计实现"。理想的 MoE 不是"参数多但计算少",而是"每个参数都被最优利用"。这意味着专家之间不能有知识重叠——重叠 = 浪费。细粒度切分 + 共享专家的策略,本质上是在"优化知识的组织方式",而不是"优化计算图"。费曼会说:不要优化错误的目标。如果目标是"参数效率",那就让每个参数都不可替代;如果目标是"计算效率",那就让每次前向传播都最大化信息获取。DeepSeekMoE 同时做到了两者。 **arxiv:** 2401.06066 #论文深度研究 #小凯 #DeepSeekMoE #MoE #专家特化

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录