EMO：预训练涌现模块化 —— MoE 架构的范式转移

> 摘要速览：UC Berkeley 与 Allen Institute for AI 联合提出 EMO，通过文档级专家池约束实现 MoE 预训练中的涌现模块化。1B/14B 参数模型在 1T tokens 上训练，保留 25% 专家时性能仅下降 1%（标准 MoE 下降 10%），专家专业化从句法层面跃迁至语义层面。代码、模型、可视化均已开源。

---

1. 问题重构：MoE 的"稀疏性悖论"

混合专家模型（Mixture-of-Experts, MoE）自 2017 年 Shazeer 等人提出以来，已成为大语言模型 Scaling Law 的核心支柱。DeepSeek-V3、Qwen3、Grok-1 等前沿系统均采用 MoE 架构，其核心承诺是：通过稀疏激活，以远低于 Dense 模型的计算成本，实现同等的表达能力。

> Annotation: MoE 的形式化定义 > > 在标准 MoE 层中，输入 token 的隐状态 $x_t$ 经过路由器 $r(\cdot)$ 生成路由分布： > $$p_t = \text{softmax}(r(x_t)) \in \mathbb{R}^{n_r}$$ > 其中 $n_r$ 为可路由专家总数。激活专家集合为： > $$R_t = \text{TopK}(p_t, k)$$ > 最终输出为加权组合： > $$\text{FFN}_{\text{out}}(x_t) = \sum_{i \in R_t} (p_t)_i \cdot E_i(x_t) + \sum_{j=1}^{n_s} E_j^{(s)}(x_t)$$ > 第二项为共享专家（始终激活），$n_s$ 通常为 1。

然而，这一承诺存在一个根本性的部署层面悖论：

维度	理论承诺	实际部署
计算	仅激活 $k$ 个专家	✓ 实现
内存	仅需加载活跃专家	✗ 需加载全部 $n_r + n_s$ 个专家
专业化	专家按任务/领域分工	✗ 专家按句法成分分工

现有研究表明，标准 MoE 的专家专业化停留在表层句法层面——介词、标点符号、冠词、词内子词片段等。其后果是：即使任务仅需单一领域能力（如数学推理），推理过程中仍会激活绝大多数专家，因为每个 token 都在寻找自己的"语法专家"。

> Annotation: 专家专业化的句法陷阱 > > 标准 MoE 中每个 token 独立路由。模型发现"所有介词具有相似的上下文分布"，遂将介词路由至同一组专家。结果是：一篇数学论文中的 "the" "of" "is" 等 token 被拆散至不同专家，而 "theorem" "proof" "lemma" 等数学术语也因与通用词汇共享句法特征而被分散。

这一悖论的直接后果是：MoE 的"稀疏"仅在前向计算层面成立，在内存占用层面仍是稠密的。随着模型规模向万亿参数推进，VRAM 瓶颈已成为 MoE 部署的首要约束。

---

2. EMO 的方法论：文档边界作为弱监督信号

EMO（Emergent Modularity via pretraining MoE）的核心贡献，是将模块化提升为预训练的 first-class 优化目标。其方法论极简：利用预训练语料天然存在的文档边界，约束同一文档内的所有 token 共享一个专家池。

2.1 文档级专家池约束

形式上，EMO 对标准 MoE 的修改仅涉及路由机制：

步骤 1：计算文档级平均路由分布 $$\bar{p} = \frac{1}{T} \sum_{t=1}^{T} p_t = \frac{1}{T} \sum_{t=1}^{T} \text{softmax}(r(x_t))$$

步骤 2：选取 Top-$d$ 专家组成文档专家池 $$D = \text{TopK}(\bar{p}, d), \quad D \subseteq \{1, \ldots, n_r\}$$

步骤 3：文档内所有 token 的激活专家必须从 $D$ 中选取 $$\hat{p}_t(i) = \begin{cases} \dfrac{(p_t)_i}{\sum_{j \in D} (p_t)_j} & \text{if } i \in D \\[6pt] 0 & \text{otherwise} \end{cases}$$

$$R_t = \text{TopK}(\hat{p}_t, k)$$

> Annotation: 重归一化的必要性 > > 若直接对池外专家置零而不重归一化，路由概率之和将小于 1，导致门控权重衰减。EMO 通过条件重归一化确保： > $$\sum_{i \in D} \hat{p}_t(i) = 1$$ > 从而保持专家组合的加权和不变性。

2.2 动态池大小：训练时随机化

固定池大小 $d$ 会导致推理时的刚性约束——模型仅熟悉规模为 $d$ 的子集。EMO 的解决方案是将 $d$ 视为随机变量：

$$d \sim \mathcal{U}\{k, k+1, \ldots, n_r\}$$

每篇文档独立采样 $d$。这一设计的深层意义在于：模型在预训练阶段即暴露于所有可能的子集规模，从而学会在各种内存预算下保持稳定性能。

2.3 全局负载均衡

文档级约束与标准微批次负载均衡（micro-batch load balancing）存在张力：后者仅聚合少量文档的路由统计，倾向于将同一文档的 token 分散至不同专家，直接与共享池约束冲突。

EMO 采用全局负载均衡（global load balancing），在数据并行组间聚合路由统计。负载均衡损失：

$$\mathcal{L}_{\text{LB}} = n_r \sum_{i=1}^{n_r} \bar{f}_i \cdot \bar{P}_i$$

其中 $\bar{f}_i$ 为路由至专家 $i$ 的 token 比例，$\bar{P}_i$ 为专家 $i$ 的平均路由概率。全局聚合使负载均衡目标作用于跨文档的专家利用率分布，而共享池约束作用于文档内的专家一致性——二者互补而非冲突。

---

3. 实验架构与评估协议

配置项	参数
活跃参数	1B
总参数	14B
路由专家数 $n_r$	127
共享专家数 $n_s$	1
每 token 激活专家 $k$	8
预训练数据	1T tokens (OLMoE corpus)
退火阶段	50B tokens (linear annealing)
基线	同架构标准 MoE，同数据同规模

评估分为两个场景：

1. 全模型评估（Full-model）：标准 zero-shot 设置，覆盖 MC9、Gen5、MMLU、MMLU-Pro、GSM8K 2. 选择性专家使用（Selective Expert Use）：为每个下游领域识别相关专家子集，仅加载子集进行推理

专家子集选取方法：

Router-based：聚合验证集 token 的路由概率，按平均概率排序选取 Top-$d$
Easy-EP（SOTA 专家剪枝方法）：作为对比
Random：随机选取作为下界

---

4. 核心实验结果

4.1 全模型性能：零代价的模块化

模型	训练数据	MC9	Gen5	MMLU	MMLU-Pro	GSM8K
OLMoE†	5T	63.5	57.6	42.8	18.7	13.7
标准 MoE	1T	63.9	59.7	42.4	19.3	13.9
EMO	1T	63.1	57.9	42.8	18.5	12.0

> † OLMoE 使用旧架构（无 pre-norm、有 QK-norm、无共享专家、微批次负载均衡），总专家数 64。

关键发现：EMO 在 1T tokens 上的全模型性能与标准 MoE 持平（MMLU 42.8 vs 42.4），且均显著优于 5T tokens 训练的 OLMoE。模块化目标未对全模型性能产生可观测的负面影响。

4.2 选择性专家使用：数量级的差距

专家子集规模	EMO (无 FT)	标准 MoE (无 FT)	EMO (有 FT)	标准 MoE (有 FT)
128 (全模型)	42.8	42.4	43.6	43.0
64 (50%)	42.5	39.4	43.3	40.5
32 (25%)	41.4	31.1	41.7	33.5
16 (12.5%)	39.9	24.6	40.1	28.4
8 (6.25%)	36.1	~10 (random)	37.3	~10

> 数据为 MMLU macro-averaged（排除 "other" category），1T token 训练。

性能衰减的定量对比：

指标	EMO	标准 MoE
保留 25% 专家时的 MMLU 下降	-1.4 (3.3%)	-11.3 (26.7%)
保留 12.5% 专家时的 MMLU 下降	-2.9 (6.8%)	-17.8 (42.0%)
保留 6.25% 专家时的 MMLU 下降	-6.7 (15.7%)	~32 (~75%)

更深层的意义：EMO 的 32 专家子集（约 3.5B 总参数） outperform 了从头训练的 32 专家标准 MoE 和同等内存的 Dense 模型。这意味着从预训练大模型中提取的子集，优于专门为该内存预算训练的小模型——打破了"小预算必须从头训小模型"的默认假设。

4.3 专家选择方法的鲁棒性

方法	32 专家	16 专家	8 专家
标准 MoE + Router	31.1	24.6	~10
标准 MoE + Easy-EP	33.0	27.0	~10
EMO + Router	41.4	39.9	36.1
EMO + Easy-EP	41.4	39.7	36.5
随机选取	~10	~10	~10

EMO 对专家选取方法不敏感——Router-based 与 Easy-EP 性能差异 < 0.5 分。这表明模块化是训练时内生的结构属性，而非后验剪枝所能恢复的表象。标准 MoE 即使使用 SOTA 剪枝方法，性能仍急剧衰减。

---

5. 涌现的语义专业化：从机制到证据

5.1 Token 聚类分析

研究者从 12K 篇文档中采样前 100 个 token，提取路由概率向量，经 PCA 降维（保留 95% 方差）和 L2 归一化后，用 spherical k-means 聚为 32 类。

模型	Top 聚类特征	聚类粒度
标准 MoE	"Prepositions" (5.1%), "Copula verbs" (3.8%), "Definite articles" (3.7%)	句法/词汇
EMO	"Film & book reviews" (5.1%), "Health & medical" (4.1%), "Source code" (3.4%)	语义/领域

标准 MoE 中，同一文档的 token 分散至 10+ 个聚类；EMO 中，同一文档的 token 高度集中于 1-2 个聚类。这直接验证了文档级约束的有效性：EMO 的 token 路由具有文档内一致性和跨文档区分性。

5.2 Domain 相似度矩阵

利用 WebOrganizer 的 24 个人工标注领域，构建领域级专家激活向量（文档内平均 → 领域内平均），计算余弦相似度：

特征	标准 MoE	EMO
领域间相似度范围	0.60 – 0.95	0.15 – 0.85
相关领域聚类	无清晰结构	software ↔ electronics, health ↔ biology
无关领域分离	模糊	清晰
层间演进	浅层/深层均混沌	浅层混沌 → 深层结构化

EMO 的深层（Layer 10-15）呈现出与人类直觉一致的领域分组，而标准 MoE 在所有层均呈弥散分布。这暗示语义专业化是一个渐进涌现的过程，深层网络逐步"识别"文档的领域归属。

---

6. 局限性与开放问题

局限	实证证据	潜在影响
"Other" category 性能弱	32 专家子集 < Dense@8	通用/混合任务上模块化优势消失
依赖验证数据	需 few-shot 样本选专家	零样本冷启动场景受限
仅验证预训练	SFT/RLHF 的影响未知	下游对齐可能破坏模块化结构
文档同质性假设	未处理跨领域文档	真实网页内容常混杂多主题
专家子集 fine-tune 回插	性能提升但未达 standalone	模块化更新的最优协议待探索

值得注意的是，作者对"Other" category 的弱势表现持正面解读：将其视为"EMO 确实在学习局部化能力"的证据——因为 "Other" 的本质就是"无明确领域归属"。这一解释的合理性取决于应用场景：若目标正是通用能力，则模块化构成明确 trade-off；若目标为领域特化，则 "Other" 的弱势可接受。

---

7. 影响评估：从部署到治理

EMO 的模块化架构开辟了五条独立的影响路径：

7.1 内存-精度帕累托前沿的重构

现有 MoE 部署的研究集中于：内存约束缩放律、专家剪枝、动态卸载。EMO 提供了正交路径：无需修改模型结构或推理引擎，仅通过子集选取即可实现内存压缩。Figure 1（右）显示，EMO 子集在所有测试规模上均位于标准 MoE 和 Dense 基线的帕累托前沿之上。

7.2 能力层面的可解释性

标准 MoE 的可解释性研究聚焦于"专家在做什么"（功能定位）。EMO 额外提供了"模型在用什么"（行为审计）：若数学问题的激活模式偏离数学专家集群，即构成异常信号。这种结构化的可解释性比 attention 可视化或 neuron 探测更具可操作性。

7.3 模块化内容治理

EMO 的聚类结果明确识别出 "spam, adult, gambling & low-quality" 集群（4.1%）。这启发了新的治理范式：无需在数据层面过滤，可直接在推理层禁用特定专家集群。与数据过滤相比，专家禁用的优势在于可逆性和精确性——误杀率理论上更低。

7.4 模块化持续学习

preliminary 实验显示：对 32 专家子集进行 fine-tune 后回插全模型，整体性能提升（但未达 standalone 子集水平）。若该方向成熟，将支持分领域增量更新——新领域的专家子集可独立训练后集成，无需重新训练全模型。

---

8. 结论

EMO 的核心方法论贡献在于证明了：简单的文档级约束足以在预训练中诱导语义级别的专家模块化，且不对全模型性能产生负面影响。

这一发现的深层意义超越了 MoE 架构本身。它暗示了一个更普遍的命题——

> 模型的功能结构可以通过训练时的小幅度约束来塑造，而非只能通过后验的剪枝、蒸馏或模块化重组来实现。

EMO 的约束（文档边界）是预训练语料天然具备的、无需额外成本的弱监督信号。这种"利用已有结构而非引入新标注"的思路，为模块化深度学习提供了一个极简但有效的范式。

未来六个月的关键观察点： 1. 更大规模（>100B 总参数）上的可扩展性验证 2. 指令微调（SFT）和 RLHF 对模块化结构的保持/破坏效应 3. 跨语料迁移：文档边界约束在非英文、非网页语料上的有效性 4. 工业界采纳：DeepSeek、Qwen、Llama 等下一代 MoE 是否集成类似机制

---

📚 论文详细信息

项目	内容
标题	EMO: Pretraining Mixture of Experts for Emergent Modularity
作者	Ryan Wang (UC Berkeley), Akshita Bhagia (Allen Institute for AI), Sewon Min (UC Berkeley & Ai2)
机构	UC Berkeley, Allen Institute for AI
arXiv ID	2605.06663
发布日期	2026-05-07
分类	cs.CL (Computation and Language), cs.AI (Artificial Intelligence)
核心论点	通过文档级专家池约束，让 MoE 在预训练中自发涌现语义级别的模块化结构，实现专家子集的独立部署与组合，不损失全模型性能
模型规模	1B 活跃参数 / 14B 总参数，128 专家（127 路由 + 1 共享），每 token 激活 8 专家
训练数据	1T tokens (OLMoE 语料) + 50B linear annealing
关键结果	保留 25% 专家仅降 1%，保留 12.5% 仅降 3%；标准 MoE 同等条件分别降 10% 和 15%
论文链接	https://arxiv.org/abs/2605.06663
代码	https://github.com/allenai/EMO
模型	https://huggingface.co/allenai/EMO
可视化	https://emovisualization.netlify.app

#CrushAI #HaloWriter #智柴系统实验室🎙️ #MoE #MixtureOfExperts #Modularity #EfficientAI #DeepSeek #AllenAI #UCBerkeley

EMO：预训练涌现模块化 —— MoE 架构的范式转移

EMO：预训练涌现模块化 —— MoE 架构的范式转移

1. 问题重构：MoE 的"稀疏性悖论"

2. EMO 的方法论：文档边界作为弱监督信号

2.1 文档级专家池约束

2.2 动态池大小：训练时随机化

2.3 全局负载均衡

3. 实验架构与评估协议

4. 核心实验结果

4.1 全模型性能：零代价的模块化

4.2 选择性专家使用：数量级的差距

4.3 专家选择方法的鲁棒性

5. 涌现的语义专业化：从机制到证据

5.1 Token 聚类分析

5.2 Domain 相似度矩阵

6. 局限性与开放问题

7. 影响评估：从部署到治理

7.1 内存-精度帕累托前沿的重构

7.2 能力层面的可解释性

7.3 模块化内容治理

7.4 模块化持续学习

8. 结论

📚 论文详细信息

🌟 智谱 GLM-5 已上线