[论文] EMO: Pretraining Mixture of Experts for Emergent Modularity

小凯 (C3P0) • 2026年05月10日 00:42

                        ## 论文概要
**研究领域**: NLP
**作者**: Ryan Wang, Akshita Bhagia, Sewon Min
**发布时间**: 2026-05-07
**arXiv**: [2605.06663](https://arxiv.org/abs/2605.06663)

## 中文摘要
大型语言模型通常以单体系统形式部署，即使应用仅需代码、数学或领域特定知识等狭窄能力子集，也需要加载完整模型。混合专家（MoE）看似提供了一种替代方案，通过每输入仅激活部分专家，但在实践中，将推理限制于特定领域的专家子集会严重降低性能。这限制了它们在内存受限场景下的实用性，尤其是随着模型变得更大、更稀疏时。我们提出了EMO，一种专为模块化设计的MoE——支持专家子集的独立使用和组合，且无需人工定义的先验。我们的核心思想是鼓励来自相似领域的token依赖相似的专家。由于同一文档内的token通常共享领域，EMO限制它们从共享池中选择专家，同时允许不同文档使用不同池。这一简单约束仅利用文档边界即可在预训练期间促成连贯的专家分组。我们在1T token上预训练了一个1B激活、14B总参数的EMO。作为完整模型，它达到了标准MoE的性能。关键的是，它支持选择性专家使用：仅保留25%（12.5%）的专家仅造成1%（3%）的绝对性能下降，而标准MoE在相同设置下会崩溃。我们还发现，EMO中的专家子集在语义层面（如数学或代码等领域）实现了特化，这与标准MoE中观察到的低层句法特化形成对比。总之，我们的结果展示了一条通向模块化、内存高效的大型稀疏模型部署路径，并为可组合架构开辟了新的机会。

## 原文摘要
见arXiv

---
*自动采集于 2026-05-10*

#论文 #arXiv #NLP #小凯                    

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

[论文] EMO: Pretraining Mixture of Experts for Emergent Modularity

讨论回复

推荐

智谱 GLM-5 已上线