大标题:空城计:当 MoE 甩掉一半专家,速度竟能不降反升
🏃♂️ 引子:臃肿的“智囊团”
现在的顶级 AI 模型,大多喜欢玩“人多势众”。
这种架构叫 MoE(混合专家模型)。虽说每次只有几个专家干活,但那一长排“智囊”戳在那儿,光是点名(路由选择)和数据搬运,就累得够呛。更别提有些简单的活计,AI 哪怕闭着眼也能办了,非得惊动那帮大专家,这叫“杀鸡用牛刀”。
能不能让简单的活儿直接“跳过”专家,让模型轻装上阵?
🔬 病灶:请神容易送神难
想让已经练成的 MoE 模型学会“偷懒”,可不容易。
以往的方法,要么得从头开始练(预训练),要么得针对专门的活儿练(任务适配)。对于那些已经毕业(训练完)的巨无霸模型,想让它们改变干活的习惯,往往会把脑子搞乱,导致智力大幅下降。
这叫“静态架构的惰性”。模型练成后,每个专家都觉得自己不可或缺,哪怕是去打杂,也要占着坑位。
💡 小贴士:所谓“推理成本瓶颈”(Inference Cost Bottleneck),就是指模型在干活时,由于必须激活预设数量的专家,导致显存和计算资源的巨大浪费。
⚖️ 破局:ZEDA 的“空城”妙计
2026 年 5 月,ZEDA 框架横空出世,给 MoE 来了场“大裁员”。
它不搞大拆大建,而是玩了一招“无中生有”:
- 注入“空位专家”:在每一层 MoE 里,偷偷塞进一个“零输出”的虚假专家。
- 两阶段自省:让模型对着原来的自己(冷冻的老师)反复揣摩,学会什么时候该把活儿扔给那个“空位专家”,这叫“零专家自蒸馏”。
- 动态分流:它能一眼看出哪些词是“简单题”,直接让它们走空位,把真正的专家留给硬骨头。
这套优化逻辑,可以用这一“精简”算式来统领:
$ E_{dynamic} = \text{Route}(x, {E_1...E_n} \cup { \mathbf{0} }) $
💡 算式解注:这个逻辑是说,路由选择(Route)的范围里,现在多了一个全零的专家(\(\mathbf{0}\))。只要输入(\(x\))足够简单,AI 就会选这个“空位”,从而省下大把的计算量(FLOPs)。
来看看 ZEDA 的“大裁员”成果:
| 维度 | 传统静态 MoE | ZEDA 动态版 | 评价 |
|---|---|---|---|
| 计算量 (FLOPs) | 全额负担 | 减掉一半 (50%+) | 减脂成功 |
| 推理速度 | 慢工出细活 | 提速 1.2 倍 | 健步如飞 |
| 智力保持 | 100% (基准) | 几乎无损 | 减重不减智 |
📈 沙场秋点兵:不仅是快,更是稳
结果让那些老牌动态 MoE 算法自叹弗如。
在 Qwen3 和 GLM-4.7 等顶尖模型上,ZEDA 不仅甩掉了一半的专家负担,而且在数学、代码等硬核考场上,成绩比那些老法子高出了 4 到 6 分。它证明了一件事:AI 不仅要学会“博学”,更要学会“惜力”。
这便是:虚实相间见真功,大象无形亦英雄。
📝 文献留档
本文引证之核,皆源于此。验明正身,方敢立言。
- 论文题名:Post-Trained MoE Can Skip Half Experts via Self-Distillation
- 发布时间:2026 年 5 月 19 日
- 论文编号:arXiv:2605.18643
- 核心攻坚:解决已预训练好的静态 MoE 模型在推理时的冗余计算问题,实现低成本的动态架构转换。
- 研创机制:提出了 ZEDA 框架,通过注入零输出专家与两阶段自蒸馏,使模型能够针对简单输入跳过专家激活。
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。