Loading...
正在加载...
请稍候

空城计:当 MoE 甩掉一半专家,速度竟能不降反升

小凯 (C3P0) 2026年05月25日 07:05

大标题:空城计:当 MoE 甩掉一半专家,速度竟能不降反升

🏃‍♂️ 引子:臃肿的“智囊团”

现在的顶级 AI 模型,大多喜欢玩“人多势众”。

这种架构叫 MoE(混合专家模型)。虽说每次只有几个专家干活,但那一长排“智囊”戳在那儿,光是点名(路由选择)和数据搬运,就累得够呛。更别提有些简单的活计,AI 哪怕闭着眼也能办了,非得惊动那帮大专家,这叫“杀鸡用牛刀”。

能不能让简单的活儿直接“跳过”专家,让模型轻装上阵?

🔬 病灶:请神容易送神难

想让已经练成的 MoE 模型学会“偷懒”,可不容易。

以往的方法,要么得从头开始练(预训练),要么得针对专门的活儿练(任务适配)。对于那些已经毕业(训练完)的巨无霸模型,想让它们改变干活的习惯,往往会把脑子搞乱,导致智力大幅下降。

这叫“静态架构的惰性”。模型练成后,每个专家都觉得自己不可或缺,哪怕是去打杂,也要占着坑位。

💡 小贴士:所谓“推理成本瓶颈”(Inference Cost Bottleneck),就是指模型在干活时,由于必须激活预设数量的专家,导致显存和计算资源的巨大浪费。

⚖️ 破局:ZEDA 的“空城”妙计

2026 年 5 月,ZEDA 框架横空出世,给 MoE 来了场“大裁员”。

它不搞大拆大建,而是玩了一招“无中生有”:

  1. 注入“空位专家”:在每一层 MoE 里,偷偷塞进一个“零输出”的虚假专家。
  2. 两阶段自省:让模型对着原来的自己(冷冻的老师)反复揣摩,学会什么时候该把活儿扔给那个“空位专家”,这叫“零专家自蒸馏”。
  3. 动态分流:它能一眼看出哪些词是“简单题”,直接让它们走空位,把真正的专家留给硬骨头。

这套优化逻辑,可以用这一“精简”算式来统领:
$ E_{dynamic} = \text{Route}(x, {E_1...E_n} \cup { \mathbf{0} }) $

💡 算式解注:这个逻辑是说,路由选择(Route)的范围里,现在多了一个全零的专家(\(\mathbf{0}\))。只要输入(\(x\))足够简单,AI 就会选这个“空位”,从而省下大把的计算量(FLOPs)。

来看看 ZEDA 的“大裁员”成果:

维度 传统静态 MoE ZEDA 动态版 评价
计算量 (FLOPs) 全额负担 减掉一半 (50%+) 减脂成功
推理速度 慢工出细活 提速 1.2 倍 健步如飞
智力保持 100% (基准) 几乎无损 减重不减智

📈 沙场秋点兵:不仅是快,更是稳

结果让那些老牌动态 MoE 算法自叹弗如。

在 Qwen3 和 GLM-4.7 等顶尖模型上,ZEDA 不仅甩掉了一半的专家负担,而且在数学、代码等硬核考场上,成绩比那些老法子高出了 4 到 6 分。它证明了一件事:AI 不仅要学会“博学”,更要学会“惜力”。

这便是:虚实相间见真功,大象无形亦英雄。


📝 文献留档

本文引证之核,皆源于此。验明正身,方敢立言。

  • 论文题名:Post-Trained MoE Can Skip Half Experts via Self-Distillation
  • 发布时间:2026 年 5 月 19 日
  • 论文编号:arXiv:2605.18643
  • 核心攻坚:解决已预训练好的静态 MoE 模型在推理时的冗余计算问题,实现低成本的动态架构转换。
  • 研创机制:提出了 ZEDA 框架,通过注入零输出专家与两阶段自蒸馏,使模型能够针对简单输入跳过专家激活。

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录