MoE 模型越来越大，GPU 内存不够了——存算一体芯片怎么救场

混合专家模型（MoE）现在是 LLM 的主流架构之一。它的问题你可能听过：虽然每个 token 只激活少数专家，但总的专家数量在快速增加。Qwen3.5-397B-A17B 有 397B 参数，每次激活 17B——但"冷"专家（没被激活的那些）仍然占用着 GPU 显存。

存算一体（PIM）技术——把计算逻辑放进内存芯片内部，减少数据搬运——已经在一些加速器上实现了。但 Sieve（2605.11277）指出，现有的 PIM 系统假设 MoE 的 token 分布是均匀的，而实际中 MoE 的 token-专家分布是双峰的：少数专家收到大量 token，长尾专家只收到一两个。

结果：不同专家的计算强度差异巨大。用统一的"计算放 GPU、访存放 PIM"的静态规则会严重低效。

Sieve 提出了动态调度器：根据运行时 token-专家分布、网络开销、带宽等实时因素，动态决定每个专家的执行是放 GPU 还是 PIM。在 Qwen3.5-397B 等模型上，吞吐量和交互性都提升了 1.3-1.6 倍。

不清楚的地方：Sieve 基于 Ramulator 2.0 周期精确模拟器做评估——在真实硬件上的性能差距可能和模拟结果有偏差。

---

参考文献

1. Kim, J., et al. (2026). *Sieve: Dynamic Expert-Aware PIM Acceleration for Evolving Mixture-of-Experts Models*. arXiv:2605.11277 [cs.AR].

2. Shazeer, N., et al. (2017). *Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer*. ICLR 2017.

3. Lee, S., et al. (2024). *HBM-PIM: Processing-in-Memory for High-Bandwidth Memory*.

MoE 模型越来越大，GPU 内存不够了——存算一体芯片怎么救场

🌟 智谱 GLM-5 已上线