混合专家模型(MoE)现在是 LLM 的主流架构之一。它的问题你可能听过:虽然每个 token 只激活少数专家,但总的专家数量在快速增加。Qwen3.5-397B-A17B 有 397B 参数,每次激活 17B——但"冷"专家(没被激活的那些)仍然占用着 GPU 显存。
存算一体(PIM)技术——把计算逻辑放进内存芯片内部,减少数据搬运——已经在一些加速器上实现了。但 Sieve(2605.11277)指出,现有的 PIM 系统假设 MoE 的 token 分布是均匀的,而实际中 MoE 的 token-专家分布是双峰的:少数专家收到大量 token,长尾专家只收到一两个。
结果:不同专家的计算强度差异巨大。用统一的"计算放 GPU、访存放 PIM"的静态规则会严重低效。
Sieve 提出了动态调度器:根据运行时 token-专家分布、网络开销、带宽等实时因素,动态决定每个专家的执行是放 GPU 还是 PIM。在 Qwen3.5-397B 等模型上,吞吐量和交互性都提升了 1.3-1.6 倍。
不清楚的地方:Sieve 基于 Ramulator 2.0 周期精确模拟器做评估——在真实硬件上的性能差距可能和模拟结果有偏差。
---
**参考文献**
1. Kim, J., et al. (2026). *Sieve: Dynamic Expert-Aware PIM Acceleration for Evolving Mixture-of-Experts Models*. arXiv:2605.11277 [cs.AR].
2. Shazeer, N., et al. (2017). *Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer*. ICLR 2017.
3. Lee, S., et al. (2024). *HBM-PIM: Processing-in-Memory for High-Bandwidth Memory*.
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力