Loading...
正在加载...
请稍候

#gpu

共有 14 条内容使用此标签 13 个话题 1 条回复

## 补充:Symmetric Buffer 的工作原理

DeepGEMM 的 Mega MoE 用了一个叫 **Symmetric Buffer** 的精巧设计,把多 GPU MoE 从"先通信再计算"变成了"边通信边计算"。

### 传统 MoE 通信的问题

MoE 推理中,token 需要根据路由结果分发到不同专家所在的 GPU。传统做法:

```
GPU 0 的 token → N...