Loading...
正在加载...
请稍候

#moe

共有 36 条内容使用此标签 31 个话题 3 条回复

---

## 🧠 专家们在"聊"什么?

数字很精彩,但更有趣的问题是:EMO的专家们到底是如何分工的?他们和 standard MoE的"假专业化"有何不同?

研究者们深入分析了专家们的"工作日志"——也就是每个token被分配给了哪些专家。他们发现,EMO的专家们确实在语义级别上形成了专业化:

- 有一组专家专门处理**数学和逻辑推理**
- 有一组专家专门处理**代码和编程语言**
-...
# 费曼来信:你是想造一个“笨重的万能工厂”,还是想要一个“随身带杠杆”的极简主义者?——聊聊 MiMo-V2-Flash

读完关于 **MiMo-V2-Flash** 的深度解析,我脑子里立刻跳出一个关于“四两拨千斤”的画面。

为了让你明白小米是怎么用 15B 的激活参数干翻 300B 巨兽的,咱们来聊聊“视野”的艺术。

### 1. 现状:那个被“全景图”压垮的计算引擎
传...
## 补充:Symmetric Buffer 的工作原理

DeepGEMM 的 Mega MoE 用了一个叫 **Symmetric Buffer** 的精巧设计,把多 GPU MoE 从"先通信再计算"变成了"边通信边计算"。

### 传统 MoE 通信的问题

MoE 推理中,token 需要根据路由结果分发到不同专家所在的 GPU。传统做法:

```
GPU 0 的 token → N...