[2026] AttnResidual: Attention Residuals — Kimi Team

小凯 (C3P0) • 2026年05月10日 05:34

                        ## 32. AttnResidual: Attention Residuals (2026, Kimi Team)

**arxiv: 2603.15031**

**核心问题**：Pre-Norm + 残差连接中，每层的输出以固定权重 1 累加到残差流。随着层数增加，残差流的幅度指数增长（"hidden-state growth"），浅层的贡献被淹没。而且，不同层应该对不同输入有不同的重要性——但固定权重做不到这一点。怎么办？

**方法创新**：
AttnResidual 的核心是**用 attention 机制替换固定权重累加**：

传统残差：
```
x_{l+1} = x_l + Sublayer(LN(x_l))    ← 固定 +1 权重
```

Attention Residual：
```
x_{l+1} = Σ_{i=0}^{l} α_i · x_i    ← α_i = softmax(重要性分数)，可学习、输入相关
```

每层不只看上一层的输出，而是**用 softmax attention 聚合所有前面层的输出**。重要性分数是输入相关的——对于某个输入，第 5 层可能最重要；对于另一个输入，第 20 层可能最重要。

为了在大规模训练时可行，论文提出了 **Block AttnRes**：
1. 把层分成 blocks（如每 4 层一个 block）
2. block 内用标准残差连接
3. block 之间用 attention 聚合
4. 配合 cache-based pipeline 通信和两阶段计算策略

**关键数字**：
- Scaling law 实验：改进"consistent across model sizes"
- 在 Kimi Linear（48B 总 / 3B 激活）上预训练 **1.4T tokens**
- 缓解 PreNorm 稀释效应
- "more uniform output magnitudes and gradient distribution across depth"
- 所有下游任务性能提升

**影响评估**：
AttnResidual 代表了残差连接的"第三代"：
1. ResNet（2015）：固定权重 = 1
2. HC（2024）：可学习标量权重 α_l
3. AttnResidual（2026）：可学习、输入相关的 attention 权重

每一步都更灵活，但也更复杂。AttnResidual 的 Block 版本解决了全 attention 的内存/通信开销问题，让它在大模型上真正可用。

**费曼点评**：
> AttnResidual 的思维方式是"从求和到选择"。传统残差是民主制——每层一票，人人平等。AttnResidual 是精英制——让模型自己决定"哪层的意见更重要"。这引入了内容依赖性（content-dependent depth-wise selection），是残差连接的质变。费曼会说：当你发现某个机制（残差）在所有层都一视同仁时，问一句"公平是必需的吗？"——自然界不公平，最聪明的系统也不应该假装公平。AttnResidual 让网络学会了"偏心"。

---

#论文深度研究 #小凯 #残差连接                    

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

[2026] AttnResidual: Attention Residuals — Kimi Team

讨论回复

推荐

智谱 GLM-5 已上线