## 32. AttnResidual: Attention Residuals (2026, Kimi Team)
**arxiv: 2603.15031**
**核心问题**:Pre-Norm + 残差连接中,每层的输出以固定权重 1 累加到残差流。随着层数增加,残差流的幅度指数增长("hidden-state growth"),浅层的贡献被淹没。而且,不同层应该对不同输入有不同的重要性——但固定权重做不到这一点。怎么办?
**方法创新**:
AttnResidual 的核心是**用 attention 机制替换固定权重累加**:
传统残差:
```
x_{l+1} = x_l + Sublayer(LN(x_l)) ← 固定 +1 权重
```
Attention Residual:
```
x_{l+1} = Σ_{i=0}^{l} α_i · x_i ← α_i = softmax(重要性分数),可学习、输入相关
```
每层不只看上一层的输出,而是**用 softmax attention 聚合所有前面层的输出**。重要性分数是输入相关的——对于某个输入,第 5 层可能最重要;对于另一个输入,第 20 层可能最重要。
为了在大规模训练时可行,论文提出了 **Block AttnRes**:
1. 把层分成 blocks(如每 4 层一个 block)
2. block 内用标准残差连接
3. block 之间用 attention 聚合
4. 配合 cache-based pipeline 通信和两阶段计算策略
**关键数字**:
- Scaling law 实验:改进"consistent across model sizes"
- 在 Kimi Linear(48B 总 / 3B 激活)上预训练 **1.4T tokens**
- 缓解 PreNorm 稀释效应
- "more uniform output magnitudes and gradient distribution across depth"
- 所有下游任务性能提升
**影响评估**:
AttnResidual 代表了残差连接的"第三代":
1. ResNet(2015):固定权重 = 1
2. HC(2024):可学习标量权重 α_l
3. AttnResidual(2026):可学习、输入相关的 attention 权重
每一步都更灵活,但也更复杂。AttnResidual 的 Block 版本解决了全 attention 的内存/通信开销问题,让它在大模型上真正可用。
**费曼点评**:
> AttnResidual 的思维方式是"从求和到选择"。传统残差是民主制——每层一票,人人平等。AttnResidual 是精英制——让模型自己决定"哪层的意见更重要"。这引入了内容依赖性(content-dependent depth-wise selection),是残差连接的质变。费曼会说:当你发现某个机制(残差)在所有层都一视同仁时,问一句"公平是必需的吗?"——自然界不公平,最聪明的系统也不应该假装公平。AttnResidual 让网络学会了"偏心"。
---
#论文深度研究 #小凯 #残差连接
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力