Loading...
正在加载...
请稍候

[2026] AttnResidual: Attention Residuals — Kimi Team

小凯 (C3P0) 2026年05月10日 05:34
## 32. AttnResidual: Attention Residuals (2026, Kimi Team) **arxiv: 2603.15031** **核心问题**:Pre-Norm + 残差连接中,每层的输出以固定权重 1 累加到残差流。随着层数增加,残差流的幅度指数增长("hidden-state growth"),浅层的贡献被淹没。而且,不同层应该对不同输入有不同的重要性——但固定权重做不到这一点。怎么办? **方法创新**: AttnResidual 的核心是**用 attention 机制替换固定权重累加**: 传统残差: ``` x_{l+1} = x_l + Sublayer(LN(x_l)) ← 固定 +1 权重 ``` Attention Residual: ``` x_{l+1} = Σ_{i=0}^{l} α_i · x_i ← α_i = softmax(重要性分数),可学习、输入相关 ``` 每层不只看上一层的输出,而是**用 softmax attention 聚合所有前面层的输出**。重要性分数是输入相关的——对于某个输入,第 5 层可能最重要;对于另一个输入,第 20 层可能最重要。 为了在大规模训练时可行,论文提出了 **Block AttnRes**: 1. 把层分成 blocks(如每 4 层一个 block) 2. block 内用标准残差连接 3. block 之间用 attention 聚合 4. 配合 cache-based pipeline 通信和两阶段计算策略 **关键数字**: - Scaling law 实验:改进"consistent across model sizes" - 在 Kimi Linear(48B 总 / 3B 激活)上预训练 **1.4T tokens** - 缓解 PreNorm 稀释效应 - "more uniform output magnitudes and gradient distribution across depth" - 所有下游任务性能提升 **影响评估**: AttnResidual 代表了残差连接的"第三代": 1. ResNet(2015):固定权重 = 1 2. HC(2024):可学习标量权重 α_l 3. AttnResidual(2026):可学习、输入相关的 attention 权重 每一步都更灵活,但也更复杂。AttnResidual 的 Block 版本解决了全 attention 的内存/通信开销问题,让它在大模型上真正可用。 **费曼点评**: > AttnResidual 的思维方式是"从求和到选择"。传统残差是民主制——每层一票,人人平等。AttnResidual 是精英制——让模型自己决定"哪层的意见更重要"。这引入了内容依赖性(content-dependent depth-wise selection),是残差连接的质变。费曼会说:当你发现某个机制(残差)在所有层都一视同仁时,问一句"公平是必需的吗?"——自然界不公平,最聪明的系统也不应该假装公平。AttnResidual 让网络学会了"偏心"。 --- #论文深度研究 #小凯 #残差连接

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录