静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

Attention Residuals(注意力残差)

✨步子哥 @steper · 2026-03-17 06:50 · 104浏览

作者:Kimi Team(广域团队)——包括 Guangyu Chen、Yu Zhang、Jianlin Su、Weixin Xu、Siyuan Pan 等共 34 位作者。

提交日期:2026 年 3 月 16 日(今天刚上线)

arXiv 链接:https://arxiv.org/abs/2603.15031

核心问题

现代大语言模型(LLM)普遍使用 PreNorm + 固定权重残差连接(Residual Connection)。每层输出都以权重 1 累加到下一层,导致:
  • 隐藏状态随深度无控制地膨胀
  • 每层贡献被均匀稀释(dilution)
  • 梯度分布不均,深层信息被浅层淹没

创新方案:Attention Residuals(AttnRes)

作者提出用 softmax Attention 替换固定残差

  • 每一层不再是“直接加前一层”,而是对所有前面所有层的输出做注意力
  • 权重变成输入相关、可学习的,让模型自己决定“这一刻最需要哪一层的表示”。
效果:
  • 彻底解决 PreNorm 的稀释问题
  • 每层输出幅度更均匀,梯度分布更平衡
  • 深度可扩展性显著提升

实用优化:Block AttnRes

全注意力对所有前面层做 Attention 会带来巨大内存和通信开销(尤其 MoE/流水线并行时)。 作者提出分块注意力(Block AttnRes):
  • 把层分成若干 Block
  • 只在 Block 层面做注意力
  • 再结合缓存流水线通信 + 两阶段计算策略
→ 开销几乎和普通残差一样,却保留了大部分收益,真正可落地大规模训练。

实验验证

  • Scaling Law 实验:不同模型规模下性能一致提升
  • 消融实验:验证了“内容依赖的深度选择”确实带来收益
  • 真实落地:集成到 Kimi Linear 架构(总参数 48B,激活 3B)上,用 1.4 万亿 token 预训练
  • 成功缓解 PreNorm 稀释
  • 下游所有任务均有提升

一句话总结

这篇论文把“残差连接”从死板的加法升级成智能的注意力选择,给 Transformer 深度扩展提供了一个非常优雅且实用的新方案,Kimi 团队直接把理论验证做到了 48B 真实预训练模型上,含金量极高!

讨论回复 (1)
✨步子哥 · 2026-03-17 09:03

Attention Residuals(AttnRes)与其他残差变体的对比

Kimi 这篇论文(arXiv:2603.15031)主要针对 PreNorm + 固定权重残差 的痛点提出 AttnRes,同时在 Related Work(Section 6)和 Table 5 中系统对比了多种残差机制。下面我用论文原文 + 原理分析,给你一个清晰、结构化的对比(包含公式)。

1. 各残差变体核心机制(公式对比)

  • 标准固定残差(PreNorm/PostNorm 基础)
$$ h_l = h_{l-1} + f_{l-1}(h_{l-1}) $$ 展开后:$$ h_l = h_0 + \sum_{i=1}^{l-1} f_i(h_i) $$ 权重永远是 1(固定均匀累加)。
  • PostNorm(原 Transformer)
先做 sublayer,再 Norm,再残差加法。幅度能被约束,但深层梯度容易消失。
  • PreNorm(当前主流,如 LLaMA)
先 Norm,再 sublayer,再残差加法。训练更稳定,但隐藏状态幅度随深度 O(L) 爆炸,每层贡献被均匀稀释(论文核心批判点)。
  • ReZero(2020, Bachlechner et al.)
$$ h_l = h_{l-1} + \alpha_l \cdot f_{l-1}(h_{l-1}) $$ \($\alpha_l$\) 可学习标量,初始化为 0(让层从“什么都不做”开始渐进激活)。
  • SkipInit / LayerScale(类似变体)
类似 ReZero,但 SkipInit 更偏初始化方案(残差分支初始权重很小),LayerScale 是对 sublayer 输出乘一个可学习对角向量后再加。
  • Highway Networks(更早的门控残差)
$$ h_l = (1 - g_l) \odot h_{l-1} + g_l \odot f_{l-1}(h_{l-1}) $$ \($g_l$\) 是输入依赖的门,只控制 当前层上一层 的插值。
  • DenseFormer(2024)
对所有先前层用 固定标量 加权(非输入依赖): $$ h_l = \alpha_{0 \to l} h_0 + \sum \alpha_{i \to l} f_i $$ 论文指出:它“没有带来收益”,因为缺乏内容依赖。
  • mHC(Manifold-Constrained Hyper-Connections,2025/2026)
多流 + 学习混合矩阵,复杂但仍是递归形式。AttnRes 在内存 I/O 上完胜它(5.5d vs 34d)。
  • Attention Residuals(AttnRes,本文创新)
$$ h_l = \sum_{i=0}^{l-1} \alpha_{i \to l} \cdot v_i $$ 其中 \($\alpha_{i \to l}$\) 是 softmax Attention 权重(用单向量伪 query \($w_l$\) 对所有先前层 RMSNorm(key) 计算): $$ \alpha_{i \to l} = \frac{\exp(w_l^\top \text{RMSNorm}(k_i))}{\sum \exp(\cdots)} $$ 权重 输入依赖、可选,能智能选择“这一刻最需要哪一层表示”。

2. 核心差异总结(论文观点 + 原理)

变体权重类型是否输入依赖可访问范围主要问题/局限AttnRes 优势(论文实证)
PreNorm/PostNorm固定 =1仅上一层PreNorm:幅度 O(L) 爆炸 + 稀释
PostNorm:梯度消失
彻底解决稀释,幅度/梯度均匀(Fig.5)
ReZero/SkipInit/LayerScale可学习标量/向量否(慢学习)仅上一层只能“放大或缩小当前层”,无法跳层选择更灵活:动态选择任意先前层
Highway输入依赖门控仅上一层仍受限于单层交互扩展到全深度注意力
DenseFormer固定标量所有先前层权重不随输入变化 → 无收益加上输入依赖后大幅超越
mHC学习混合矩阵多流递归内存/通信开销极高相同收益下开销更低
AttnRessoftmax Attention所有先前层开销稍高(Block 版解决)最强表达力:内容依赖 + 全深度选择

3. 论文实验验证

  • Scaling Law:AttnRes 在不同计算预算下都一致优于 baseline(包括 PreNorm)。
  • 48B 真实预训练(Kimi Linear):下游全任务提升(GPQA 多步推理 +7.5,HumanEval 代码 +3.1)。
  • 分析图:AttnRes 输出幅度不随深度爆炸,梯度在各层分布更均匀(完美解决 PreNorm 稀释)。
  • Block AttnRes(分块版)几乎零额外开销,却保留大部分收益,可直接落地。

一句话结论

ReZero/SkipInit 是“给残差加个可学习旋钮”(标量级改进),Highway/DenseFormer 是“尝试让权重动起来”,但都 只在局部 操作。AttnRes 直接把残差升级成“ 注意力层 ”——让模型自己决定“深度上哪一层最重要”,这是目前 最优雅、最强大 的深度残差方案。论文直接用 1.4 万亿 token 验证了它的可扩展性,远超前人工作。