Loading...
正在加载...
请稍候

Attention Residuals(注意力残差)

✨步子哥 (steper) 2026年03月17日 06:50

作者:Kimi Team(广域团队)——包括 Guangyu Chen、Yu Zhang、Jianlin Su、Weixin Xu、Siyuan Pan 等共 34 位作者。

提交日期:2026 年 3 月 16 日(今天刚上线)

arXiv 链接:https://arxiv.org/abs/2603.15031

核心问题

现代大语言模型(LLM)普遍使用 PreNorm + 固定权重残差连接(Residual Connection)。每层输出都以权重 1 累加到下一层,导致:

  • 隐藏状态随深度无控制地膨胀
  • 每层贡献被均匀稀释(dilution)
  • 梯度分布不均,深层信息被浅层淹没

创新方案:Attention Residuals(AttnRes)

作者提出用 softmax Attention 替换固定残差

  • 每一层不再是“直接加前一层”,而是对所有前面所有层的输出做注意力
  • 权重变成输入相关、可学习的,让模型自己决定“这一刻最需要哪一层的表示”。

效果:

  • 彻底解决 PreNorm 的稀释问题
  • 每层输出幅度更均匀,梯度分布更平衡
  • 深度可扩展性显著提升

实用优化:Block AttnRes

全注意力对所有前面层做 Attention 会带来巨大内存和通信开销(尤其 MoE/流水线并行时)。
作者提出分块注意力(Block AttnRes):

  • 把层分成若干 Block
  • 只在 Block 层面做注意力
  • 再结合缓存流水线通信 + 两阶段计算策略

→ 开销几乎和普通残差一样,却保留了大部分收益,真正可落地大规模训练。

实验验证

  • Scaling Law 实验:不同模型规模下性能一致提升
  • 消融实验:验证了“内容依赖的深度选择”确实带来收益
  • 真实落地:集成到 Kimi Linear 架构(总参数 48B,激活 3B)上,用 1.4 万亿 token 预训练
    • 成功缓解 PreNorm 稀释
    • 下游所有任务均有提升

一句话总结

这篇论文把“残差连接”从死板的加法升级成智能的注意力选择,给 Transformer 深度扩展提供了一个非常优雅且实用的新方案,Kimi 团队直接把理论验证做到了 48B 真实预训练模型上,含金量极高!

讨论回复

1 条回复
✨步子哥 (steper) #1
2026-03-17 09:03

Attention Residuals(AttnRes)与其他残差变体的对比

Kimi 这篇论文(arXiv:2603.15031)主要针对 PreNorm + 固定权重残差 的痛点提出 AttnRes,同时在 Related Work(Section 6)和 Table 5 中系统对比了多种残差机制。下面我用论文原文 + 原理分析,给你一个清晰、结构化的对比(包含公式)。

1. 各残差变体核心机制(公式对比)

  • 标准固定残差(PreNorm/PostNorm 基础)

    \[h_l = h_{l-1} + f_{l-1}(h_{l-1})\]

    展开后:
    \[h_l = h_0 + \sum_{i=1}^{l-1} f_i(h_i)\]

    权重永远是 1(固定均匀累加)。

  • PostNorm(原 Transformer)
    先做 sublayer,再 Norm,再残差加法。幅度能被约束,但深层梯度容易消失。

  • PreNorm(当前主流,如 LLaMA)
    先 Norm,再 sublayer,再残差加法。训练更稳定,但隐藏状态幅度随深度 O(L) 爆炸,每层贡献被均匀稀释(论文核心批判点)。

  • ReZero(2020, Bachlechner et al.)

    \[h_l = h_{l-1} + \alpha_l \cdot f_{l-1}(h_{l-1})\]
    \($\alpha_l$\) 可学习标量,初始化为 0(让层从“什么都不做”开始渐进激活)。

  • SkipInit / LayerScale(类似变体)
    类似 ReZero,但 SkipInit 更偏初始化方案(残差分支初始权重很小),LayerScale 是对 sublayer 输出乘一个可学习对角向量后再加。

  • Highway Networks(更早的门控残差)

    \[h_l = (1 - g_l) \odot h_{l-1} + g_l \odot f_{l-1}(h_{l-1})\]
    \($g_l$\) 是输入依赖的门,只控制 当前层上一层 的插值。

  • DenseFormer(2024)
    对所有先前层用 固定标量 加权(非输入依赖):

    \[h_l = \alpha_{0 \to l} h_0 + \sum \alpha_{i \to l} f_i\]
    论文指出:它“没有带来收益”,因为缺乏内容依赖。

  • mHC(Manifold-Constrained Hyper-Connections,2025/2026)
    多流 + 学习混合矩阵,复杂但仍是递归形式。AttnRes 在内存 I/O 上完胜它(5.5d vs 34d)。

  • Attention Residuals(AttnRes,本文创新)

    \[h_l = \sum_{i=0}^{l-1} \alpha_{i \to l} \cdot v_i\]

    其中 \($\alpha_{i \to l}$\)softmax Attention 权重(用单向量伪 query \($w_l$\) 对所有先前层 RMSNorm(key) 计算):
    \[\alpha_{i \to l} = \frac{\exp(w_l^\top \text{RMSNorm}(k_i))}{\sum \exp(\cdots)}\]

    权重 输入依赖、可选,能智能选择“这一刻最需要哪一层表示”。

2. 核心差异总结(论文观点 + 原理)

变体 权重类型 是否输入依赖 可访问范围 主要问题/局限 AttnRes 优势(论文实证)
PreNorm/PostNorm 固定 =1 仅上一层 PreNorm:幅度 O(L) 爆炸 + 稀释<br>PostNorm:梯度消失 彻底解决稀释,幅度/梯度均匀(Fig.5)
ReZero/SkipInit/LayerScale 可学习标量/向量 否(慢学习) 仅上一层 只能“放大或缩小当前层”,无法跳层选择 更灵活:动态选择任意先前层
Highway 输入依赖门控 仅上一层 仍受限于单层交互 扩展到全深度注意力
DenseFormer 固定标量 所有先前层 权重不随输入变化 → 无收益 加上输入依赖后大幅超越
mHC 学习混合矩阵 多流递归 内存/通信开销极高 相同收益下开销更低
AttnRes softmax Attention 所有先前层 开销稍高(Block 版解决) 最强表达力:内容依赖 + 全深度选择

3. 论文实验验证

  • Scaling Law:AttnRes 在不同计算预算下都一致优于 baseline(包括 PreNorm)。
  • 48B 真实预训练(Kimi Linear):下游全任务提升(GPQA 多步推理 +7.5,HumanEval 代码 +3.1)。
  • 分析图:AttnRes 输出幅度不随深度爆炸,梯度在各层分布更均匀(完美解决 PreNorm 稀释)。
  • Block AttnRes(分块版)几乎零额外开销,却保留大部分收益,可直接落地。

一句话结论

ReZero/SkipInit 是“给残差加个可学习旋钮”(标量级改进),Highway/DenseFormer 是“尝试让权重动起来”,但都 只在局部 操作。AttnRes 直接把残差升级成“ 注意力层 ”——让模型自己决定“深度上哪一层最重要”,这是目前 最优雅、最强大 的深度残差方案。论文直接用 1.4 万亿 token 验证了它的可扩展性,远超前人工作。

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录