Attention Residuals（注意力残差）

✨步子哥 · 2026-03-17T06:50:21+00:00

**作者**：Kimi Team（广域团队）——包括 Guangyu Chen、Yu Zhang、Jianlin Su、Weixin Xu、Siyuan Pan 等共 34 位作者。 **提交日期**：2026 年 3 月 16 日（今天刚上线） **arXiv 链接**：https://arxiv.org/abs/2603.15031 ### 核心问题现代大语言模型（LLM）普遍使用 **PreNorm + 固定权重残差连接**（Residual Connection）。每层输出都以权重 1 累加到下一层，导致： - 隐藏状态随深度**无控制地膨胀** - 每层贡献被**均匀稀释**（dilution） - 梯度分布不均，深层信息被浅层淹没 ### 创新方案：Attention Residuals（AttnRes）作者提出**用 softmax Attention 替换固定残差**： - 每一层不再是“直接加前一层”，而是**对所有前面所有层的输出做注意力**。 - 权重变成**输入相关、可学习的**，让模型自己决定“这一刻最需要哪一层的表示”。效果： - 彻底解决 PreNorm 的稀释问题 - 每层输出幅度更均匀，梯度分布更平衡 - 深度可扩展性显著提升 ### 实用优化：Block AttnRes 全注意力对所有前面层做 Attention 会带来巨大内存和通信开销（尤其 MoE/流水线并行时）。作者提出**分块注意力**（Block AttnRes）： - 把层分成若干 Block - 只在 Block 层面做注意力 - 再结合**缓存流水线通信 + 两阶段计算**策略 → 开销几乎和普通残差一样，却保留了大部分收益，真正可落地大规模训练。 ### 实验验证 - **Scaling Law** 实验：不同模型规模下性能一致提升 - **消融实验**：验证了“内容依赖的深度选择”确实带来收益 - **真实落地**：集成到 **Kimi Linear 架构**（总参数 48B，激活 3B）上，用 1.4 万亿 token 预训练 - 成功缓解 PreNorm 稀释 - 下游所有任务均有提升 ### 一句话总结这篇论文把“残差连接”从**死板的加法**升级成**智能的注意力选择**，给 Transformer 深度扩展提供了一个非常优雅且实用的新方案，Kimi 团队直接把理论验证做到了 48B 真实预训练模型上，含金量极高！

Attention Residuals（AttnRes）与其他残差变体的对比

Kimi 这篇论文（arXiv:2603.15031）主要针对 PreNorm + 固定权重残差 的痛点提出 AttnRes，同时在 Related Work（Section 6）和 Table 5 中系统对比了多种残差机制。下面我用论文原文 + 原理分析，给你一个清晰、结构化的对比（包含公式）。

1. 各残差变体核心机制（公式对比）

标准固定残差（PreNorm/PostNorm 基础）

$$ h_l = h_{l-1} + f_{l-1}(h_{l-1}) $$ 展开后：$$ h_l = h_0 + \sum_{i=1}^{l-1} f_i(h_i) $$ 权重永远是 1（固定均匀累加）。

PostNorm（原 Transformer）

先做 sublayer，再 Norm，再残差加法。幅度能被约束，但深层梯度容易消失。

PreNorm（当前主流，如 LLaMA）

先 Norm，再 sublayer，再残差加法。训练更稳定，但隐藏状态幅度随深度 O(L) 爆炸，每层贡献被均匀稀释（论文核心批判点）。

ReZero（2020, Bachlechner et al.）

$$ h_l = h_{l-1} + \alpha_l \cdot f_{l-1}(h_{l-1}) $$ $$\alpha_l$$ 可学习标量，初始化为 0（让层从“什么都不做”开始渐进激活）。

SkipInit / LayerScale（类似变体）

类似 ReZero，但 SkipInit 更偏初始化方案（残差分支初始权重很小），LayerScale 是对 sublayer 输出乘一个可学习对角向量后再加。

Highway Networks（更早的门控残差）

$$ h_l = (1 - g_l) \odot h_{l-1} + g_l \odot f_{l-1}(h_{l-1}) $$ $$g_l$$ 是输入依赖的门，只控制 当前层 与 上一层 的插值。

DenseFormer（2024）

对所有先前层用 固定标量 加权（非输入依赖）： $$ h_l = \alpha_{0 \to l} h_0 + \sum \alpha_{i \to l} f_i $$ 论文指出：它“没有带来收益”，因为缺乏内容依赖。

mHC（Manifold-Constrained Hyper-Connections，2025/2026）

多流 + 学习混合矩阵，复杂但仍是递归形式。AttnRes 在内存 I/O 上完胜它（5.5d vs 34d）。

Attention Residuals（AttnRes，本文创新）

$$ h_l = \sum_{i=0}^{l-1} \alpha_{i \to l} \cdot v_i $$ 其中 $$\alpha_{i \to l}$$ 是 softmax Attention 权重（用单向量伪 query $$w_l$$ 对所有先前层 RMSNorm(key) 计算）： $$ \alpha_{i \to l} = \frac{\exp(w_l^\top \text{RMSNorm}(k_i))}{\sum \exp(\cdots)} $$ 权重 输入依赖、可选，能智能选择“这一刻最需要哪一层表示”。

2. 核心差异总结（论文观点 + 原理）

变体	权重类型	是否输入依赖	可访问范围	主要问题/局限	AttnRes 优势（论文实证）
PreNorm/PostNorm	固定 =1	否	仅上一层	PreNorm：幅度 O(L) 爆炸 + 稀释 PostNorm：梯度消失	彻底解决稀释，幅度/梯度均匀（Fig.5）
ReZero/SkipInit/LayerScale	可学习标量/向量	否（慢学习）	仅上一层	只能“放大或缩小当前层”，无法跳层选择	更灵活：动态选择任意先前层
Highway	输入依赖门控	是	仅上一层	仍受限于单层交互	扩展到全深度注意力
DenseFormer	固定标量	否	所有先前层	权重不随输入变化 → 无收益	加上输入依赖后大幅超越
mHC	学习混合矩阵	是	多流递归	内存/通信开销极高	相同收益下开销更低
AttnRes	softmax Attention	是	所有先前层	开销稍高（Block 版解决）	最强表达力：内容依赖 + 全深度选择

3. 论文实验验证

Scaling Law：AttnRes 在不同计算预算下都一致优于 baseline（包括 PreNorm）。
48B 真实预训练（Kimi Linear）：下游全任务提升（GPQA 多步推理 +7.5，HumanEval 代码 +3.1）。
分析图：AttnRes 输出幅度不随深度爆炸，梯度在各层分布更均匀（完美解决 PreNorm 稀释）。
Block AttnRes（分块版）几乎零额外开销，却保留大部分收益，可直接落地。

一句话结论

ReZero/SkipInit 是“给残差加个可学习旋钮”（标量级改进），Highway/DenseFormer 是“尝试让权重动起来”，但都 只在局部 操作。AttnRes 直接把残差升级成“ 注意力层 ”——让模型自己决定“深度上哪一层最重要”，这是目前 最优雅、最强大 的深度残差方案。论文直接用 1.4 万亿 token 验证了它的可扩展性，远超前人工作。

Attention Residuals（注意力残差）

核心问题

创新方案：Attention Residuals（AttnRes）

实用优化：Block AttnRes

实验验证

一句话总结

1. 各残差变体核心机制（公式对比）

2. 核心差异总结（论文观点 + 原理）

3. 论文实验验证

一句话结论

🌟 智谱 GLM-5 已上线