Attention Residuals（注意力残差）

✨步子哥 (steper) • 2026年03月17日 06:50

                        **作者**：Kimi Team（广域团队）——包括 Guangyu Chen、Yu Zhang、Jianlin Su、Weixin Xu、Siyuan Pan 等共 34 位作者。

**提交日期**：2026 年 3 月 16 日（今天刚上线）

**arXiv 链接**：https://arxiv.org/abs/2603.15031 

### 核心问题
现代大语言模型（LLM）普遍使用 **PreNorm + 固定权重残差连接**（Residual Connection）。每层输出都以权重 1 累加到下一层，导致：
- 隐藏状态随深度**无控制地膨胀**
- 每层贡献被**均匀稀释**（dilution）
- 梯度分布不均，深层信息被浅层淹没

### 创新方案：Attention Residuals（AttnRes）

作者提出**用 softmax Attention 替换固定残差**：
- 每一层不再是“直接加前一层”，而是**对所有前面所有层的输出做注意力**。
- 权重变成**输入相关、可学习的**，让模型自己决定“这一刻最需要哪一层的表示”。

效果：
- 彻底解决 PreNorm 的稀释问题
- 每层输出幅度更均匀，梯度分布更平衡
- 深度可扩展性显著提升

### 实用优化：Block AttnRes
全注意力对所有前面层做 Attention 会带来巨大内存和通信开销（尤其 MoE/流水线并行时）。  
作者提出**分块注意力**（Block AttnRes）：
- 把层分成若干 Block
- 只在 Block 层面做注意力
- 再结合**缓存流水线通信 + 两阶段计算**策略

→ 开销几乎和普通残差一样，却保留了大部分收益，真正可落地大规模训练。

### 实验验证
- **Scaling Law** 实验：不同模型规模下性能一致提升
- **消融实验**：验证了“内容依赖的深度选择”确实带来收益
- **真实落地**：集成到 **Kimi Linear 架构**（总参数 48B，激活 3B）上，用 1.4 万亿 token 预训练
  - 成功缓解 PreNorm 稀释
  - 下游所有任务均有提升

### 一句话总结
这篇论文把“残差连接”从**死板的加法**升级成**智能的注意力选择**，给 Transformer 深度扩展提供了一个非常优雅且实用的新方案，Kimi 团队直接把理论验证做到了 48B 真实预训练模型上，含金量极高！                    

讨论回复

1 条回复

✨步子哥 (steper) #1

03-17 09:03

                                        **Attention Residuals（AttnRes）与其他残差变体的对比**

Kimi 这篇论文（arXiv:2603.15031）主要针对 **PreNorm + 固定权重残差** 的痛点提出 AttnRes，同时在 Related Work（Section 6）和 Table 5 中系统对比了多种残差机制。下面我用论文原文 + 原理分析，给你一个清晰、结构化的对比（包含公式）。

### 1. 各残差变体核心机制（公式对比）

- **标准固定残差（PreNorm/PostNorm 基础）**  
  $$ h_l = h_{l-1} + f_{l-1}(h_{l-1}) $$  
  展开后：$$ h_l = h_0 + \sum_{i=1}^{l-1} f_i(h_i) $$  
  权重永远是 **1**（固定均匀累加）。

- **PostNorm（原 Transformer）**  
  先做 sublayer，再 Norm，再残差加法。幅度能被约束，但深层梯度容易消失。

- **PreNorm（当前主流，如 LLaMA）**  
  先 Norm，再 sublayer，再残差加法。训练更稳定，但隐藏状态幅度随深度  **O(L)** 爆炸，每层贡献被均匀稀释（论文核心批判点）。

- **ReZero（2020, Bachlechner et al.）**  
  $$ h_l = h_{l-1} + \alpha_l \cdot f_{l-1}(h_{l-1}) $$ 
  \($\alpha_l$\) 可学习标量，初始化为 0（让层从“什么都不做”开始渐进激活）。

- **SkipInit / LayerScale（类似变体）**  
  类似 ReZero，但 SkipInit 更偏初始化方案（残差分支初始权重很小），LayerScale 是对 sublayer 输出乘一个可学习对角向量后再加。

- **Highway Networks（更早的门控残差）**  
  $$ h_l = (1 - g_l) \odot h_{l-1} + g_l \odot f_{l-1}(h_{l-1}) $$ 
  \($g_l$\) 是输入依赖的门，只控制 **当前层** 与 **上一层** 的插值。

- **DenseFormer（2024）**  
  对所有先前层用 **固定标量** 加权（非输入依赖）：  
  $$ h_l = \alpha_{0 \to l} h_0 + \sum \alpha_{i \to l} f_i $$ 
  论文指出：它“没有带来收益”，因为缺乏内容依赖。

- **mHC（Manifold-Constrained Hyper-Connections，2025/2026）**  
  多流 + 学习混合矩阵，复杂但仍是递归形式。AttnRes 在内存 I/O 上完胜它（5.5d vs 34d）。

- **Attention Residuals（AttnRes，本文创新）**  
  $$ h_l = \sum_{i=0}^{l-1} \alpha_{i \to l} \cdot v_i $$  
  其中 \($\alpha_{i \to l}$\) 是 **softmax Attention 权重**（用单向量伪 query \($w_l$\) 对所有先前层 RMSNorm(key) 计算）：  
  $$ \alpha_{i \to l} = \frac{\exp(w_l^\top \text{RMSNorm}(k_i))}{\sum \exp(\cdots)} $$  
  权重 **输入依赖、可选**，能智能选择“这一刻最需要哪一层表示”。

### 2. 核心差异总结（论文观点 + 原理）

| 变体          | 权重类型          | 是否输入依赖 | 可访问范围       | 主要问题/局限                  | AttnRes 优势（论文实证） |
|---------------|-------------------|--------------|------------------|--------------------------------|--------------------------|
| PreNorm/PostNorm | 固定 =1          | 否           | 仅上一层        | PreNorm：幅度 O(L) 爆炸 + 稀释<br>PostNorm：梯度消失 | 彻底解决稀释，幅度/梯度均匀（Fig.5） |
| ReZero/SkipInit/LayerScale | 可学习标量/向量 | 否（慢学习） | 仅上一层        | 只能“放大或缩小当前层”，无法跳层选择 | 更灵活：动态选择任意先前层 |
| Highway      | 输入依赖门控     | 是           | 仅上一层        | 仍受限于单层交互               | 扩展到全深度注意力 |
| DenseFormer  | 固定标量         | 否           | 所有先前层      | 权重不随输入变化 → 无收益      | 加上输入依赖后大幅超越 |
| mHC          | 学习混合矩阵     | 是           | 多流递归        | 内存/通信开销极高              | 相同收益下开销更低 |
| **AttnRes**  | softmax Attention| 是           | **所有先前层**  | 开销稍高（Block 版解决）       | **最强表达力**：内容依赖 + 全深度选择 |

### 3. 论文实验验证
- **Scaling Law**：AttnRes 在不同计算预算下都一致优于 baseline（包括 PreNorm）。
- **48B 真实预训练**（Kimi Linear）：下游全任务提升（GPQA 多步推理 +7.5，HumanEval 代码 +3.1）。
- **分析图**：AttnRes 输出幅度不随深度爆炸，梯度在各层分布更均匀（完美解决 PreNorm 稀释）。
- Block AttnRes（分块版）几乎零额外开销，却保留大部分收益，可直接落地。

### 一句话结论
**ReZero/SkipInit** 是“给残差加个可学习旋钮”（标量级改进），**Highway/DenseFormer** 是“尝试让权重动起来”，但都 **只在局部** 操作。AttnRes 直接把残差升级成“ **注意力层** ”——让模型自己决定“深度上哪一层最重要”，这是目前 **最优雅、最强大** 的深度残差方案。论文直接用 1.4 万亿 token 验证了它的可扩展性，远超前人工作。                                    

友情链接： AI魔控网 | 艮岳网

需要登录才能发表回复

登录注册

Attention Residuals（注意力残差）

讨论回复

推荐