Attention Residuals(AttnRes)与其他残差变体的对比
Kimi 这篇论文(arXiv:2603.15031)主要针对 PreNorm + 固定权重残差 的痛点提出 AttnRes,同时在 Related Work(Section 6)和 Table 5 中系统对比了多种残差机制。下面我用论文原文 + 原理分析,给你一个清晰、结构化的对比(包含公式)。
1. 各残差变体核心机制(公式对比)
- 标准固定残差(PreNorm/PostNorm 基础)
$$ h_l = h_{l-1} + f_{l-1}(h_{l-1}) $$
展开后:$$ h_l = h_0 + \sum_{i=1}^{l-1} f_i(h_i) $$
权重永远是
1(固定均匀累加)。
先做 sublayer,再 Norm,再残差加法。幅度能被约束,但深层梯度容易消失。
先 Norm,再 sublayer,再残差加法。训练更稳定,但隐藏状态幅度随深度
O(L) 爆炸,每层贡献被均匀稀释(论文核心批判点)。
- ReZero(2020, Bachlechner et al.)
$$ h_l = h_{l-1} + \alpha_l \cdot f_{l-1}(h_{l-1}) $$
\($\alpha_l$\) 可学习标量,初始化为 0(让层从“什么都不做”开始渐进激活)。
- SkipInit / LayerScale(类似变体)
类似 ReZero,但 SkipInit 更偏初始化方案(残差分支初始权重很小),LayerScale 是对 sublayer 输出乘一个可学习对角向量后再加。
- Highway Networks(更早的门控残差)
$$ h_l = (1 - g_l) \odot h_{l-1} + g_l \odot f_{l-1}(h_{l-1}) $$
\($g_l$\) 是输入依赖的门,只控制
当前层 与
上一层 的插值。
对所有先前层用
固定标量 加权(非输入依赖):
$$ h_l = \alpha_{0 \to l} h_0 + \sum \alpha_{i \to l} f_i $$
论文指出:它“没有带来收益”,因为缺乏内容依赖。
- mHC(Manifold-Constrained Hyper-Connections,2025/2026)
多流 + 学习混合矩阵,复杂但仍是递归形式。AttnRes 在内存 I/O 上完胜它(5.5d vs 34d)。
- Attention Residuals(AttnRes,本文创新)
$$ h_l = \sum_{i=0}^{l-1} \alpha_{i \to l} \cdot v_i $$
其中 \($\alpha_{i \to l}$\) 是
softmax Attention 权重(用单向量伪 query \($w_l$\) 对所有先前层 RMSNorm(key) 计算):
$$ \alpha_{i \to l} = \frac{\exp(w_l^\top \text{RMSNorm}(k_i))}{\sum \exp(\cdots)} $$
权重
输入依赖、可选,能智能选择“这一刻最需要哪一层表示”。
2. 核心差异总结(论文观点 + 原理)
| 变体 | 权重类型 | 是否输入依赖 | 可访问范围 | 主要问题/局限 | AttnRes 优势(论文实证) |
|---|
| PreNorm/PostNorm | 固定 =1 | 否 | 仅上一层 | PreNorm:幅度 O(L) 爆炸 + 稀释 PostNorm:梯度消失 | 彻底解决稀释,幅度/梯度均匀(Fig.5) |
| ReZero/SkipInit/LayerScale | 可学习标量/向量 | 否(慢学习) | 仅上一层 | 只能“放大或缩小当前层”,无法跳层选择 | 更灵活:动态选择任意先前层 |
| Highway | 输入依赖门控 | 是 | 仅上一层 | 仍受限于单层交互 | 扩展到全深度注意力 |
| DenseFormer | 固定标量 | 否 | 所有先前层 | 权重不随输入变化 → 无收益 | 加上输入依赖后大幅超越 |
| mHC | 学习混合矩阵 | 是 | 多流递归 | 内存/通信开销极高 | 相同收益下开销更低 |
| AttnRes | softmax Attention | 是 | 所有先前层 | 开销稍高(Block 版解决) | 最强表达力:内容依赖 + 全深度选择 |
3. 论文实验验证
- Scaling Law:AttnRes 在不同计算预算下都一致优于 baseline(包括 PreNorm)。
- 48B 真实预训练(Kimi Linear):下游全任务提升(GPQA 多步推理 +7.5,HumanEval 代码 +3.1)。
- 分析图:AttnRes 输出幅度不随深度爆炸,梯度在各层分布更均匀(完美解决 PreNorm 稀释)。
- Block AttnRes(分块版)几乎零额外开销,却保留大部分收益,可直接落地。
一句话结论
ReZero/SkipInit 是“给残差加个可学习旋钮”(标量级改进),
Highway/DenseFormer 是“尝试让权重动起来”,但都
只在局部 操作。AttnRes 直接把残差升级成“
注意力层 ”——让模型自己决定“深度上哪一层最重要”,这是目前
最优雅、最强大 的深度残差方案。论文直接用 1.4 万亿 token 验证了它的可扩展性,远超前人工作。