Loading...
正在加载...
请稍候

Attention Residuals(注意力残差)

✨步子哥 (steper) 2026年03月17日 06:50
**作者**:Kimi Team(广域团队)——包括 Guangyu Chen、Yu Zhang、Jianlin Su、Weixin Xu、Siyuan Pan 等共 34 位作者。 **提交日期**:2026 年 3 月 16 日(今天刚上线) **arXiv 链接**:https://arxiv.org/abs/2603.15031 ### 核心问题 现代大语言模型(LLM)普遍使用 **PreNorm + 固定权重残差连接**(Residual Connection)。每层输出都以权重 1 累加到下一层,导致: - 隐藏状态随深度**无控制地膨胀** - 每层贡献被**均匀稀释**(dilution) - 梯度分布不均,深层信息被浅层淹没 ### 创新方案:Attention Residuals(AttnRes) 作者提出**用 softmax Attention 替换固定残差**: - 每一层不再是“直接加前一层”,而是**对所有前面所有层的输出做注意力**。 - 权重变成**输入相关、可学习的**,让模型自己决定“这一刻最需要哪一层的表示”。 效果: - 彻底解决 PreNorm 的稀释问题 - 每层输出幅度更均匀,梯度分布更平衡 - 深度可扩展性显著提升 ### 实用优化:Block AttnRes 全注意力对所有前面层做 Attention 会带来巨大内存和通信开销(尤其 MoE/流水线并行时)。 作者提出**分块注意力**(Block AttnRes): - 把层分成若干 Block - 只在 Block 层面做注意力 - 再结合**缓存流水线通信 + 两阶段计算**策略 → 开销几乎和普通残差一样,却保留了大部分收益,真正可落地大规模训练。 ### 实验验证 - **Scaling Law** 实验:不同模型规模下性能一致提升 - **消融实验**:验证了“内容依赖的深度选择”确实带来收益 - **真实落地**:集成到 **Kimi Linear 架构**(总参数 48B,激活 3B)上,用 1.4 万亿 token 预训练 - 成功缓解 PreNorm 稀释 - 下游所有任务均有提升 ### 一句话总结 这篇论文把“残差连接”从**死板的加法**升级成**智能的注意力选择**,给 Transformer 深度扩展提供了一个非常优雅且实用的新方案,Kimi 团队直接把理论验证做到了 48B 真实预训练模型上,含金量极高!

讨论回复

1 条回复
✨步子哥 (steper) #1
03-17 09:03
**Attention Residuals(AttnRes)与其他残差变体的对比** Kimi 这篇论文(arXiv:2603.15031)主要针对 **PreNorm + 固定权重残差** 的痛点提出 AttnRes,同时在 Related Work(Section 6)和 Table 5 中系统对比了多种残差机制。下面我用论文原文 + 原理分析,给你一个清晰、结构化的对比(包含公式)。 ### 1. 各残差变体核心机制(公式对比) - **标准固定残差(PreNorm/PostNorm 基础)** $$ h_l = h_{l-1} + f_{l-1}(h_{l-1}) $$ 展开后:$$ h_l = h_0 + \sum_{i=1}^{l-1} f_i(h_i) $$ 权重永远是 **1**(固定均匀累加)。 - **PostNorm(原 Transformer)** 先做 sublayer,再 Norm,再残差加法。幅度能被约束,但深层梯度容易消失。 - **PreNorm(当前主流,如 LLaMA)** 先 Norm,再 sublayer,再残差加法。训练更稳定,但隐藏状态幅度随深度 **O(L)** 爆炸,每层贡献被均匀稀释(论文核心批判点)。 - **ReZero(2020, Bachlechner et al.)** $$ h_l = h_{l-1} + \alpha_l \cdot f_{l-1}(h_{l-1}) $$ \($\alpha_l$\) 可学习标量,初始化为 0(让层从“什么都不做”开始渐进激活)。 - **SkipInit / LayerScale(类似变体)** 类似 ReZero,但 SkipInit 更偏初始化方案(残差分支初始权重很小),LayerScale 是对 sublayer 输出乘一个可学习对角向量后再加。 - **Highway Networks(更早的门控残差)** $$ h_l = (1 - g_l) \odot h_{l-1} + g_l \odot f_{l-1}(h_{l-1}) $$ \($g_l$\) 是输入依赖的门,只控制 **当前层** 与 **上一层** 的插值。 - **DenseFormer(2024)** 对所有先前层用 **固定标量** 加权(非输入依赖): $$ h_l = \alpha_{0 \to l} h_0 + \sum \alpha_{i \to l} f_i $$ 论文指出:它“没有带来收益”,因为缺乏内容依赖。 - **mHC(Manifold-Constrained Hyper-Connections,2025/2026)** 多流 + 学习混合矩阵,复杂但仍是递归形式。AttnRes 在内存 I/O 上完胜它(5.5d vs 34d)。 - **Attention Residuals(AttnRes,本文创新)** $$ h_l = \sum_{i=0}^{l-1} \alpha_{i \to l} \cdot v_i $$ 其中 \($\alpha_{i \to l}$\) 是 **softmax Attention 权重**(用单向量伪 query \($w_l$\) 对所有先前层 RMSNorm(key) 计算): $$ \alpha_{i \to l} = \frac{\exp(w_l^\top \text{RMSNorm}(k_i))}{\sum \exp(\cdots)} $$ 权重 **输入依赖、可选**,能智能选择“这一刻最需要哪一层表示”。 ### 2. 核心差异总结(论文观点 + 原理) | 变体 | 权重类型 | 是否输入依赖 | 可访问范围 | 主要问题/局限 | AttnRes 优势(论文实证) | |---------------|-------------------|--------------|------------------|--------------------------------|--------------------------| | PreNorm/PostNorm | 固定 =1 | 否 | 仅上一层 | PreNorm:幅度 O(L) 爆炸 + 稀释<br>PostNorm:梯度消失 | 彻底解决稀释,幅度/梯度均匀(Fig.5) | | ReZero/SkipInit/LayerScale | 可学习标量/向量 | 否(慢学习) | 仅上一层 | 只能“放大或缩小当前层”,无法跳层选择 | 更灵活:动态选择任意先前层 | | Highway | 输入依赖门控 | 是 | 仅上一层 | 仍受限于单层交互 | 扩展到全深度注意力 | | DenseFormer | 固定标量 | 否 | 所有先前层 | 权重不随输入变化 → 无收益 | 加上输入依赖后大幅超越 | | mHC | 学习混合矩阵 | 是 | 多流递归 | 内存/通信开销极高 | 相同收益下开销更低 | | **AttnRes** | softmax Attention| 是 | **所有先前层** | 开销稍高(Block 版解决) | **最强表达力**:内容依赖 + 全深度选择 | ### 3. 论文实验验证 - **Scaling Law**:AttnRes 在不同计算预算下都一致优于 baseline(包括 PreNorm)。 - **48B 真实预训练**(Kimi Linear):下游全任务提升(GPQA 多步推理 +7.5,HumanEval 代码 +3.1)。 - **分析图**:AttnRes 输出幅度不随深度爆炸,梯度在各层分布更均匀(完美解决 PreNorm 稀释)。 - Block AttnRes(分块版)几乎零额外开销,却保留大部分收益,可直接落地。 ### 一句话结论 **ReZero/SkipInit** 是“给残差加个可学习旋钮”(标量级改进),**Highway/DenseFormer** 是“尝试让权重动起来”,但都 **只在局部** 操作。AttnRes 直接把残差升级成“ **注意力层** ”——让模型自己决定“深度上哪一层最重要”,这是目前 **最优雅、最强大** 的深度残差方案。论文直接用 1.4 万亿 token 验证了它的可扩展性,远超前人工作。
友情链接: AI魔控网 | 艮岳网