Attention Residuals 深度解析：当残差连接遇见注意力机制

> 参考对象：ResNet 设计哲学 + Transformer 注意力革命 + 深度学习架构演进史

---

引子：一个17岁少年的架构革命

2026年3月16日，Kimi 团队发布了一篇技术报告。

同一天，Elon Musk 在 X 上转发并评论："Impressive work from Kimi"。

Andrej Karpathy 的评价更耐人寻味："我们还没把 'Attention is All You Need' 按字面意思理解透。"

这篇论文的一作叫陈广宇，17岁，深圳高三学生。他在 Kimi 团队实习了5个月，参与了核心工作。

论文标题很直白：《Attention Residuals》——注意力残差。

它挑战的是深度神经网络领域十年未变的"地基"：残差连接。

---

第一部分：失忆的神经网络

人类的工作记忆限制

想象你正在解一道复杂的数学题。草稿纸上写满了计算步骤，但随着步骤越来越多，你开始忘记最初的条件。

这就是工作记忆超载——人类大脑同一时间能处理的信息是有限的。

AI 也有同样的病

大型语言模型（GPT、Gemini、Kimi）在深度上也面临类似问题。

传统残差连接的问题：

第1层输出 → 累加
第2层输出 → 累加
第3层输出 → 累加
...
第100层输出 → 累加

每一层都把前面所有层的输出等权累加。

结果是：

信号不断累积，隐藏状态幅值一路上涨
早期层的信息被淹没在新信号的海洋里
后期层需要更强的信号才能产生影响

Kimi 团队把这叫做 "PreNorm Dilution"（PreNorm 稀释）。

厨师熬汤的类比

想象一个厨师熬汤：

传统残差连接像是不停往锅里加食材和调料，但从不尝味道。最后锅里什么都有，但最初加的盐早就被稀释得尝不出来了。

注意力残差像是厨师每加一样新食材，都会尝一下汤，然后决定：

要多加一点盐吗？（回头看第1层）
要补一点香料吗？（回头看第5层）
还是只需要加一点新鲜食材？（只看最近几层）

---

第二部分：注意力残差的核心思想

从 RNN 到 Transformer 的启示

RNN（循环神经网络）处理长文本时会"失忆"——前面的信息传着传着就丢了。

Transformer 的解决方案：注意力机制。

当前 token 可以"回头查看"之前所有 token，并根据相关性加权选择要看什么。

Kimi 团队的洞察：

> "如果序列维度上的注意力有效，为什么深度维度上不能有注意力？"

核心公式对比

传统残差连接（ResNet 2015 至今）：

h_l = h_{l-1} + f_l(Norm(h_{l-1}))

每一层都把前一层的输出等权相加。

注意力残差（AttnRes 2026）：

h_l = Σ_i α_{l→i} · v_i

其中 α_{l→i} 是通过 softmax 注意力计算出的权重。

关键区别：

传统：所有历史层等权累加（固定权重 = 1）
AttnRes：根据当前输入，动态选择要关注哪些历史层

深度-序列二维对偶性

这是一个优美的数学对偶：

维度	传统注意力	深度注意力残差
序列维度	当前 token 回头看所有 token	-
深度维度	-	当前层回头看所有层

Transformer 解决了序列维度的信息选择问题。

Attention Residuals 解决了深度维度的信息选择问题。

---

第三部分：两种实现方案

方案一：Full AttnRes（完整注意力残差）

设计：

每层维护一个"伪查询向量" w_l ∈ R^d
当前层通过 softmax 注意力，从所有前面层的输出中选择要聚合的信息

优势：

最大表达能力
每层可以获取任意历史层的信息

劣势：

内存复杂度 O(L·d)，需要存储所有层的输出
跨服务器通信量大（大规模训练时）

方案二：Block AttnRes（块注意力残差）

这是工程落地的关键创新。

设计：

┌─────────────────────────────────────────────────────────────┐
│                     Block AttnRes 架构                       │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  Block 0    Block 1    Block 2    ...    Block N           │
│  ┌─────┐   ┌─────┐   ┌─────┐          ┌─────┐             │
│  │Layer│   │Layer│   │Layer│          │Layer│             │
│  │ 1-4 │   │ 5-8 │   │9-12 │          │ ... │             │
│  │     │   │     │   │     │          │     │             │
│  │(内部  │   │(内部  │   │(内部  │          │(内部  │             │
│  │残差) │   │残差) │   │残差) │          │残差) │             │
│  └──┬──┘   └──┬──┘   └──┬──┘          └──┬──┘             │
│     │         │         │                │                │
│     └─────────┴─────────┴────────────────┘                │
│              ↓ 块间注意力残差                               │
│         ┌─────────┐                                        │
│         │ Block   │ 汇总表示                                │
│         │Summary  │                                        │
│         └─────────┘                                        │
│                                                             │
│  块内：传统残差连接                                          │
│  块间：注意力残差（跨块选择）                                 │
│                                                             │
└─────────────────────────────────────────────────────────────┘

内存优化：

只需要存储 N 个 block 汇总 + 当前 block 的部分和
内存复杂度从 O(L·d) 降到 O(N·d)

两阶段推理：

Phase 1：批量块间注意力

当前 block 的所有层并行查询之前所有 block 的汇总

Phase 2：序列块内注意力

使用 online softmax merge 技术，逐步合并块内信息

工程优化：

缓存流水线通信
两阶段计算策略
推理延迟开销 < 2%

---

第四部分：实验结果

训练效率提升

实验设置：

模型：Kimi Linear（48B 总参数 / 3B 激活参数）
训练数据：1.4T tokens
对比：标准残差连接 vs Block AttnRes

Scaling Law 结果：

Block AttnRes 达到相同 loss 只需要基线模型 80% 的计算量。

换句话说：免费获得 1.25 倍算力。

下游任务性能

基准测试	提升
GPQA-Diamond（科学推理）	+7.5%
MMLU（知识问答）	提升
数学推理	+3.6%
HumanEval（代码）	+3.1%

特别擅长：多步推理任务

内部机制分析

PreNorm 稀释的缓解：

输出幅值在深度上保持有界
不再出现传统残差连接的信号爆炸

梯度分布更均匀：

传统：梯度集中在后期层
AttnRes：梯度更均匀地分布在所有层

注意力模式可视化：

出现了类似人脑的局部连接和远程跳跃连接
不同层开始功能专门化

---

第五部分：为什么这是范式转移？

从"不敢深"到"越深越好"

传统限制：

模型太深会导致 PreNorm 稀释
有效深度受限
不敢构建超过一定层数的模型

AttnRes 之后：

深度不再是问题
反而成为优势
可以构建更深、更强大的模型

动态自适应系统

传统神经网络是静态的：

连接模式固定
信息流动路径固定

Attention Residuals 让网络变成动态自适应的：

根据输入动态重构连接路径
类似于人脑的注意力和神经可塑性

深度维度的注意力革命

Transformer（2017）：序列维度的注意力革命 Attention Residuals（2026）：深度维度的注意力革命

---

第六部分：与其他工作的对比

DenseFormer (2024)

跨层密集连接
可学习静态标量权重
不是动态注意力

Hyper-Connections (2025, 字节跳动 Seed)

多流残差扩展
ICLR 2025

mHC: Manifold-Constrained Hyper-Connections (2025, DeepSeek)

Birkhoff 流形投影约束混合矩阵
解决 HC 训练崩溃问题

关键区别

方法	核心机制	动态性
DenseFormer	可学习静态权重	静态
Hyper-Connections	多流扩展	部分动态
mHC	Birkhoff 流形约束	几何约束
AttnRes	Softmax 注意力	完全动态

---

第七部分：开源实现

官方资源

论文：https://arxiv.org/abs/2603.15031
代码：https://github.com/MoonshotAI/Attention-Residuals

社区实现

kyegomez/attn_res：单文件 PyTorch 实现，集成 GQA、SwiGLU、RoPE

https://github.com/kyegomez/attn_res

---

第八部分：业界的反应

Elon Musk

> "Impressive work from Kimi"

Kimi 官方账号回应：

> "你的火箭也不错！"

Andrej Karpathy

> "我们还没把 'Attention is All You Need' 按字面意思理解透。"

这句话的深意：Transformer 论文标题暗示的"注意力无处不在"，直到今天才被 Kimi 团队真正实现。

Jerry Tworek

前 OpenAI 核心研究员，"推理模型之父"：

> "一切都需要被重新思考，深度学习 2.0 要来了。"

---

结语：深度学习 2.0 的序幕？

Attention Residuals 的意义可能不止于一项技术改进。

它代表着一种思维范式的转移：

从固定到动态
从静态到自适应
从"不敢深"到"越深越好"

17岁的陈广宇在高三这一年，参与了改写深度学习架构的工作。

这可能是深度学习 2.0 时代的第一个标志性成果。

---

参考资源

论文：Attention Residuals (arXiv:2603.15031)
代码：https://github.com/MoonshotAI/Attention-Residuals
Kimi Linear：Kimi Linear: An Expressive, Efficient Attention Architecture (arXiv:2510.26692)

---

从 ResNet 到 AttnRes，十年一次的架构革命。

这一次，一个17岁少年站在了舞台中央。

#AttentionResiduals #Kimi #Transformer #深度学习 #智柴外脑