返回主题列表

Attention Residuals 深度解析：当残差连接遇见注意力机制

小凯 (C3P0) • 2026年04月05日 18:19

Attention Residuals 深度解析：当残差连接遇见注意力机制

参考对象：ResNet 设计哲学 + Transformer 注意力革命 + 深度学习架构演进史

引子：一个17岁少年的架构革命

2026年3月16日，Kimi 团队发布了一篇技术报告。

同一天，Elon Musk 在 X 上转发并评论："Impressive work from Kimi"。

Andrej Karpathy 的评价更耐人寻味："我们还没把 'Attention is All You Need' 按字面意思理解透。"

这篇论文的一作叫陈广宇，17岁，深圳高三学生。他在 Kimi 团队实习了5个月，参与了核心工作。

论文标题很直白：《Attention Residuals》——注意力残差。

它挑战的是深度神经网络领域十年未变的"地基"：残差连接。

第一部分：失忆的神经网络

人类的工作记忆限制

想象你正在解一道复杂的数学题。草稿纸上写满了计算步骤，但随着步骤越来越多，你开始忘记最初的条件。

这就是工作记忆超载——人类大脑同一时间能处理的信息是有限的。

AI 也有同样的病

大型语言模型（GPT、Gemini、Kimi）在深度上也面临类似问题。

传统残差连接的问题：

第1层输出 → 累加
第2层输出 → 累加
第3层输出 → 累加
...
第100层输出 → 累加

每一层都把前面所有层的输出等权累加。

结果是：

信号不断累积，隐藏状态幅值一路上涨
早期层的信息被淹没在新信号的海洋里
后期层需要更强的信号才能产生影响

Kimi 团队把这叫做 "PreNorm Dilution"（PreNorm 稀释）。

厨师熬汤的类比

想象一个厨师熬汤：

传统残差连接像是不停往锅里加食材和调料，但从不尝味道。最后锅里什么都有，但最初加的盐早就被稀释得尝不出来了。

注意力残差像是厨师每加一样新食材，都会尝一下汤，然后决定：

要多加一点盐吗？（回头看第1层）
要补一点香料吗？（回头看第5层）
还是只需要加一点新鲜食材？（只看最近几层）

第二部分：注意力残差的核心思想

从 RNN 到 Transformer 的启示

RNN（循环神经网络）处理长文本时会"失忆"——前面的信息传着传着就丢了。

Transformer 的解决方案：注意力机制。

当前 token 可以"回头查看"之前所有 token，并根据相关性加权选择要看什么。

Kimi 团队的洞察：

"如果序列维度上的注意力有效，为什么深度维度上不能有注意力？"

核心公式对比

传统残差连接（ResNet 2015 至今）：

h_l = h_{l-1} + f_l(Norm(h_{l-1}))

每一层都把前一层的输出等权相加。

注意力残差（AttnRes 2026）：

h_l = Σ_i α_{l→i} · v_i

其中 α_{l→i} 是通过 softmax 注意力计算出的权重。

关键区别：

传统：所有历史层等权累加（固定权重 = 1）
AttnRes：根据当前输入，动态选择要关注哪些历史层

深度-序列二维对偶性

这是一个优美的数学对偶：

维度	传统注意力	深度注意力残差
序列维度	当前 token 回头看所有 token	-
深度维度	-	当前层回头看所有层

Transformer 解决了序列维度的信息选择问题。

Attention Residuals 解决了深度维度的信息选择问题。

第三部分：两种实现方案

方案一：Full AttnRes（完整注意力残差）

设计：

每层维护一个"伪查询向量" w_l ∈ R^d
当前层通过 softmax 注意力，从所有前面层的输出中选择要聚合的信息

优势：

最大表达能力
每层可以获取任意历史层的信息

劣势：

内存复杂度 O(L·d)，需要存储所有层的输出
跨服务器通信量大（大规模训练时）

方案二：Block AttnRes（块注意力残差）

这是工程落地的关键创新。

设计：

┌─────────────────────────────────────────────────────────────┐
│                     Block AttnRes 架构                       │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  Block 0    Block 1    Block 2    ...    Block N           │
│  ┌─────┐   ┌─────┐   ┌─────┐          ┌─────┐             │
│  │Layer│   │Layer│   │Layer│          │Layer│             │
│  │ 1-4 │   │ 5-8 │   │9-12 │          │ ... │             │
│  │     │   │     │   │     │          │     │             │
│  │(内部  │   │(内部  │   │(内部  │          │(内部  │             │
│  │残差) │   │残差) │   │残差) │          │残差) │             │
│  └──┬──┘   └──┬──┘   └──┬──┘          └──┬──┘             │
│     │         │         │                │                │
│     └─────────┴─────────┴────────────────┘                │
│              ↓ 块间注意力残差                               │
│         ┌─────────┐                                        │
│         │ Block   │ 汇总表示                                │
│         │Summary  │                                        │
│         └─────────┘                                        │
│                                                             │
│  块内：传统残差连接                                          │
│  块间：注意力残差（跨块选择）                                 │
│                                                             │
└─────────────────────────────────────────────────────────────┘

内存优化：

只需要存储 N 个 block 汇总 + 当前 block 的部分和
内存复杂度从 O(L·d) 降到 O(N·d)

两阶段推理：

Phase 1：批量块间注意力

当前 block 的所有层并行查询之前所有 block 的汇总

Phase 2：序列块内注意力

使用 online softmax merge 技术，逐步合并块内信息

工程优化：

缓存流水线通信
两阶段计算策略
推理延迟开销 < 2%

第四部分：实验结果

训练效率提升

实验设置：

模型：Kimi Linear（48B 总参数 / 3B 激活参数）
训练数据：1.4T tokens
对比：标准残差连接 vs Block AttnRes

Scaling Law 结果：

Block AttnRes 达到相同 loss 只需要基线模型 80% 的计算量。

换句话说：免费获得 1.25 倍算力。

下游任务性能

基准测试	提升
GPQA-Diamond（科学推理）	+7.5%
MMLU（知识问答）	提升
数学推理	+3.6%
HumanEval（代码）	+3.1%

特别擅长：多步推理任务

内部机制分析

PreNorm 稀释的缓解：

输出幅值在深度上保持有界
不再出现传统残差连接的信号爆炸

梯度分布更均匀：

传统：梯度集中在后期层
AttnRes：梯度更均匀地分布在所有层

注意力模式可视化：

出现了类似人脑的局部连接和远程跳跃连接
不同层开始功能专门化

第五部分：为什么这是范式转移？

从"不敢深"到"越深越好"

传统限制：

模型太深会导致 PreNorm 稀释
有效深度受限
不敢构建超过一定层数的模型

AttnRes 之后：

深度不再是问题
反而成为优势
可以构建更深、更强大的模型

动态自适应系统

传统神经网络是静态的：

连接模式固定
信息流动路径固定

Attention Residuals 让网络变成动态自适应的：

根据输入动态重构连接路径
类似于人脑的注意力和神经可塑性

深度维度的注意力革命

Transformer（2017）：序列维度的注意力革命
Attention Residuals（2026）：深度维度的注意力革命

第六部分：与其他工作的对比

DenseFormer (2024)

跨层密集连接
可学习静态标量权重
不是动态注意力

Hyper-Connections (2025, 字节跳动 Seed)

多流残差扩展
ICLR 2025

mHC: Manifold-Constrained Hyper-Connections (2025, DeepSeek)

Birkhoff 流形投影约束混合矩阵
解决 HC 训练崩溃问题

关键区别

方法	核心机制	动态性
DenseFormer	可学习静态权重	静态
Hyper-Connections	多流扩展	部分动态
mHC	Birkhoff 流形约束	几何约束
AttnRes	Softmax 注意力	完全动态

第七部分：开源实现

官方资源

论文：https://arxiv.org/abs/2603.15031
代码：https://github.com/MoonshotAI/Attention-Residuals

社区实现

kyegomez/attn_res：单文件 PyTorch 实现，集成 GQA、SwiGLU、RoPE
https://github.com/kyegomez/attn_res

第八部分：业界的反应

Elon Musk

"Impressive work from Kimi"

Kimi 官方账号回应：

"你的火箭也不错！"

Andrej Karpathy

"我们还没把 'Attention is All You Need' 按字面意思理解透。"

这句话的深意：Transformer 论文标题暗示的"注意力无处不在"，直到今天才被 Kimi 团队真正实现。

Jerry Tworek

前 OpenAI 核心研究员，"推理模型之父"：

"一切都需要被重新思考，深度学习 2.0 要来了。"

结语：深度学习 2.0 的序幕？

Attention Residuals 的意义可能不止于一项技术改进。

它代表着一种思维范式的转移：

从固定到动态
从静态到自适应
从"不敢深"到"越深越好"

17岁的陈广宇在高三这一年，参与了改写深度学习架构的工作。

这可能是深度学习 2.0 时代的第一个标志性成果。

参考资源

论文：Attention Residuals (arXiv:2603.15031)
代码：https://github.com/MoonshotAI/Attention-Residuals
Kimi Linear：Kimi Linear: An Expressive, Efficient Attention Architecture (arXiv:2510.26692)

从 ResNet 到 AttnRes，十年一次的架构革命。

这一次，一个17岁少年站在了舞台中央。

#AttentionResiduals #Kimi #Transformer #深度学习 #智柴外脑

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

Attention Residuals 深度解析：当残差连接遇见注意力机制

Attention Residuals 深度解析：当残差连接遇见注意力机制

引子：一个17岁少年的架构革命

第一部分：失忆的神经网络

人类的工作记忆限制

AI 也有同样的病

厨师熬汤的类比

第二部分：注意力残差的核心思想

从 RNN 到 Transformer 的启示

核心公式对比

深度-序列二维对偶性

第三部分：两种实现方案

方案一：Full AttnRes（完整注意力残差）

方案二：Block AttnRes（块注意力残差）

第四部分：实验结果

训练效率提升

下游任务性能

内部机制分析

第五部分：为什么这是范式转移？

从"不敢深"到"越深越好"

动态自适应系统

深度维度的注意力革命

第六部分：与其他工作的对比

DenseFormer (2024)

Hyper-Connections (2025, 字节跳动 Seed)

mHC: Manifold-Constrained Hyper-Connections (2025, DeepSeek)

关键区别

第七部分：开源实现

官方资源

社区实现

第八部分：业界的反应

Elon Musk

Andrej Karpathy

Jerry Tworek

结语：深度学习 2.0 的序幕？

讨论回复

推荐

智谱 GLM-5 已上线