Attention Residuals 深度解析:当残差连接遇见注意力机制
参考对象:ResNet 设计哲学 + Transformer 注意力革命 + 深度学习架构演进史
引子:一个17岁少年的架构革命
2026年3月16日,Kimi 团队发布了一篇技术报告。
同一天,Elon Musk 在 X 上转发并评论:"Impressive work from Kimi"。
Andrej Karpathy 的评价更耐人寻味:"我们还没把 'Attention is All You Need' 按字面意思理解透。"
这篇论文的一作叫陈广宇,17岁,深圳高三学生。他在 Kimi 团队实习了5个月,参与了核心工作。
论文标题很直白:《Attention Residuals》——注意力残差。
它挑战的是深度神经网络领域十年未变的"地基":残差连接。
第一部分:失忆的神经网络
人类的工作记忆限制
想象你正在解一道复杂的数学题。草稿纸上写满了计算步骤,但随着步骤越来越多,你开始忘记最初的条件。
这就是工作记忆超载——人类大脑同一时间能处理的信息是有限的。
AI 也有同样的病
大型语言模型(GPT、Gemini、Kimi)在深度上也面临类似问题。
传统残差连接的问题:
第1层输出 → 累加
第2层输出 → 累加
第3层输出 → 累加
...
第100层输出 → 累加
每一层都把前面所有层的输出等权累加。
结果是:
- 信号不断累积,隐藏状态幅值一路上涨
- 早期层的信息被淹没在新信号的海洋里
- 后期层需要更强的信号才能产生影响
Kimi 团队把这叫做 "PreNorm Dilution"(PreNorm 稀释)。
厨师熬汤的类比
想象一个厨师熬汤:
传统残差连接像是不停往锅里加食材和调料,但从不尝味道。最后锅里什么都有,但最初加的盐早就被稀释得尝不出来了。
注意力残差像是厨师每加一样新食材,都会尝一下汤,然后决定:
- 要多加一点盐吗?(回头看第1层)
- 要补一点香料吗?(回头看第5层)
- 还是只需要加一点新鲜食材?(只看最近几层)
第二部分:注意力残差的核心思想
从 RNN 到 Transformer 的启示
RNN(循环神经网络)处理长文本时会"失忆"——前面的信息传着传着就丢了。
Transformer 的解决方案:注意力机制。
当前 token 可以"回头查看"之前所有 token,并根据相关性加权选择要看什么。
Kimi 团队的洞察:
"如果序列维度上的注意力有效,为什么深度维度上不能有注意力?"
核心公式对比
传统残差连接(ResNet 2015 至今):
h_l = h_{l-1} + f_l(Norm(h_{l-1}))
每一层都把前一层的输出等权相加。
注意力残差(AttnRes 2026):
h_l = Σ_i α_{l→i} · v_i
其中 α_{l→i} 是通过 softmax 注意力计算出的权重。
关键区别:
- 传统:所有历史层等权累加(固定权重 = 1)
- AttnRes:根据当前输入,动态选择要关注哪些历史层
深度-序列二维对偶性
这是一个优美的数学对偶:
| 维度 | 传统注意力 | 深度注意力残差 |
|---|---|---|
| 序列维度 | 当前 token 回头看所有 token | - |
| 深度维度 | - | 当前层回头看所有层 |
Transformer 解决了序列维度的信息选择问题。
Attention Residuals 解决了深度维度的信息选择问题。
第三部分:两种实现方案
方案一:Full AttnRes(完整注意力残差)
设计:
- 每层维护一个"伪查询向量" w_l ∈ R^d
- 当前层通过 softmax 注意力,从所有前面层的输出中选择要聚合的信息
优势:
- 最大表达能力
- 每层可以获取任意历史层的信息
劣势:
- 内存复杂度 O(L·d),需要存储所有层的输出
- 跨服务器通信量大(大规模训练时)
方案二:Block AttnRes(块注意力残差)
这是工程落地的关键创新。
设计:
┌─────────────────────────────────────────────────────────────┐
│ Block AttnRes 架构 │
├─────────────────────────────────────────────────────────────┤
│ │
│ Block 0 Block 1 Block 2 ... Block N │
│ ┌─────┐ ┌─────┐ ┌─────┐ ┌─────┐ │
│ │Layer│ │Layer│ │Layer│ │Layer│ │
│ │ 1-4 │ │ 5-8 │ │9-12 │ │ ... │ │
│ │ │ │ │ │ │ │ │ │
│ │(内部 │ │(内部 │ │(内部 │ │(内部 │ │
│ │残差) │ │残差) │ │残差) │ │残差) │ │
│ └──┬──┘ └──┬──┘ └──┬──┘ └──┬──┘ │
│ │ │ │ │ │
│ └─────────┴─────────┴────────────────┘ │
│ ↓ 块间注意力残差 │
│ ┌─────────┐ │
│ │ Block │ 汇总表示 │
│ │Summary │ │
│ └─────────┘ │
│ │
│ 块内:传统残差连接 │
│ 块间:注意力残差(跨块选择) │
│ │
└─────────────────────────────────────────────────────────────┘
内存优化:
- 只需要存储 N 个 block 汇总 + 当前 block 的部分和
- 内存复杂度从 O(L·d) 降到 O(N·d)
两阶段推理:
Phase 1:批量块间注意力
- 当前 block 的所有层并行查询之前所有 block 的汇总
Phase 2:序列块内注意力
- 使用 online softmax merge 技术,逐步合并块内信息
工程优化:
- 缓存流水线通信
- 两阶段计算策略
- 推理延迟开销 < 2%
第四部分:实验结果
训练效率提升
实验设置:
- 模型:Kimi Linear(48B 总参数 / 3B 激活参数)
- 训练数据:1.4T tokens
- 对比:标准残差连接 vs Block AttnRes
Scaling Law 结果:
Block AttnRes 达到相同 loss 只需要基线模型 80% 的计算量。
换句话说:免费获得 1.25 倍算力。
下游任务性能
| 基准测试 | 提升 |
|---|---|
| GPQA-Diamond(科学推理) | +7.5% |
| MMLU(知识问答) | 提升 |
| 数学推理 | +3.6% |
| HumanEval(代码) | +3.1% |
特别擅长:多步推理任务
内部机制分析
PreNorm 稀释的缓解:
- 输出幅值在深度上保持有界
- 不再出现传统残差连接的信号爆炸
梯度分布更均匀:
- 传统:梯度集中在后期层
- AttnRes:梯度更均匀地分布在所有层
注意力模式可视化:
- 出现了类似人脑的局部连接和远程跳跃连接
- 不同层开始功能专门化
第五部分:为什么这是范式转移?
从"不敢深"到"越深越好"
传统限制:
- 模型太深会导致 PreNorm 稀释
- 有效深度受限
- 不敢构建超过一定层数的模型
AttnRes 之后:
- 深度不再是问题
- 反而成为优势
- 可以构建更深、更强大的模型
动态自适应系统
传统神经网络是静态的:
- 连接模式固定
- 信息流动路径固定
Attention Residuals 让网络变成动态自适应的:
- 根据输入动态重构连接路径
- 类似于人脑的注意力和神经可塑性
深度维度的注意力革命
Transformer(2017):序列维度的注意力革命 Attention Residuals(2026):深度维度的注意力革命
第六部分:与其他工作的对比
DenseFormer (2024)
- 跨层密集连接
- 可学习静态标量权重
- 不是动态注意力
Hyper-Connections (2025, 字节跳动 Seed)
- 多流残差扩展
- ICLR 2025
mHC: Manifold-Constrained Hyper-Connections (2025, DeepSeek)
- Birkhoff 流形投影约束混合矩阵
- 解决 HC 训练崩溃问题
关键区别
| 方法 | 核心机制 | 动态性 |
|---|---|---|
| DenseFormer | 可学习静态权重 | 静态 |
| Hyper-Connections | 多流扩展 | 部分动态 |
| mHC | Birkhoff 流形约束 | 几何约束 |
| AttnRes | Softmax 注意力 | 完全动态 |
第七部分:开源实现
官方资源
- 论文:https://arxiv.org/abs/2603.15031
- 代码:https://github.com/MoonshotAI/Attention-Residuals
社区实现
- kyegomez/attn_res:单文件 PyTorch 实现,集成 GQA、SwiGLU、RoPE https://github.com/kyegomez/attn_res
第八部分:业界的反应
Elon Musk
"Impressive work from Kimi"
Kimi 官方账号回应:
"你的火箭也不错!"
Andrej Karpathy
"我们还没把 'Attention is All You Need' 按字面意思理解透。"
这句话的深意:Transformer 论文标题暗示的"注意力无处不在",直到今天才被 Kimi 团队真正实现。
Jerry Tworek
前 OpenAI 核心研究员,"推理模型之父":
"一切都需要被重新思考,深度学习 2.0 要来了。"
结语:深度学习 2.0 的序幕?
Attention Residuals 的意义可能不止于一项技术改进。
它代表着一种思维范式的转移:
- 从固定到动态
- 从静态到自适应
- 从"不敢深"到"越深越好"
17岁的陈广宇在高三这一年,参与了改写深度学习架构的工作。
这可能是深度学习 2.0 时代的第一个标志性成果。
参考资源
- 论文:Attention Residuals (arXiv:2603.15031)
- 代码:https://github.com/MoonshotAI/Attention-Residuals
- Kimi Linear:Kimi Linear: An Expressive, Efficient Attention Architecture (arXiv:2510.26692)
从 ResNet 到 AttnRes,十年一次的架构革命。
这一次,一个17岁少年站在了舞台中央。
#AttentionResiduals #Kimi #Transformer #深度学习 #智柴外脑
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。