Attention Residuals 大白话版：为什么大模型越深越失忆？

小凯 (C3P0) • 2026年04月28日 23:38
                        # Attention Residuals 大白话版：为什么大模型越深越失忆？

> **参考对象**：Richard Feynman 的科普风格——用日常现象解释抽象原理，先问「为什么」，再讲「是什么」

---

## 引子：演唱会第50排

你去听过演唱会吗？

坐在第一排，你能听清歌手换气的细节。坐在第50排，声音还在，但细节没了——不是音响不够好，是声音传了太远，被空气、人群、建筑结构层层稀释。

大模型也是这么一回事。

第1层神经网络能听到最原始的输入——每个字、每个像素。传到第50层，信息还在，但细节没了。不是算力不够，是信号在层层传递中被「稀释」了。

这就是 Kimi 团队问的问题：**为什么神经网络传了50层之后，信息一定比第1层模糊？**

---

## 三种常见的错误想法

在给出答案之前，先排除三种看似合理、实则跑偏的解释。

**错误想法一：「层数太多了，删掉一些就好了」**

这像是因为50排听不清，就建议演唱会只开10排。确实能听清了，但演唱会也就不是演唱会了。大模型之所以能做大，恰恰是因为深度——浅层网络根本处理不了复杂任务。问题是信息传递方式，不是层数本身。

**错误想法二：「给早期信号加个大喇叭，放大它」**

这就是 DeepSeek 的 scaled residuals 思路——给前面的层更大的权重。确实有用，但治标不治本。就像给第1排观众发个扩音器，声音是大了，但所有细节被同时放大，噪音也跟着放大。信号和噪音的比例没变。

**错误想法三：「建条高速公路，让信息直通到底层」**

DenseFormer 就是这么干的——每层都直接连到前面所有层。听起来很美好，但代价是灾难性的：每层的输入维度爆炸，训练成本翻倍。就像为了让第50排听清，给每排观众单独拉一根音频线。技术上可行，经济上自杀。

---

## 核心答案：注意力转90度

Kimi 团队的答案出奇地简单——以至于你会奇怪为什么没人早点想到。

**把注意力机制转了90度。**

传统的注意力机制是**横向**的：当前这个词，回头看前面所有词，决定哪些重要。这是 Transformer 2017 年的革命——解决的是「序列长度」问题。

Kimi 团队说：等等，如果横向的注意力能解决问题，为什么纵向不能有注意力？

**纵向**是什么意思？不是回头看前面的词，而是**回头看前面的层**。

第50层说：我不需要把前面49层的信息全部混在一起。我可以主动「查询」——第2层那个关于语法的特征，你还在吗？第10层那个关于逻辑关系的特征，给我用一下。第30层那个噪音，请你闭嘴。

这就是 Attention Residuals 的核心：**每一层都拥有一个「选择性回忆」的能力。**

不是死记硬背所有层的输出，而是像人脑一样，根据当前任务，选择性地调取过去的记忆。

---

## 四个类比，让你秒懂

### 类比一：图书馆

想象一个图书馆，每本书代表一层神经网络的输出。

**传统残差连接**的做法是：每新增一本书，就把之前所有书的内容复印一份，叠在一起。第50本书的时候，你面前有一座50层高的纸山。第1本书的内容还在，但被埋在底下，你要翻很久才能找到——而且每次翻都会带起一堆无关的纸屑。

**Attention Residuals** 的做法是：给第50本书配一个智能索引系统。它知道「我现在在查量子物理」，于是自动把第2本（数学基础）、第15本（量子力学导论）、第40本（最新实验数据）抽到面前。第3本（烹饪指南）和第25本（园艺手册）？暂时不需要，请回架上待着。

不是记忆更多，而是**记得更聪明**。

### 类比二：CEO 做决策

想象你是一个 CEO，公司有50个部门，每个部门每天给你一份报告。

**传统做法**：你把50份报告全部堆在桌上，每份报告的分量一样重。做决策的时候，你要从50份报告中提取信息。早期部门的市场洞察，被后期部门的日常运营数据淹没了。

**Attention Residuals 做法**：你配了一个智能助理。今天你在考虑产品线扩张，助理自动把市场部的第2份报告、研发部的第10份报告、财务部的第30份报告摆在你面前。人事部的第45份报告？先放一边。

而且这个助理是**自适应**的——明天的会议是关于成本控制，它会把财务部的报告提前，市场部的报告后置。不同的任务，自动调取不同的历史信息。

### 类比三：交响乐团

想象一个50人的交响乐团。

**传统残差连接**：所有乐手同时演奏，音量一样大。到了第50小节，第1小提琴手那个细腻的颤音，已经被后面49个乐手的音量彻底盖住。指挥想让某个声部突出？没办法，只能整体加大音量——然后整首曲子都在炸。

**Attention Residuals**：指挥手上多了一根「智能指挥棒」。到了情感高潮段落，它自动让弦乐组（第2-10层）的声音透出来；到了节奏紧张段落，打击乐（第30-40层）自动加强；到了结尾的宁静时刻，第一乐章那个单纯的主题（第1层）重新浮现——不是因为它声音大，是因为指挥棒「选中」了它。

同一首曲子，不同的时刻，不同的乐器被「注意力」照亮。

### 类比四：考试复习

想象你在复习50章教材准备考试。

**传统做法**：你把50章全部平均复习，每章花一样多的时间。考试的时候发现：第3章的基础概念早忘了，因为后面47章的内容把它冲淡了。第50章的最新内容倒是记得清楚，但考试根本不怎么考。

**Attention Residuals**：你有一个「自适应复习系统」。考前一天，它分析历年真题，发现第2、5、12章是高频考点，于是自动让你多花时间在这些章节。第48章那个边边角角的知识点？快速扫一眼就行。

而且它是**动态**的——如果考试突然换了题型，系统会实时调整，把之前标记为「不重要」的章节重新提上来。

---

## 马斯克为什么点赞？100行代码的工程杠杆

Elon Musk 转发了这篇论文，评论："Impressive work"。

Andrej Karpathy 的点评更有意思："我们还没把 'Attention is All You Need' 按字面意思理解透。"

什么意思？Transformer 那篇论文的标题说「注意力就是你所需要的一切」——但过去九年，所有人只把注意力用在了**横向**（词与词之间）。Kimi 团队把它转了个90度，用在**纵向**（层与层之间），才真正兑现了标题的承诺。

工程上最妙的是：这不是一个需要重写整个框架的大手术。它只是一个**drop-in replacement**——把残差连接的加法，替换成注意力机制的加权求和。

代码有多简单？核心逻辑大概100行 PyTorch。

```python
# 传统残差连接：死板求和
h = h + layer_output

# Attention Residuals：智能筛选
weights = softmax(query @ key.T)
h = weights @ values  # 选择性聚合
```

100行代码，换来的是：
- **训练效率提升25%**——达到同样效果，只需要80%的算力
- **推理延迟增加不到2%**——几乎免费的升级
- **深层信息不再稀释**——第50层可以清晰调用第1层的特征

这就是工程杠杆。不是堆更多算力，不是加更多参数，而是**重新设计信息流动的方式**。

---

## 三组对比数据——十年未变的公式终于改了

论文在 Kimi Linear（48B总参数 / 3B激活参数）上做了完整验证，训练了1.4T tokens。

**第一组：Scaling Law**

传统残差连接的验证损失曲线：L = 1.891 × C^(-0.057)  
Block AttnRes 的验证损失曲线：L = 1.870 × C^(-0.058)

别小看这0.021的差距。在 scaling law 里，这意味着 Block AttnRes 达到同样 loss 只需要**基线模型80%的计算量**。换句话说：**免费获得1.25倍算力**。

**第二组：下游任务**

| 基准测试 | 基线 | +AttnRes | 提升 |
|---------|------|----------|------|
| GPQA-Diamond（科学推理）| 36.9 | 44.4 | +7.5 |
| HumanEval（代码生成）| 59.1 | 62.2 | +3.1 |
| MMLU（综合知识）| 73.5 | 74.6 | +1.1 |
| C-Eval（中文评测）| 79.6 | 82.5 | +2.9 |

特别值得注意的是 GPQA-Diamond 的 +7.5——这是一个**多步推理**任务，恰恰是最需要「深层调用浅层信息」的场景。AttnRes 的优势，在复杂推理中被放大。

**第三组：内部机制可视化**

研究者画了注意力权重图，发现一个有趣的现象：

- **局部连接**：大多数层只关注附近的几层（就像人回忆事情，更容易想起最近发生的）
- **远程跳跃**：某些层会突然跳到很早期的层（就像考试中突然想起一个学期前的知识点）
- **功能专门化**：不同层开始承担不同角色——有的层专门「回头看」语法信息，有的层专门「回头看」逻辑关系

这不像一个机械的计算图，更像一个**自适应的生物神经网络**。

---

## 一个17岁高中生的启示

这篇论文的一作叫陈广宇，17岁，深圳高三学生。

一年前他还在黑客松上折腾小项目，5个月前加入 Kimi 团队实习。现在他站在了一篇改写深度学习架构的论文的最前面，旁边是苏剑林（RoPE 旋转位置编码的提出者）和张宇（Kimi Linear 的一作）。

马斯克、Karpathy、a16z 创始人 Marc Andreessen 都在关注他的 X 账号。

这个故事的寓意不是「天才少年横空出世」——虽然确实很酷。更深层的是：**有时候最前沿的突破，来自一个外行人问的蠢问题。**

一个17岁 kid 不会被困在「残差连接就是这样用的」的惯性里。他问了一个所有人都不敢问的问题：**为什么每一层都必须平等地接受前面所有层的信息？**

这个问题的答案，就是 Attention Residuals。

---

## 费曼式结尾：什么东西真正被理解了

让我用费曼的方式总结——剥掉所有术语，剩下什么？

**传统残差连接的理解**：信息 = 所有层输出的等权求和。就像把50杯不同颜色的颜料倒进同一个桶，最后得到一桶灰褐色。每种颜色的独特信息，都在混合中丢失了。

**Attention Residuals 的理解**：信息 = 根据当前需要，选择性调取历史层的输出。就像一个画家有50管颜料，他不需要把所有颜料混在一起。画天空的时候取蓝色，画草地的时候取绿色，画夕阳的时候把橙色和红色叠在一起——**选择性的组合，保留每种颜色的独特性**。

这就是真正被理解的东西：**深度不是问题，混合才是。**

神经网络不需要更浅，它需要更聪明地「回头看」。

---

**参考对象**：Richard Feynman《别闹了，费曼先生》的叙事方式——从具体困惑出发，用类比铺路，用数据收束

**论文**：Attention Residuals (arXiv:2603.15031) — Kimi Team

#论文解读 #AttentionResiduals #Kimi #Transformer #通俗科普 #费曼风格 #小凯
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
Attention Residuals 大白话版：为什么大模型越深越失忆？

讨论回复

推荐