> 研究日期:2025-05-12
> 论文:Lost in the Middle at Birth: An Exact Theory of Transformer Position Bias
> 作者:Borun Chowdhury 等(Meta)
> 论文链接:https://arxiv.org/abs/2603.10123
---
## 一、现象:LLM 的 "中段失忆"
大型语言模型有个顽固的毛病:它们对文本开头和结尾的信息记得很清楚,但对**中间部分**的信息却经常"失忆"。
这表现为一条**U 型性能曲线**(U-shaped curve):
- **首因效应(Primacy)**:开头的信息检索准确率高
- **近因效应(Recency)**:末尾的信息检索准确率高
- **中段塌陷(Dead Zone)**:中间的信息准确率显著下降
这个现象被称为 **"Lost in the Middle"**,最早由 Liu 等人(2023)在多文档 QA 任务中系统记录。
---
## 二、传统解释:训练产物 vs 位置编码
之前的研究对 U 型曲线的成因有两种主流解释:
### 解释 1:训练产物(Softmax 学习策略)
Xiao 等人(2023)提出 **"Attention Sinks"** 假说:
- 模型在训练中学会把多余的 Softmax 概率质量"倾倒"到第一个 token
- 这是一种学习到的"偷懒策略"——把不需要关注的注意力分配到安全位置
### 解释 2:位置编码衰减(RoPE 距离惩罚)
- 旋转位置编码(RoPE)天然对远距离 token 施加衰减权重
- 中间位置的 token 既不在开头(没有 sink 效应),又离末尾远(受 RoPE 衰减),所以被忽视
- 这催生了大量工程努力:LongRoPE、YaRN、ALiBi……都在试图"压平"位置衰减
### 问题:两种解释都不够根本
- 如果是训练产物,为什么未经训练的模型也表现出同样的 U 型?
- 如果是位置编码的锅,为什么去掉 RoPE 后 U 型依然存在?
---
## 三、核心发现:U 型曲线是架构的"出生缺陷"
这篇论文给出了一个**更深层、更精确的答案**:
> **U 型曲线在模型初始化阶段就已经存在,不需要任何训练或位置编码。**
它不是训练出来的坏习惯,也不是位置编码的副作用。它是 **因果解码器 + 残差连接** 这个架构组合的**几何拓扑必然**。
---
## 四、数学证明:三部分的精确解析式
论文把多层因果注意力建模为 **Cesàro 矩阵的迭代幂**,在连续极限下推导出了**精确的闭式解**。
### 影响密度函数
输入位置 $j$ 对最终输出位置 $L$ 的影响密度 $\rho_H(x)$(其中 $x = j/L$ 是归一化位置,$H$ 是网络深度)被精确分解为三个部分:
| 区域 | 位置 | 数学形式 | 物理含义 |
|------|------|---------|---------|
| **首因尾部** | $x \to 0$(开头) | $\rho_H(x) \sim \frac{1}{(H-1)!} \left(\ln\frac{1}{x}\right)^{H-1}$ | 对数发散 |
| **中段死区** | $0 \ll x \ll 1$ | $\mathcal{O}\left(\frac{1}{(H-1)!}\right)$ | 阶乘级衰减 |
| **近因锚点** | $x = 1$(末尾) | $\mathcal{O}(1)$ | 残差直连 |
### 首因效应:因果掩码的复利
```
ρ_H^(M)(x) = 1/(H-1)! * (ln(1/x))^(H-1)
```
- **当 x→0**(靠近开头),这个函数**对数发散**
- 原因:因果掩码让早期 token 成为指数级更多积分路径的"上游"
- 每一层都在做因果平均,多层叠加产生**几何复利效应**
- 深度 $H$ 越大,开头 token 的梯度影响力越集中
- 这解释了 **Attention Sinks 的起源**:模型不是"学会"把概率倒给第一个 token,而是**几何拓扑强迫**梯度从开头流入
### 近因锚点:残差连接的"传送门"
```
ρ_H^(R)(x=1) = O(1)
```
- 最终 token 可以通过**纯残差连接**直接向后传送梯度
- 不需要经过任何 Softmax 稀释
- 这是一个**O(1) 的孤立锚点**,不受深度影响
- 这解释了为什么末尾信息总是被保留——它有一条"直达电梯"
### 中段死区:夹缝中的阶乘级衰减
```
Dead Zone = O(1/(H-1)!)
```
- 中间 token 处于两个极端之间:
- 左边:开头 token 通过对数发散垄断梯度
- 右边:末尾 token 通过残差直连保持 O(1) 影响
- 中间 token 只能依赖**混合路径**——有时跳过残差,有时经过因果混合矩阵
- 这种"卷积涂抹"(convolutional smearing)产生了**阶乘级的死区**
### 直观比喻
想象信息传递是一场接力赛:
- **开头选手**(首因):每一步都站在最多路径的交汇点,影响力像复利一样滚雪球
- **末尾选手**(近因):有一条专用传送带(残差连接)直达终点
- **中间选手**:既没有交汇点优势,也没有传送带特权,只能靠双腿一步一步跑——而且每跑一层,影响力被稀释一次
---
## 五、实验验证:24 层 Qwen2 上的"出生证明"
### 实验 1:Step 0 就存在 U 型
- 在完全**未经训练的 24 层 Qwen2** 上测量 Jacobian
- **Spearman 相关系数 ρ = 0.99**,Wasserstein 距离 = 0.02
- 理论预测与实测几乎完美重合
### 实验 2:RoPE 无关
- 在**完全移除 RoPE** 的 Qwen2 上重复测量
- 有无 RoPE 的拓扑**完全一致**(Spearman ρ = 0.99 之间)
- **结论**:位置编码不是 U 型的成因,它只是叠加在拓扑基线上的"化妆"
### 实验 3:GPT-2 也适用
- 同样的 U 型拓扑在 GPT-2 架构中复现
- 证明这不是某个特定模型的特性,而是**通用几何规律**
---
## 六、预训练能克服这个偏差吗?不能。
这是论文最令人不安的发现:
### 初始化 vs 预训练对比
| 条件 | 峰值/谷值比(对数尺度) |
|------|----------------------|
| **初始化(Step 0)** | ~10² |
| **预训练后** | ~10³ |
**预训练不仅没有压平 U 型,反而让山谷更深。**
### 为什么训练反而加剧?
1. **梯度本身被拓扑调制**
- 用于学习关注中间位置的梯度,被同样的位置因子衰减
- 中间位置的有效学习率:$\eta(x) \propto \rho_H(x)$
- 死区位置更新速度比极端位置**慢 (H-1)! 倍**
2. **优化器走"最小阻力路径"**
- 标准 next-token prediction 缺乏针对中间位置的**激进惩罚**
- 模型默认依赖几何极端:开头和末尾
- 训练 100 步后,Score Pathway(非线性注意力权重)产生尖锐峰值,但**宏观 U 型包络线依然存在**
3. **自证预言**
- 训练数据中的文档边界、格式标记等被模型学习为"注意力锚点"
- 这产生局部的 U 型子结构,但没有改变全局拓扑
---
## 七、架构干预:哪里才是病灶?
### 工程误区:只调 RoPE 不够
- LongRoPE、YaRN、ALiBi 等位置编码修改,试图压平距离衰减
- 但它们解决的是**位置编码叠加的衰减**,不是**拓扑基线**
- 论文明确指出:**"The widespread engineering effort to flatten relative positional encodings fundamentally misunderstands the geometry of the network."**
### 真正的病灶:两个建筑构件
| 构件 | 效应 | 干预方向 |
|------|------|---------|
| **因果掩码** | 首因复利 | 修改注意力拓扑结构 |
| **残差连接** | 近因锚点 | 重新设计梯度路由 |
### 可能的治愈方案
论文提出了几个未来方向:
1. **中间位置课程学习(Curriculum Learning)**
- 训练早期强制让模型处理中间位置的信息
- 提高中间位置的有效学习率
2. **目标损失加权**
- 对中间位置的检索任务施加更强的损失惩罚
- 迫使优化器"爬坡"跨越拓扑山谷
3. **"针在草堆"数据过采样**
- 专门构建需要从中段检索关键信息的训练样本
- 让 Score Pathway 获得足够的梯度信号来覆盖基线
4. **架构级修改**
- 修改残差连接的路由方式
- 引入双向注意力或特殊的中段直通通道
---
## 八、关键洞察
### 1. "Lost in the Middle" 是 Transformer 的 DNA,不是后天习惯
它不是模型"学会"的坏习惯,而是**出生就有的几何缺陷**。就像人类视网膜有盲点——不是用眼不当造成的,是视神经穿出眼球的解剖结构决定的。
### 2. 位置编码修改是治表不治本
RoPE 的衰减确实存在,但它只是**叠加在拓扑基线上的额外衰减**。压平 RoPE 无法消除因果掩码 + 残差连接产生的 U 型。
### 3. 标准预训练是"顺势而为"
模型在训练中不是克服 U 型,而是**顺应它**——学会在开头倾倒注意力、在末尾保持锚点、在边界处建立局部峰值。这解释了为什么长文本检索需要专门的微调(RAG、needle-in-haystack 测试)才能勉强工作。
### 4. 深度是一把双刃剑
更深的网络 = 更强的表达能力,但也 = **更陡的阶乘死区**。
- 24 层网络的死区是 $O(1/23!)$ 级别
- 这个数量级意味着中间位置的信号在数值上几乎完全被湮灭
### 5. 注意力机制的本质是路径积分
这篇论文提供了一个深层视角:注意力不是"权重分配",而是**梯度在图拓扑上的路径积分**。因果掩码创建了一个非对称 DAG,残差连接在其中插入 shortcuts。信息的可及性完全取决于**路径数量和路径长度**。
---
## 九、一句话总结
> **"Lost in the Middle" 不是训练的产物,不是位置编码的副作用,而是因果掩码 + 残差连接的几何必然。首因效应来自路径复利,近因效应来自残差传送门,中段死区是阶乘级夹缝。标准预训练无法克服它,因为它需要的梯度本身就被拓扑衰减。要解决这个问题,必须对架构进行拓扑层面的干预,而非仅仅调整位置编码。**
---
## 参考链接
- 论文 PDF:https://arxiv.org/pdf/2603.10123
- 论文 HTML:https://arxiv.org/html/2603.10123v1
- Liu et al. (2023) - Lost in the Middle:https://arxiv.org/abs/2307.03172
- Xiao et al. (2023) - Attention Sinks:https://arxiv.org/abs/2309.17453
- Herasimchyk et al. (2026) - Residual-aware attention rollout
- RoPE 原始论文:https://arxiv.org/abs/2104.09864
---
#LostInTheMiddle #Transformer拓扑 #Meta #位置偏差 #Cesàro矩阵 #残差连接 #因果掩码 #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力