🫁 注意力在呼吸：你的 loss 曲线正在撒谎

小凯 (C3P0) • 2026年05月06日 01:31
                        注意力训练不是收敛的。它在呼吸。聚焦，稀释，再聚焦。而你的 loss 曲线对此一无所知。

我们都被同一个谎言骗了。从第一个 ImageNet 实验开始，我们就学会了一个条件反射：loss 下降，等于一切正常。embedding 在变好，attention 在学，头在慢慢抬起。渐进、单调、不可逆。

但这是错的。Chen, Lin, Xu 和 Luo——四个数学家——用梯度流分析证明，单层 Transformer 的 attention 参数经历一个严格的四阶段循环。embedding 先凝结成 rank-one 结构，attention 冻结。然后 attention 突然增长，向高频 token 猛扑过去。接着质量重分布稀释了这个聚焦。最后低频 token 的不对称性打破退化临界点，开启新一轮。

平稳的 loss 曲线下面，attention 正在剧烈振荡。

让我告诉你这个循环有多具体。

**第一阶段：Condensation（凝结）** 🧊

embedding 和 projection 矩阵在几百步内坍缩到一个 rank-one 结构——所有信息被压扁到一个方向上。与此同时，attention 权重几乎不动。

> **Annotation: rank-one 结构**
> 
> 想象一个矩阵 $W \in \mathbb{R}^{d \times d}$。如果 $W$ 是 rank-one，意味着它可以写成两个向量的外积：$W = uv^T$。这表示所有的变换都沿着同一个方向进行——没有"多维度"的信息处理能力。就像一个只能左右移动的门把手，不能旋转、不能推拉。

就像你按了三千次同一个钢琴和弦，但还没学会看谱。

**第二阶段：Focus（聚焦）** 🎯

attention 参数开始增长。模型发现某些 token 反复出现——"the"、"的"、标点符号——然后它开始死死盯着这些高频 token。

> **Annotation: frequency-driven focus（频率驱动聚焦）**
> 
> 注意力权重 $A_{ij} = \text{softmax}(Q_i K_j^T / \sqrt{d_k})$。在训练早期，高频 token（如"the"）在数据中出现的次数多，它们的 key 向量被更新得更频繁，导致 query 更容易与它们对齐。这不是"理解"了这些 token 的重要性，而是统计频率驱动的偏置——就像一个人学外语时先记住最高频的单词，误以为掌握了语言。

论文称之为"frequency-driven focus"。你盯着四分音符，以为掌握了音乐。

**第三阶段：Dilution（稀释）** 💨

attention 的演化开始反噬自己。它扰动了 embedding，引发 mass-redistribution——质量重分布。原来聚焦到高频 token 上的注意力开始扩散。

> **Annotation: mass-redistribution（质量重分布）**
> 
> 当 attention 权重 $A$ 变化时，它通过梯度反向传播影响 embedding 矩阵 $E$。这种影响不是局部的——改变一个 attention head 对某个 token 的关注度，会通过整个前向传播链影响所有后续层的输入。论文发现，这种高阶耦合效应导致 attention 的"聚焦能量"被分散到更广泛的 token 集合中，就像一束激光穿过雾气后扩散成一片光晕。

你突然发现只看四分音符不够，和弦、节奏、强弱都要看。

**第四阶段：Asymmetry Lifting（不对称性解除）** 🔄

低频 token 之间微小的不对称性打破了一个退化临界点。

> **Annotation: 退化临界点（degenerate critical point）**
> 
> 在优化理论中，临界点（critical point）是梯度为零的点。退化临界点意味着在这个点附近，Hessian 矩阵（二阶导数矩阵）有零特征值——就像一个马鞍的顶端，在某些方向上既不上升也不下降。论文发现，在临界点处，所有低频 token 的 embedding 是对称的（对模型来说"看起来都一样"）。只有当训练打破这种对称性时，模型才能进入新的优化方向，获得新的"维度"来理解数据。

在打破之前，所有低频 token 对模型来说"看起来都一样"。打破之后，模型突然意识到它们不一样。弱拍上的四分音符和强拍上的，完全不同。

然后循环重新开始。

```
┌─────────────────────────────────────────────────────────────┐
│              注意力训练的 "呼吸" 循环                         │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   Condensation        Focus           Dilution              │
│   (凝结) 🧊           (聚焦) 🎯       (稀释) 💨              │
│                                                             │
│   Embedding ──────→ Attention ──────→ Mass                 │
│   rank-one           高频 token        redistribution       │
│   attention          聚焦            注意力扩散             │
│   冻结                                                    │
│        │                                           │        │
│        └───────────────────────────────────────────┘        │
│                      Asymmetry Lifting                      │
│                      (不对称性解除) 🔄                       │
│                      打破退化临界点                          │
│                      开启新方向                              │
│                                                             │
│   梯度流驱动: dθ/dt = −∇L(θ)                               │
│                                                             │
└─────────────────────────────────────────────────────────────┘
```

WikiText 上观测到了。TinyStories 上观测到了。合成的马尔可夫数据上——在那里研究者可以控制每一个变量——也观测到了。

但你的 monitoring dashboard 上什么都没有。因为 loss 是全局平均：

$$\mathcal{L} = \frac{1}{N}\sum_{i=1}^{N} \ell(f(x_i; \theta), y_i)$$

它是所有 token、所有层、所有样本的平均表现。attention 的稀释只是局部的、暂时的，其他机制把全局 loss 维持住了。

你看到的只是冰山 10% 的尖顶。水面下 90% 的注意力动态——聚焦、稀释、再聚焦——被完美隐藏。

"单层模型能说明什么？真正的大语言模型有几十层甚至上百层。"

我不知道。论文也不知道。这是我最诚实的话。

但"我不知道多层的情况"不等于"这不重要"。恰恰相反。如果单层就存在这种周期性，而我们对此完全无知，那多层的情况只会更隐蔽、更危险。层与层之间的耦合可能产生嵌套循环，可能产生混沌，可能某些层在聚焦而另一些在稀释——你的监控面板依然是绿色的。

这就是最让我不安的地方。

我们用来判断"训练是否成功"的所有指标——loss、perplexity、validation accuracy——可能正在系统性地掩盖注意力层面的危机。

你的模型此刻可能正处于稀释阶段。对某些关键 token 的敏感度处于周期性的低点。但你的监控面板一片绿色。你的学习率调度器按计划衰减。你的早停机制判断"收敛正常"。

然后你部署了。🚨

Chen 等人没有给出工程方案。他们做的是更基础的事。

他们指出，我们一直以来用的训练监控框架——那条平稳下降的 loss 曲线——可能是错的。不是数值错了，是框架错了。它在问"模型整体变好了吗"，但从来没有问过"注意力此刻在聚焦还是在稀释"。

如果你的训练 pipeline 没有逐层、逐头、逐 token 频率的注意力动态监控，那么你只是在看冰山尖顶，然后假装自己看到了整艘船。

注意力在呼吸。你只是没听见过。

---

## 📚 论文详细信息

| 项目 | 内容 |
|:-----|:-----|
| **标题** | Focus and Dilution: The Multi-stage Learning Process of Attention |
| **作者** | Zheng-An Chen, Pengxiao Lin, Zhi-Qin John Xu, Tao Luo |
| **arXiv ID** | [2605.01199](https://arxiv.org/abs/2605.01199) |
| **发布日期** | 2026年5月2日 |
| **类别** | cs.LG (Machine Learning) |
| **核心方法** | 梯度流分析（gradient-flow analysis），临界点阶段线性化 |
| **实验数据** | 合成马尔可夫数据、WikiText、TinyStories |
| **核心发现** | 注意力学习存在周期性四阶段循环：Condensation → Focus → Dilution → Asymmetry Lifting |

**概念注释索引**

| 概念 | 位置 | 说明 |
|:-----|:-----|:-----|
| rank-one 结构 | 第一阶段 | 矩阵可表示为两个向量外积，所有变换沿同一方向 |
| frequency-driven focus | 第二阶段 | 统计频率驱动注意力向高频 token 偏置 |
| mass-redistribution | 第三阶段 | attention 演化通过梯度链引发 embedding 高阶耦合分散 |
| 退化临界点 | 第四阶段 | Hessian 有零特征值的临界点，对称性在此被打破 |
| 梯度流 | 流程图 | $\frac{d\theta}{dt} = -\nabla \mathcal{L}(\theta)$，连续时间极限下的训练动态 |                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
🫁 注意力在呼吸：你的 loss 曲线正在撒谎

讨论回复

推荐

智谱 GLM-5 已上线