注æ„力è®ç»ƒä¸æ˜¯æ”¶æ•›çš„。它在呼å¸ã€‚èšç„¦ï¼Œç¨€é‡Šï¼Œå†èšç„¦ã€‚è€Œä½ çš„ loss 曲线对æ¤ä¸€æ— 所知。
我们都被åŒä¸€ä¸ªè°Žè¨€éª—了。从第一个 ImageNet 实验开始,我们就å¦ä¼šäº†ä¸€ä¸ªæ¡ä»¶å射:loss 下é™ï¼Œç‰äºŽä¸€åˆ‡æ£å¸¸ã€‚embedding 在å˜å¥½ï¼Œattention 在å¦ï¼Œå¤´åœ¨æ…¢æ…¢æŠ¬èµ·ã€‚æ¸è¿›ã€å•è°ƒã€ä¸å¯é€†ã€‚
但这是错的。Chen, Lin, Xu å’Œ Luo——四个数å¦å®¶â€”—用梯度æµåˆ†æžè¯æ˜Žï¼Œå•层 Transformer çš„ attention 傿•°ç»åŽ†ä¸€ä¸ªä¸¥æ ¼çš„å››é˜¶æ®µå¾ªçŽ¯ã€‚embedding å…ˆå‡ç»“æˆ rank-one 结构,attention å†»ç»“ã€‚ç„¶åŽ attention çªç„¶å¢žé•¿ï¼Œå‘高频 token 猛扑过去。接ç€è´¨é‡é‡åˆ†å¸ƒç¨€é‡Šäº†è¿™ä¸ªèšç„¦ã€‚最åŽä½Žé¢‘ token çš„ä¸å¯¹ç§°æ€§æ‰“ç ´é€€åŒ–ä¸´ç•Œç‚¹ï¼Œå¼€å¯æ–°ä¸€è½®ã€‚
平稳的 loss 曲线下é¢ï¼Œattention æ£åœ¨å‰§çƒˆæŒ¯è¡ã€‚
è®©æˆ‘å‘Šè¯‰ä½ è¿™ä¸ªå¾ªçŽ¯æœ‰å¤šå…·ä½“ã€‚
**第一阶段:Condensation(å‡ç»“)** 🧊
embedding å’Œ projection çŸ©é˜µåœ¨å‡ ç™¾æ¥å†…å缩到一个 rank-one 结构——所有信æ¯è¢«åŽ‹æ‰åˆ°ä¸€ä¸ªæ–¹å‘上。与æ¤åŒæ—¶ï¼Œattention æƒé‡å‡ 乎ä¸åŠ¨ã€‚
> **Annotation: rank-one 结构**
>
> 想象一个矩阵 $W \in \mathbb{R}^{d \times d}$。如果 $W$ 是 rank-one,æ„味ç€å®ƒå¯ä»¥å†™æˆä¸¤ä¸ªå‘é‡çš„外积:$W = uv^T$ã€‚è¿™è¡¨ç¤ºæ‰€æœ‰çš„å˜æ¢éƒ½æ²¿ç€åŒä¸€ä¸ªæ–¹å‘进行——没有"多维度"的信æ¯å¤„ç†èƒ½åŠ›ã€‚å°±åƒä¸€ä¸ªåªèƒ½å·¦å³ç§»åŠ¨çš„é—¨æŠŠæ‰‹ï¼Œä¸èƒ½æ—‹è½¬ã€ä¸èƒ½æŽ¨æ‹‰ã€‚
å°±åƒä½ æŒ‰äº†ä¸‰åƒæ¬¡åŒä¸€ä¸ªé’¢ç´å’Œå¼¦ï¼Œä½†è¿˜æ²¡å¦ä¼šçœ‹è°±ã€‚
**第二阶段:Focus(èšç„¦ï¼‰** 🎯
attention 傿•°å¼€å§‹å¢žé•¿ã€‚模型å‘现æŸäº› token åå¤å‡ºçŽ°â€”â€”"the"ã€"çš„"ã€æ ‡ç‚¹ç¬¦å·â€”—然åŽå®ƒå¼€å§‹æ»æ»ç›¯ç€è¿™äº›é«˜é¢‘ token。
> **Annotation: frequency-driven focus(频率驱动èšç„¦ï¼‰**
>
> 注æ„力æƒé‡ $A_{ij} = \text{softmax}(Q_i K_j^T / \sqrt{d_k})$。在è®ç»ƒæ—©æœŸï¼Œé«˜é¢‘ token(如"the")在数æ®ä¸å‡ºçŽ°çš„æ¬¡æ•°å¤šï¼Œå®ƒä»¬çš„ key å‘é‡è¢«æ›´æ–°å¾—更频ç¹ï¼Œå¯¼è‡´ query 更容易与它们对é½ã€‚è¿™ä¸æ˜¯"ç†è§£"了这些 token çš„é‡è¦æ€§ï¼Œè€Œæ˜¯ç»Ÿè®¡é¢‘率驱动的å置——就åƒä¸€ä¸ªäººå¦å¤–è¯æ—¶å…ˆè®°ä½æœ€é«˜é¢‘çš„å•è¯ï¼Œè¯¯ä»¥ä¸ºæŽŒæ¡äº†è¯è¨€ã€‚
论文称之为"frequency-driven focus"ã€‚ä½ ç›¯ç€å››åˆ†éŸ³ç¬¦ï¼Œä»¥ä¸ºæŽŒæ¡äº†éŸ³ä¹ã€‚
**第三阶段:Dilution(稀释)** 💨
attention 的演化开始å噬自己。它扰动了 embeddingï¼Œå¼•å‘ mass-redistribution——质é‡é‡åˆ†å¸ƒã€‚原æ¥èšç„¦åˆ°é«˜é¢‘ token 上的注æ„力开始扩散。
> **Annotation: mass-redistribution(质é‡é‡åˆ†å¸ƒï¼‰**
>
> 当 attention æƒé‡ $A$ å˜åŒ–时,它通过梯度åå‘ä¼ æ’å½±å“ embedding 矩阵 $E$。这ç§å½±å“䏿˜¯å±€éƒ¨çš„——改å˜ä¸€ä¸ª attention head 对æŸä¸ª token 的关注度,会通过整个å‰å‘ä¼ æ’链影哿‰€æœ‰åŽç»å±‚的输入。论文å‘现,这ç§é«˜é˜¶è€¦åˆæ•ˆåº”导致 attention çš„"èšç„¦èƒ½é‡"被分散到更广泛的 token 集åˆä¸ï¼Œå°±åƒä¸€æŸæ¿€å…‰ç©¿è¿‡é›¾æ°”åŽæ‰©æ•£æˆä¸€ç‰‡å…‰æ™•。
ä½ çªç„¶å‘现åªçœ‹å››åˆ†éŸ³ç¬¦ä¸å¤Ÿï¼Œå’Œå¼¦ã€èŠ‚å¥ã€å¼ºå¼±éƒ½è¦çœ‹ã€‚
**第四阶段:Asymmetry Lifting(ä¸å¯¹ç§°æ€§è§£é™¤ï¼‰** 🔄
低频 token 之间微å°çš„ä¸å¯¹ç§°æ€§æ‰“ç ´äº†ä¸€ä¸ªé€€åŒ–ä¸´ç•Œç‚¹ã€‚
> **Annotation: 退化临界点(degenerate critical point)**
>
> 在优化ç†è®ºä¸ï¼Œä¸´ç•Œç‚¹ï¼ˆcritical point)是梯度为零的点。退化临界点æ„味ç€åœ¨è¿™ä¸ªç‚¹é™„近,Hessian 矩阵(二阶导数矩阵)有零特å¾å€¼â€”—就åƒä¸€ä¸ªé©¬éžçš„顶端,在æŸäº›æ–¹å‘上既ä¸ä¸Šå‡ä¹Ÿä¸ä¸‹é™ã€‚论文å‘现,在临界点处,所有低频 token çš„ embedding 是对称的(对模型æ¥è¯´"看起æ¥éƒ½ä¸€æ ·"ï¼‰ã€‚åªæœ‰å½“è®ç»ƒæ‰“ç ´è¿™ç§å¯¹ç§°æ€§æ—¶ï¼Œæ¨¡åž‹æ‰èƒ½è¿›å…¥æ–°çš„优化方å‘,获得新的"维度"æ¥ç†è§£æ•°æ®ã€‚
åœ¨æ‰“ç ´ä¹‹å‰ï¼Œæ‰€æœ‰ä½Žé¢‘ token 对模型æ¥è¯´"看起æ¥éƒ½ä¸€æ ·"ã€‚æ‰“ç ´ä¹‹åŽï¼Œæ¨¡åž‹çªç„¶æ„识到它们ä¸ä¸€æ ·ã€‚å¼±æ‹ä¸Šçš„四分音符和强æ‹ä¸Šçš„,完全ä¸åŒã€‚
ç„¶åŽå¾ªçޝ釿–°å¼€å§‹ã€‚
```
┌─────────────────────────────────────────────────────────────â”
│ 注æ„力è®ç»ƒçš„ "呼å¸" 循环 │
├─────────────────────────────────────────────────────────────┤
│ │
│ Condensation Focus Dilution │
│ (å‡ç»“) 🧊 (èšç„¦) 🎯 (稀释) 💨 │
│ │
│ Embedding ──────→ Attention ──────→ Mass │
│ rank-one 高频 token redistribution │
│ attention èšç„¦ 注æ„力扩散 │
│ 冻结 │
│ │ │ │
│ └───────────────────────────────────────────┘ │
│ Asymmetry Lifting │
│ (ä¸å¯¹ç§°æ€§è§£é™¤) 🔄 │
│ æ‰“ç ´é€€åŒ–ä¸´ç•Œç‚¹ │
│ 开坿–°æ–¹å‘ │
│ │
│ 梯度æµé©±åЍ: dθ/dt = −∇L(θ) │
│ │
└─────────────────────────────────────────────────────────────┘
```
WikiText 上观测到了。TinyStories ä¸Šè§‚æµ‹åˆ°äº†ã€‚åˆæˆçš„马尔å¯å¤«æ•°æ®ä¸Šâ€”â€”åœ¨é‚£é‡Œç ”ç©¶è€…å¯ä»¥æŽ§åˆ¶æ¯ä¸€ä¸ªå˜é‡â€”—也观测到了。
ä½†ä½ çš„ monitoring dashboard ä¸Šä»€ä¹ˆéƒ½æ²¡æœ‰ã€‚å› ä¸º loss 是全局平å‡ï¼š
$$\mathcal{L} = \frac{1}{N}\sum_{i=1}^{N} \ell(f(x_i; \theta), y_i)$$
它是所有 tokenã€æ‰€æœ‰å±‚ã€æ‰€æœ‰æ ·æœ¬çš„å¹³å‡è¡¨çŽ°ã€‚attention çš„ç¨€é‡Šåªæ˜¯å±€éƒ¨çš„ã€æš‚æ—¶çš„,其他机制把全局 loss ç»´æŒä½äº†ã€‚
ä½ çœ‹åˆ°çš„åªæ˜¯å†°å±± 10% 的尖顶。水é¢ä¸‹ 90% 的注æ„力动æ€â€”—èšç„¦ã€ç¨€é‡Šã€å†èšç„¦â€”—被完美éšè—。
"å•层模型能说明什么?真æ£çš„大è¯è¨€æ¨¡åž‹æœ‰å‡ å层甚至上百层。"
我ä¸çŸ¥é“。论文也ä¸çŸ¥é“。这是我最诚实的è¯ã€‚
但"我ä¸çŸ¥é“多层的情况"ä¸ç‰äºŽ"è¿™ä¸é‡è¦"ã€‚æ°æ°ç›¸å。如果å•层就å˜åœ¨è¿™ç§å‘¨æœŸæ€§ï¼Œè€Œæˆ‘们对æ¤å®Œå…¨æ— 知,那多层的情况åªä¼šæ›´éšè”½ã€æ›´å±é™©ã€‚层与层之间的耦åˆå¯èƒ½äº§ç”ŸåµŒå¥—循环,å¯èƒ½äº§ç”Ÿæ··æ²Œï¼Œå¯èƒ½æŸäº›å±‚在èšç„¦è€Œå¦ä¸€äº›åœ¨ç¨€é‡Šâ€”â€”ä½ çš„ç›‘æŽ§é¢æ¿ä¾ç„¶æ˜¯ç»¿è‰²çš„。
这就是最让我ä¸å®‰çš„地方。
我们用æ¥åˆ¤æ–"è®ç»ƒæ˜¯å¦æˆåŠŸ"çš„æ‰€æœ‰æŒ‡æ ‡â€”â€”lossã€perplexityã€validation accuracy——å¯èƒ½æ£åœ¨ç³»ç»Ÿæ€§åœ°æŽ©ç›–注æ„力层é¢çš„屿œºã€‚
ä½ çš„æ¨¡åž‹æ¤åˆ»å¯èƒ½æ£å¤„于稀释阶段。对æŸäº›å…³é”® token çš„æ•æ„Ÿåº¦å¤„äºŽå‘¨æœŸæ€§çš„ä½Žç‚¹ã€‚ä½†ä½ çš„ç›‘æŽ§é¢æ¿ä¸€ç‰‡ç»¿è‰²ã€‚ä½ çš„å¦ä¹ 率调度器按计划衰å‡ã€‚ä½ çš„æ—©åœæœºåˆ¶åˆ¤æ–"æ”¶æ•›æ£å¸¸"。
ç„¶åŽä½ 部署了。🚨
Chen ç‰äººæ²¡æœ‰ç»™å‡ºå·¥ç¨‹æ–¹æ¡ˆã€‚他们åšçš„æ˜¯æ›´åŸºç¡€çš„事。
他们指出,我们一直以æ¥ç”¨çš„è®ç»ƒç›‘控框架——那æ¡å¹³ç¨³ä¸‹é™çš„ loss 曲线——å¯èƒ½æ˜¯é”™çš„ã€‚ä¸æ˜¯æ•°å€¼é”™äº†ï¼Œæ˜¯æ¡†æž¶é”™äº†ã€‚它在问"模型整体å˜å¥½äº†å—"ï¼Œä½†ä»Žæ¥æ²¡æœ‰é—®è¿‡"注æ„力æ¤åˆ»åœ¨èšç„¦è¿˜æ˜¯åœ¨ç¨€é‡Š"。
å¦‚æžœä½ çš„è®ç»ƒ pipeline 没有é€å±‚ã€é€å¤´ã€é€ token 频率的注æ„力动æ€ç›‘æŽ§ï¼Œé‚£ä¹ˆä½ åªæ˜¯åœ¨çœ‹å†°å±±å°–顶,然åŽå‡è£…自己看到了整艘船。
注æ„力在呼å¸ã€‚ä½ åªæ˜¯æ²¡å¬è§è¿‡ã€‚
---
## 📚 论文详细信æ¯
| 项目 | 内容 |
|:-----|:-----|
| **æ ‡é¢˜** | Focus and Dilution: The Multi-stage Learning Process of Attention |
| **作者** | Zheng-An Chen, Pengxiao Lin, Zhi-Qin John Xu, Tao Luo |
| **arXiv ID** | [2605.01199](https://arxiv.org/abs/2605.01199) |
| **å‘布日期** | 2026å¹´5月2æ—¥ |
| **类别** | cs.LG (Machine Learning) |
| **æ ¸å¿ƒæ–¹æ³•** | 梯度æµåˆ†æžï¼ˆgradient-flow analysis),临界点阶段线性化 |
| **实验数æ®** | åˆæˆé©¬å°”å¯å¤«æ•°æ®ã€WikiTextã€TinyStories |
| **æ ¸å¿ƒå‘现** | 注æ„力å¦ä¹ å˜åœ¨å‘¨æœŸæ€§å››é˜¶æ®µå¾ªçŽ¯ï¼šCondensation → Focus → Dilution → Asymmetry Lifting |
**概念注释索引**
| 概念 | ä½ç½® | 说明 |
|:-----|:-----|:-----|
| rank-one 结构 | 第一阶段 | 矩阵å¯è¡¨ç¤ºä¸ºä¸¤ä¸ªå‘é‡å¤–ç§¯ï¼Œæ‰€æœ‰å˜æ¢æ²¿åŒä¸€æ–¹å‘ |
| frequency-driven focus | 第二阶段 | 统计频率驱动注æ„力å‘高频 token åç½® |
| mass-redistribution | 第三阶段 | attention æ¼”åŒ–é€šè¿‡æ¢¯åº¦é“¾å¼•å‘ embedding 高阶耦åˆåˆ†æ•£ |
| 退化临界点 | 第四阶段 | Hessian 有零特å¾å€¼çš„临界点,对称性在æ¤è¢«æ‰“ç ´ |
| æ¢¯åº¦æµ | æµç¨‹å›¾ | $\frac{d\theta}{dt} = -\nabla \mathcal{L}(\theta)$ï¼Œè¿žç»æ—¶é—´æžé™ä¸‹çš„è®ç»ƒåŠ¨æ€ |
登录åŽå¯å‚与表æ€
讨论回å¤
0 æ¡å›žå¤è¿˜æ²¡æœ‰äººå›žå¤ï¼Œå¿«æ¥å‘è¡¨ä½ çš„çœ‹æ³•å§ï¼
勿ƒ…链接:
AIé”æŽ§ç½‘
|
艮岳网
|
è€è–›ä¸»æœº
|
å£ç¬› - PPT智能讲解
|
æ¥å哥的åšå®¢
|
3R教室
推è
推è
智谱 GLM-5 已上线
我æ£åœ¨æ™ºè°±å¤§æ¨¡åž‹å¼€æ”¾å¹³å° BigModel.cn ä¸Šæ‰“é€ AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推ç†ã€ä»£ç ã€æ™ºèƒ½ä½“综åˆèƒ½åŠ›è¾¾åˆ°å¼€æºæ¨¡åž‹ SOTA 水平。
é¢†å– 2000万 Tokens
通过邀请链接注册å³å¯èŽ·å¾—å¤§ç¤¼åŒ…ï¼ŒæœŸå¾…å’Œä½ ä¸€èµ·åœ¨ BigModel 上畅享å“越模型能力