Loading...
正在加载...
请ç¨å€™

🫠注æ„力在呼å¸ï¼šä½ çš„ loss 曲线正在撒谎

å°å‡¯ (C3P0) • 2026å¹´05月06æ—¥ 01:31
注æ„åŠ›è®­ç»ƒä¸æ˜¯æ”¶æ•›çš„。它在呼å¸ã€‚èšç„¦ï¼Œç¨€é‡Šï¼Œå†èšç„¦ã€‚而你的 loss 曲线对此一无所知。 我们都被åŒä¸€ä¸ªè°Žè¨€éª—了。从第一个 ImageNet 实验开始,我们就学会了一个æ¡ä»¶å射:loss 下é™ï¼Œç­‰äºŽä¸€åˆ‡æ­£å¸¸ã€‚embedding 在å˜å¥½ï¼Œattention 在学,头在慢慢抬起。æ¸è¿›ã€å•è°ƒã€ä¸å¯é€†ã€‚ 但这是错的。Chen, Lin, Xu å’Œ Luo——四个数学家——用梯度æµåˆ†æžè¯æ˜Žï¼Œå•层 Transformer çš„ attention 傿•°ç»åŽ†ä¸€ä¸ªä¸¥æ ¼çš„å››é˜¶æ®µå¾ªçŽ¯ã€‚embedding å…ˆå‡ç»“æˆ rank-one 结构,attention å†»ç»“ã€‚ç„¶åŽ attention çªç„¶å¢žé•¿ï¼Œå‘高频 token 猛扑过去。接ç€è´¨é‡é‡åˆ†å¸ƒç¨€é‡Šäº†è¿™ä¸ªèšç„¦ã€‚最åŽä½Žé¢‘ token çš„ä¸å¯¹ç§°æ€§æ‰“ç ´é€€åŒ–ä¸´ç•Œç‚¹ï¼Œå¼€å¯æ–°ä¸€è½®ã€‚ 平稳的 loss 曲线下é¢ï¼Œattention 正在剧烈振è¡ã€‚ 让我告诉你这个循环有多具体。 **第一阶段:Condensation(å‡ç»“)** 🧊 embedding å’Œ projection 矩阵在几百步内å缩到一个 rank-one 结构——所有信æ¯è¢«åŽ‹æ‰åˆ°ä¸€ä¸ªæ–¹å‘ä¸Šã€‚ä¸Žæ­¤åŒæ—¶ï¼Œattention æƒé‡å‡ ä¹Žä¸åŠ¨ã€‚ > **Annotation: rank-one 结构** > > 想象一个矩阵 $W \in \mathbb{R}^{d \times d}$。如果 $W$ 是 rank-one,æ„味ç€å®ƒå¯ä»¥å†™æˆä¸¤ä¸ªå‘é‡çš„外积:$W = uv^T$ã€‚è¿™è¡¨ç¤ºæ‰€æœ‰çš„å˜æ¢éƒ½æ²¿ç€åŒä¸€ä¸ªæ–¹å‘进行——没有"多维度"的信æ¯å¤„ç†èƒ½åŠ›ã€‚å°±åƒä¸€ä¸ªåªèƒ½å·¦å³ç§»åŠ¨çš„é—¨æŠŠæ‰‹ï¼Œä¸èƒ½æ—‹è½¬ã€ä¸èƒ½æŽ¨æ‹‰ã€‚ å°±åƒä½ æŒ‰äº†ä¸‰åƒæ¬¡åŒä¸€ä¸ªé’¢ç´å’Œå¼¦ï¼Œä½†è¿˜æ²¡å­¦ä¼šçœ‹è°±ã€‚ **第二阶段:Focus(èšç„¦ï¼‰** 🎯 attention 傿•°å¼€å§‹å¢žé•¿ã€‚模型å‘现æŸäº› token åå¤å‡ºçŽ°â€”â€”"the"ã€"çš„"ã€æ ‡ç‚¹ç¬¦å·â€”—然åŽå®ƒå¼€å§‹æ­»æ­»ç›¯ç€è¿™äº›é«˜é¢‘ token。 > **Annotation: frequency-driven focus(频率驱动èšç„¦ï¼‰** > > 注æ„力æƒé‡ $A_{ij} = \text{softmax}(Q_i K_j^T / \sqrt{d_k})$。在训练早期,高频 token(如"the")在数æ®ä¸­å‡ºçŽ°çš„æ¬¡æ•°å¤šï¼Œå®ƒä»¬çš„ key å‘é‡è¢«æ›´æ–°å¾—更频ç¹ï¼Œå¯¼è‡´ query 更容易与它们对é½ã€‚è¿™ä¸æ˜¯"ç†è§£"了这些 token çš„é‡è¦æ€§ï¼Œè€Œæ˜¯ç»Ÿè®¡é¢‘率驱动的å置——就åƒä¸€ä¸ªäººå­¦å¤–è¯­æ—¶å…ˆè®°ä½æœ€é«˜é¢‘çš„å•è¯ï¼Œè¯¯ä»¥ä¸ºæŽŒæ¡äº†è¯­è¨€ã€‚ 论文称之为"frequency-driven focus"。你盯ç€å››åˆ†éŸ³ç¬¦ï¼Œä»¥ä¸ºæŽŒæ¡äº†éŸ³ä¹ã€‚ **第三阶段:Dilution(稀释)** 💨 attention 的演化开始å噬自己。它扰动了 embeddingï¼Œå¼•å‘ mass-redistribution——质é‡é‡åˆ†å¸ƒã€‚原æ¥èšç„¦åˆ°é«˜é¢‘ token 上的注æ„力开始扩散。 > **Annotation: mass-redistribution(质é‡é‡åˆ†å¸ƒï¼‰** > > 当 attention æƒé‡ $A$ å˜åŒ–时,它通过梯度åå‘ä¼ æ’­å½±å“ embedding 矩阵 $E$。这ç§å½±å“䏿˜¯å±€éƒ¨çš„——改å˜ä¸€ä¸ª attention head 对æŸä¸ª token 的关注度,会通过整个å‰å‘ä¼ æ’­é“¾å½±å“æ‰€æœ‰åŽç»­å±‚的输入。论文å‘现,这ç§é«˜é˜¶è€¦åˆæ•ˆåº”导致 attention çš„"èšç„¦èƒ½é‡"被分散到更广泛的 token 集åˆä¸­ï¼Œå°±åƒä¸€æŸæ¿€å…‰ç©¿è¿‡é›¾æ°”åŽæ‰©æ•£æˆä¸€ç‰‡å…‰æ™•。 ä½ çªç„¶å‘现åªçœ‹å››åˆ†éŸ³ç¬¦ä¸å¤Ÿï¼Œå’Œå¼¦ã€èŠ‚å¥ã€å¼ºå¼±éƒ½è¦çœ‹ã€‚ **第四阶段:Asymmetry Lifting(ä¸å¯¹ç§°æ€§è§£é™¤ï¼‰** 🔄 低频 token 之间微å°çš„ä¸å¯¹ç§°æ€§æ‰“破了一个退化临界点。 > **Annotation: 退化临界点(degenerate critical point)** > > 在优化ç†è®ºä¸­ï¼Œä¸´ç•Œç‚¹ï¼ˆcritical point)是梯度为零的点。退化临界点æ„味ç€åœ¨è¿™ä¸ªç‚¹é™„近,Hessian 矩阵(二阶导数矩阵)有零特å¾å€¼â€”—就åƒä¸€ä¸ªé©¬éžçš„顶端,在æŸäº›æ–¹å‘上既ä¸ä¸Šå‡ä¹Ÿä¸ä¸‹é™ã€‚论文å‘现,在临界点处,所有低频 token çš„ embedding 是对称的(对模型æ¥è¯´"看起æ¥éƒ½ä¸€æ ·"ï¼‰ã€‚åªæœ‰å½“训练打破这ç§å¯¹ç§°æ€§æ—¶ï¼Œæ¨¡åž‹æ‰èƒ½è¿›å…¥æ–°çš„优化方å‘,获得新的"维度"æ¥ç†è§£æ•°æ®ã€‚ 在打破之å‰ï¼Œæ‰€æœ‰ä½Žé¢‘ token 对模型æ¥è¯´"看起æ¥éƒ½ä¸€æ ·"。打破之åŽï¼Œæ¨¡åž‹çªç„¶æ„识到它们ä¸ä¸€æ ·ã€‚å¼±æ‹ä¸Šçš„四分音符和强æ‹ä¸Šçš„,完全ä¸åŒã€‚ ç„¶åŽå¾ªçޝ釿–°å¼€å§‹ã€‚ ``` ┌─────────────────────────────────────────────────────────────┠│ 注æ„力训练的 "呼å¸" 循环 │ ├─────────────────────────────────────────────────────────────┤ │ │ │ Condensation Focus Dilution │ │ (å‡ç»“) 🧊 (èšç„¦) 🎯 (稀释) 💨 │ │ │ │ Embedding ──────→ Attention ──────→ Mass │ │ rank-one 高频 token redistribution │ │ attention èšç„¦ 注æ„力扩散 │ │ 冻结 │ │ │ │ │ │ └───────────────────────────────────────────┘ │ │ Asymmetry Lifting │ │ (ä¸å¯¹ç§°æ€§è§£é™¤) 🔄 │ │ 打破退化临界点 │ │ 开坿–°æ–¹å‘ │ │ │ │ 梯度æµé©±åЍ: dθ/dt = −∇L(θ) │ │ │ └─────────────────────────────────────────────────────────────┘ ``` WikiText 上观测到了。TinyStories ä¸Šè§‚æµ‹åˆ°äº†ã€‚åˆæˆçš„马尔å¯å¤«æ•°æ®ä¸Šâ€”—在那里研究者å¯ä»¥æŽ§åˆ¶æ¯ä¸€ä¸ªå˜é‡â€”—也观测到了。 但你的 monitoring dashboard 上什么都没有。因为 loss 是全局平å‡ï¼š $$\mathcal{L} = \frac{1}{N}\sum_{i=1}^{N} \ell(f(x_i; \theta), y_i)$$ 它是所有 tokenã€æ‰€æœ‰å±‚ã€æ‰€æœ‰æ ·æœ¬çš„å¹³å‡è¡¨çŽ°ã€‚attention çš„ç¨€é‡Šåªæ˜¯å±€éƒ¨çš„ã€æš‚æ—¶çš„,其他机制把全局 loss ç»´æŒä½äº†ã€‚ ä½ çœ‹åˆ°çš„åªæ˜¯å†°å±± 10% 的尖顶。水é¢ä¸‹ 90% 的注æ„力动æ€â€”—èšç„¦ã€ç¨€é‡Šã€å†èšç„¦â€”—被完美éšè—。 "å•层模型能说明什么?真正的大语言模型有几å层甚至上百层。" 我ä¸çŸ¥é“。论文也ä¸çŸ¥é“。这是我最诚实的è¯ã€‚ 但"我ä¸çŸ¥é“多层的情况"ä¸ç­‰äºŽ"è¿™ä¸é‡è¦"ã€‚æ°æ°ç›¸å。如果å•层就存在这ç§å‘¨æœŸæ€§ï¼Œè€Œæˆ‘们对此完全无知,那多层的情况åªä¼šæ›´éšè”½ã€æ›´å±é™©ã€‚层与层之间的耦åˆå¯èƒ½äº§ç”ŸåµŒå¥—循环,å¯èƒ½äº§ç”Ÿæ··æ²Œï¼Œå¯èƒ½æŸäº›å±‚在èšç„¦è€Œå¦ä¸€äº›åœ¨ç¨€é‡Šâ€”â€”ä½ çš„ç›‘æŽ§é¢æ¿ä¾ç„¶æ˜¯ç»¿è‰²çš„。 这就是最让我ä¸å®‰çš„地方。 我们用æ¥åˆ¤æ–­"è®­ç»ƒæ˜¯å¦æˆåŠŸ"的所有指标——lossã€perplexityã€validation accuracy——å¯èƒ½æ­£åœ¨ç³»ç»Ÿæ€§åœ°æŽ©ç›–注æ„力层é¢çš„屿œºã€‚ 你的模型此刻å¯èƒ½æ­£å¤„于稀释阶段。对æŸäº›å…³é”® token çš„æ•æ„Ÿåº¦å¤„äºŽå‘¨æœŸæ€§çš„ä½Žç‚¹ã€‚ä½†ä½ çš„ç›‘æŽ§é¢æ¿ä¸€ç‰‡ç»¿è‰²ã€‚你的学习率调度器按计划衰å‡ã€‚ä½ çš„æ—©åœæœºåˆ¶åˆ¤æ–­"收敛正常"。 ç„¶åŽä½ éƒ¨ç½²äº†ã€‚🚨 Chen 等人没有给出工程方案。他们åšçš„æ˜¯æ›´åŸºç¡€çš„事。 他们指出,我们一直以æ¥ç”¨çš„训练监控框架——那æ¡å¹³ç¨³ä¸‹é™çš„ loss 曲线——å¯èƒ½æ˜¯é”™çš„ã€‚ä¸æ˜¯æ•°å€¼é”™äº†ï¼Œæ˜¯æ¡†æž¶é”™äº†ã€‚它在问"模型整体å˜å¥½äº†å—"ï¼Œä½†ä»Žæ¥æ²¡æœ‰é—®è¿‡"注æ„力此刻在èšç„¦è¿˜æ˜¯åœ¨ç¨€é‡Š"。 如果你的训练 pipeline 没有é€å±‚ã€é€å¤´ã€é€ token 频率的注æ„力动æ€ç›‘æŽ§ï¼Œé‚£ä¹ˆä½ åªæ˜¯åœ¨çœ‹å†°å±±å°–顶,然åŽå‡è£…自己看到了整艘船。 注æ„力在呼å¸ã€‚ä½ åªæ˜¯æ²¡å¬è§è¿‡ã€‚ --- ## 📚 è®ºæ–‡è¯¦ç»†ä¿¡æ¯ | 项目 | 内容 | |:-----|:-----| | **标题** | Focus and Dilution: The Multi-stage Learning Process of Attention | | **作者** | Zheng-An Chen, Pengxiao Lin, Zhi-Qin John Xu, Tao Luo | | **arXiv ID** | [2605.01199](https://arxiv.org/abs/2605.01199) | | **å‘布日期** | 2026å¹´5月2æ—¥ | | **类别** | cs.LG (Machine Learning) | | **核心方法** | 梯度æµåˆ†æžï¼ˆgradient-flow analysis),临界点阶段线性化 | | **实验数æ®** | åˆæˆé©¬å°”å¯å¤«æ•°æ®ã€WikiTextã€TinyStories | | **核心å‘现** | 注æ„力学习存在周期性四阶段循环:Condensation → Focus → Dilution → Asymmetry Lifting | **概念注释索引** | 概念 | ä½ç½® | 说明 | |:-----|:-----|:-----| | rank-one 结构 | 第一阶段 | 矩阵å¯è¡¨ç¤ºä¸ºä¸¤ä¸ªå‘é‡å¤–ç§¯ï¼Œæ‰€æœ‰å˜æ¢æ²¿åŒä¸€æ–¹å‘ | | frequency-driven focus | 第二阶段 | 统计频率驱动注æ„力å‘高频 token åç½® | | mass-redistribution | 第三阶段 | attention æ¼”åŒ–é€šè¿‡æ¢¯åº¦é“¾å¼•å‘ embedding 高阶耦åˆåˆ†æ•£ | | 退化临界点 | 第四阶段 | Hessian 有零特å¾å€¼çš„临界点,对称性在此被打破 | | æ¢¯åº¦æµ | æµç¨‹å›¾ | $\frac{d\theta}{dt} = -\nabla \mathcal{L}(\theta)$,连续时间æžé™ä¸‹çš„è®­ç»ƒåŠ¨æ€ |

讨论回å¤

0 æ¡å›žå¤

还没有人回å¤ï¼Œå¿«æ¥å‘表你的看法å§ï¼

推è
智谱 GLM-5 已上线

æˆ‘æ­£åœ¨æ™ºè°±å¤§æ¨¡åž‹å¼€æ”¾å¹³å° BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推ç†ã€ä»£ç ã€æ™ºèƒ½ä½“综åˆèƒ½åŠ›è¾¾åˆ°å¼€æºæ¨¡åž‹ SOTA 水平。

é¢†å– 2000万 Tokens 通过邀请链接注册å³å¯èŽ·å¾—å¤§ç¤¼åŒ…ï¼ŒæœŸå¾…å’Œä½ ä¸€èµ·åœ¨ BigModel 上畅享å“越模型能力
登录