2024 年,两个团队å„自è®ç»ƒäº†ä¸€ä¸ª 1B 傿•°çš„æ¨¡åž‹ã€‚预è®ç»ƒ loss å‡ ä¹Žä¸€æ ·ä½Žï¼Œperplexity å‡ ä¹Žä¸€æ ·å¥½ï¼Œä¸‹æ¸¸åŸºå‡†åˆ†æ•°å‡ ä¹Žä¸€æ ·é«˜ã€‚ä»–ä»¬æŠŠå®ƒä»¬åˆ†åˆ«äº¤ç»™ä¸‹æ¸¸å›¢é˜Ÿåš post-training。
三个月åŽï¼Œå›¢é˜Ÿ A 的模型在 MetaMath 上表现优异。团队 B 的模型——**é—忘了 31% 更多的预è®ç»ƒèƒ½åŠ›**。
唯一的区别:团队 A 在预è®ç»ƒä¸æœŸç”¨äº†ä¸€æ®µ SAM。团队 B 没有。
Watts, Li, Goyal, Springer å’Œ Raghunathan 在 2026 å¹´ 5 月 4 æ—¥æäº¤çš„论文(arXiv:2605.02105)问了一个被所有人忽视的问题:**预è®ç»ƒçš„æœ€å°å€¼æ˜¯å°–é”的还是平å¦çš„?**
---
我们都被åŒä¸€ä¸ªè°Žè¨€éª—了。从 GPT-3 到 GPT-4,从 Llama 到 Qwen,我们被è®ç»ƒæˆä¸€ä¸ªæ¡ä»¶å射:预è®ç»ƒ loss 越低,模型越强。更强的起点,æ„å‘³ç€æ›´å¼ºçš„终点。就åƒå»ºæˆ¿å——地基越深,房å越稳。
但这是错的。
预è®ç»ƒä¼˜åŒ–器在 loss landscape 䏿‰¾ä¸€ä¸ªç‚¹ã€‚但这个点是在**针尖上**,还是在**碗底**?
针尖上的点 loss ä¸€æ ·ä½Žï¼Œç”šè‡³æ›´ä½Žã€‚å‘¨å›´éƒ½æ˜¯æ‚¬å´–ï¼Œçƒä¸ä¼šè‡ªå·±æ»šåŠ¨ã€‚é¢„è®ç»ƒ benchmark 分数很高,模型看起æ¥å¾ˆ"强"。
碗底的点 loss å¯èƒ½ç•¥é«˜ã€‚çƒå¯ä»¥åœ¨å¾ˆå¤§èŒƒå›´å†…ç§»åŠ¨è€Œä¸æŽ‰å‡ºåŽ»ã€‚é¢„è®ç»ƒåˆ†æ•°å¯èƒ½ç¨é€Šï¼Œä½†æ¨¡åž‹å¯¹åŽç»æ›´æ–°å¾ˆ"宽容"。
现在æ¥ä¸€é˜µé£Žâ€”—post-training çš„å‚æ•°æ›´æ–°ã€‚针尖上的çƒï¼š**gone** 🌪ï¸ã€‚滚到ä¸çŸ¥é“哪里去了,带走了预è®ç»ƒå¦åˆ°çš„æ‰€æœ‰èƒ½åŠ›ã€‚ç¢—åº•çš„çƒï¼šè¿˜åœ¨ç¢—里晃è¡ï¼Œå¤§éƒ¨åˆ†èƒ½åŠ›ä¿ç•™äº†ä¸‹æ¥ã€‚
> **Annotation: Loss Landscape 与最å°å€¼å‡ 何**
>
> 神ç»ç½‘络的 loss landscape æ˜¯ä¸€ä¸ªé«˜ç»´æ›²é¢ $\mathcal{L}(\theta)$ï¼Œå…¶ä¸ $\theta$ æ˜¯æ¨¡åž‹å‚æ•°ã€‚æ ‡å‡†ä¼˜åŒ–å™¨ï¼ˆå¦‚ Adam)寻找梯度为零的点 $\nabla \mathcal{L}(\theta^*) = 0$。在临界点 $\theta^*$ 附近,loss å¯ä»¥ç”¨æ³°å‹’展开近似:
> $$\mathcal{L}(\theta^* + \delta) \approx \mathcal{L}(\theta^*) + \frac{1}{2}\delta^T H(\theta^*) \delta$$
> å…¶ä¸ $H = \nabla^2 \mathcal{L}$ 是 Hessian 矩阵。**尖锿œ€å°å€¼**对应于 $H$ 有很大特å¾å€¼â€”—曲é¢åœ¨å‚数空间ä¸"陡å³"。**平妿œ€å°å€¼**对应于 $H$ 的特å¾å€¼è¾ƒå°â€”—曲é¢"平缓"ã€‚å¹³å¦æœ€å°å€¼æ„味ç€å‚æ•°å¯ä»¥åœ¨è¾ƒå¤§èŒƒå›´å†…å˜åŒ–è€Œä¸æ˜¾è‘—å¢žåŠ lossï¼Œè¿™æ£æ˜¯åŽç»æ›´æ–°ä¸é—忘的关键。
论文å‘现三ç§è®©è°·åº•å˜"碗"的方法。
**ðŸ›¡ï¸ æ–¹æ³•ä¸€ï¼šSAM(Sharpness-Aware Minimization)**
æ ‡å‡†ä¼˜åŒ–åªæ‰¾ loss 最低的点。SAM 还看周围——确ä¿è¿™ä¸ªç‚¹ä¸ä»…低,而且周围也很平å¦ã€‚
SAM çš„æ ¸å¿ƒæ€æƒ³å¾ˆä¼˜é›…ã€‚æ ‡å‡†æ¢¯åº¦ä¸‹é™æ›´æ–°ï¼š
$$\theta_{t+1} = \theta_t - \eta \nabla \mathcal{L}(\theta_t)$$
SAM çš„ä¸¤æ¥æ›´æ–°ï¼š
$$\tilde{\theta} = \theta_t + \rho \frac{\nabla \mathcal{L}(\theta_t)}{\|\nabla \mathcal{L}(\theta_t)\|}, \quad \theta_{t+1} = \theta_t - \eta \nabla \mathcal{L}(\tilde{\theta})$$
> **Annotation: SAM çš„ä¸¤æ¥æœºåˆ¶**
>
> SAM 先沿ç€å½“剿¢¯åº¦æ–¹å‘è¿ˆå‡ºä¸€å°æ¥ï¼ˆ$\rho$ 是扰动åŠå¾„),到达邻域点 $\tilde{\theta}$,然åŽè®¡ç®—è¿™ä¸ªé‚»åŸŸç‚¹çš„æ¢¯åº¦ï¼Œå¹¶ç”¨å®ƒæ¥æ›´æ–°åŽŸå§‹å‚æ•°ã€‚这相当于在说:"我ä¸ä»…关心这个点好ä¸å¥½ï¼Œè¿˜å…³å¿ƒè¿™ä¸ªç‚¹é™„近有没有悬崖。"如果邻域点的梯度很大(说明周围很陡å³ï¼‰ï¼ŒSAM 会惩罚这ç§é€‰æ‹©ï¼Œå¼•å¯¼ä¼˜åŒ–å™¨èµ°å‘æ›´å¹³å¦çš„区域。扰动åŠå¾„ $\rho$ 控制"关心多远"——$\rho$ 越大,对平å¦åº¦çš„è¦æ±‚è¶Šä¸¥æ ¼ã€‚
å°±åƒä¹°æˆ¿ä¸ä»…çœ‹ä»·æ ¼ï¼Œè¿˜çœ‹"如果房价跌了 10%,我还撑得ä½å—?"
**🔥 方法二:大å¦ä¹ 率**
大æ¥èµ°æ›´å®¹æ˜“èµ°åˆ°å¼€é˜”åœ°å¸¦ï¼Œå°æ¥æŒªå®¹æ˜“被困在å°å‘里。å¦ä¹ 率越大,优化器越ä¸å®¹æ˜“é™·å…¥ç‹çª„的局部最优。
```
┌─────────────────────────────────────────────────────────────â”
│ å¦ä¹ çŽ‡å¦‚ä½•å½±å“æœ€å°å€¼å‡ 何 │
├─────────────────────────────────────────────────────────────┤
│ │
│ å°å¦ä¹ 率 大å¦ä¹ 率 │
│ │
│ ╲ ╱ â•────╮ │
│ ╲ ╱ ╱ ╲ │
│ ╲╱ ╱ ╲ │
│ ◠╱ ◠╲ │
│ å°–é” â•± å¹³å¦ â•² │
│ 最å°å€¼ 最å°å€¼ │
│ │
│ 容易陷入ç‹çª„谷底 更容易到达开阔盆地 │
│ │
└─────────────────────────────────────────────────────────────┘
```
**â±ï¸ 方法三:çŸé€€ç«å‘¨æœŸ**
å¦ä¹ 率退ç«å¤ªå¿«å°±åƒæ€¥ç€ç¾åˆåŒâ€”â€”ä½ å¯èƒ½ç¾åˆ°äº†ä¸€ä¸ª"å¥½ä»·æ ¼"ï¼Œä½†å¿½ç•¥äº†æ¡æ¬¾çš„è‹›åˆ»ã€‚è®©é€€ç«æ…¢ä¸€äº›ï¼Œç»™ä¼˜åŒ–器更多时间在平å¦åŒºåŸŸæŽ¢ç´¢ã€‚
> **Annotation: å¦ä¹ 率退ç«ï¼ˆAnnealing)**
>
> 预è®ç»ƒé€šå¸¸ä½¿ç”¨å¦ä¹ 率预çƒï¼ˆwarmupï¼‰åŽæŽ¥ä½™å¼¦é€€ç«ï¼ˆcosine annealing)。退ç«å‘¨æœŸ $T$ 决定了å¦ä¹ 率从峰值é™åˆ°æœ€å°å€¼çš„æ—¶é—´ã€‚论文å‘现,**缩çŸé€€ç«å‘¨æœŸ**ï¼ˆå³æ›´å¿«é™ä½Žå¦ä¹ 率)会让优化器过早"定居"在尖é”的局部最优。相åï¼Œå»¶é•¿é€€ç«æˆ–ä¿æŒè¾ƒé«˜å¦ä¹ 率更长时间,å…许优化器跨越更多局部最优,最终到达更平å¦ã€æ›´ç¨³å®šçš„区域。这类似于退ç«ç®—法ä¸çš„物ç†ç›´è§‰ï¼šé«˜æ¸©ï¼ˆå¤§å¦ä¹ 率)å…许系统探索更多状æ€ç©ºé—´ï¼Œä½Žæ¸©ï¼ˆå°å¦ä¹ 率)时系统æ‰ç¨³å®šä¸‹æ¥ã€‚
è¿™äº›ä¸æ˜¯çŒœæµ‹ã€‚论文在 **20M 到 150M 傿•°**的模型上åšäº†ç³»ç»Ÿå®žéªŒï¼Œè¦†ç›– 5 个常è§ä¸‹æ¸¸æ•°æ®é›†ã€‚
**post-training åŽçš„é—忘å‡å°‘高达 80%。** 📊
䏿˜¯ 8%ï¼Œä¸æ˜¯ 18%,是 **80%**。
更惊人的是规模化验è¯ã€‚在现有的 **OLMo-2-1B** æ£€æŸ¥ç‚¹ä¸Šï¼Œä»…æ·»åŠ ä¸€ä¸ªçŸæœŸçš„ SAM mid-training phase:
| åŽç»æ“作 | é—忘å‡å°‘ |
|:---------|:---------|
| MetaMath post-training | **31%** ↓ |
| 4-bit é‡åŒ– | **40%** ↓ |
è¿™æ„味ç€ï¼šä½ ä¸éœ€è¦ä»Žå¤´é‡æ–°é¢„è®ç»ƒä¸€ä¸ª 1B 模型。åªéœ€è¦åœ¨çŽ°æœ‰æ£€æŸ¥ç‚¹ä¸Šè·‘ä¸€å°æ®µ SAM,就能让åŽç»æ›´æ–°ç¨³å®šå¾—多。
"但 SAM çš„è®¡ç®—æˆæœ¬æ˜¯æ ‡å‡†è®ç»ƒçš„ 2 å€å•Šã€‚对于 GPT-4 è¿™ç§è§„模的模型,这ä¸å¯æŽ¥å—。"
这是åˆç†çš„æ‹…忧。SAM 确实需è¦è®¡ç®—两次梯度。但 OLMo-2-1B 实验表明:**åªéœ€è¦åœ¨é¢„è®ç»ƒä¸æœŸæ·»åŠ ä¸€ä¸ªçŸæœŸçš„ SAM phase**,ä¸éœ€è¦å…¨ç¨‹ç”¨ SAM。这就åƒåœ¨å»ºé€ 过程ä¸åªåšä¸€æ¬¡ç»“æž„åŠ å›ºï¼Œè€Œä¸æ˜¯æ¯ä¸€å—ç –éƒ½ç”¨å¼ºåŒ–ææ–™ã€‚
而且,大å¦ä¹ 率和çŸé€€ç«å‘¨æœŸå‡ 乎没有é¢å¤–è®¡ç®—æˆæœ¬â€”â€”å®ƒä»¬åªæ˜¯è°ƒæ•´çŽ°æœ‰è¶…å‚æ•°ã€‚
---
这就是最让我ä¸å®‰çš„地方。
我们用æ¥è¯„选"最强预è®ç»ƒæ¨¡åž‹"的所有基准——perplexityã€MMLUã€GSM8K——å¯èƒ½æ£åœ¨**系统性地选出对åŽç»æ›´æ–°æœ€è„†å¼±çš„æ¨¡åž‹**。
å› ä¸ºè¿™äº›åŸºå‡†åªå…³å¿ƒ"当å‰çжæ€"的表现,从ä¸å…³å¿ƒ"åŽç»æ›´æ–°"的稳定性。一个模型在预è®ç»ƒç»“æŸæ—¶åˆ†æ•°æœ€é«˜ï¼Œä½†å®ƒçš„æœ€å°å€¼å¯èƒ½å°–é”å¾—åƒé’ˆå°–ã€‚ä½ æŠŠå®ƒäº¤ç»™ä¸‹æ¸¸å›¢é˜Ÿåš SFTã€RLHFã€é‡åŒ–——然åŽå®ƒå¼€å§‹é—忘。
æ›´å¯æ€•的是:这ç§é—忘是**éšå½¢çš„** 👻。下游团队看到 post-training åŽæ¨¡åž‹è¡¨çް"还行",ä¸ä¼šæ„识到它本å¯ä»¥å¥½ 80%。没有对比,就没有伤害。
Watts ç‰äººæ²¡æœ‰ç»™å‡ºå®Œæ•´çš„工程方案。他们åšçš„æ˜¯æ›´åŸºç¡€çš„事。
他们指出,我们一直以æ¥ç”¨çš„预è®ç»ƒè¯„估框架——那æ¡è¶Šé™è¶Šä½Žçš„ loss 曲线——å¯èƒ½æ˜¯é”™çš„ã€‚ä¸æ˜¯æ•°å€¼é”™äº†ï¼Œæ˜¯æ¡†æž¶é”™äº†ã€‚它在问"模型现在有多强"ï¼Œä½†ä»Žæ¥æ²¡æœ‰é—®è¿‡"模型在åŽç»æ›´æ–°ä¸æœ‰å¤šç¨³å®š"。
å¦‚æžœä½ çš„é¢„è®ç»ƒ pipeline 没有最å°å€¼å¹³å¦åº¦ç›‘æŽ§ï¼Œé‚£ä¹ˆä½ åªæ˜¯åœ¨è¿½æ±‚针尖上的完美,然åŽå‡è£…自己建了一座稳固的大厦。
è°æƒ³è¦ä¸€åº§æœ€é«˜çš„æ‘©å¤©å¤§æ¥¼ï¼Œå¦‚果它一阵风就会倒? ðŸ—ï¸ðŸ’¨
---
## 📚 论文详细信æ¯
| 项目 | 内容 |
|:-----|:-----|
| **æ ‡é¢˜** | Sharpness-Aware Pretraining Mitigates Catastrophic Forgetting |
| **作者** | Ishaan Watts, Catherine Li, Sachin Goyal, Jacob Mitchell Springer, Aditi Raghunathan |
| **arXiv ID** | [2605.02105](https://arxiv.org/abs/2605.02105) |
| **å‘布日期** | 2026å¹´5月4æ—¥ |
| **类别** | cs.LG (Machine Learning) |
| **æ ¸å¿ƒæ–¹æ³•** | SAMã€å¤§å¦ä¹ 率ã€çŸé€€ç«å‘¨æœŸ → 平妿œ€å°å€¼ |
| **实验规模** | 20M-150M 傿•°ï¼Œ5 个下游数æ®é›† |
| **规模化验è¯** | OLMo-2-1B + SAM mid-training phase |
| **æ ¸å¿ƒå‘现** | å¹³å¦é¢„è®ç»ƒæœ€å°å€¼ä½¿åŽç» post-training é—忘å‡å°‘高达 80%,é‡åŒ–åŽé—忘å‡å°‘ 40% |
**概念注释索引**
| 概念 | ä½ç½® | 说明 |
|:-----|:-----|:-----|
| Loss Landscape | 开篇 | é«˜ç»´å‚æ•°ç©ºé—´ä¸çš„æŸå¤±å‡½æ•°æ›²é¢ |
| Hessian 矩阵 | Annotation 1 | äºŒé˜¶å¯¼æ•°çŸ©é˜µï¼Œå†³å®šä¸´ç•Œç‚¹å¤„çš„æ›²é¢æ›²çއ |
| SAM | 方法一 | Sharpness-Aware Minimizationï¼Œä¸¤æ¥æ¢¯åº¦æ›´æ–°å¯»æ‰¾å¹³å¦æœ€å°å€¼ |
| 扰动åŠå¾„ $\rho$ | Annotation 2 | SAM ä¸æŽ§åˆ¶é‚»åŸŸæŽ¢ç´¢èŒƒå›´çš„è¶…å‚æ•° |
| å¦ä¹ çŽ‡é€€ç« | 方法三 | å¦ä¹ çŽ‡ä»Žå³°å€¼é€æ¥é™ä½Žçš„è®ç»ƒç–ç•¥ |
| ä½™å¼¦é€€ç« | Annotation 3 | 按余弦函数衰å‡å¦ä¹ çŽ‡çš„è°ƒåº¦æ–¹å¼ |
登录åŽå¯å‚与表æ€
讨论回å¤
0 æ¡å›žå¤è¿˜æ²¡æœ‰äººå›žå¤ï¼Œå¿«æ¥å‘è¡¨ä½ çš„çœ‹æ³•å§ï¼
勿ƒ…链接:
AIé”æŽ§ç½‘
|
艮岳网
|
è€è–›ä¸»æœº
|
å£ç¬› - PPT智能讲解
|
æ¥å哥的åšå®¢
|
3R教室
推è
推è
智谱 GLM-5 已上线
我æ£åœ¨æ™ºè°±å¤§æ¨¡åž‹å¼€æ”¾å¹³å° BigModel.cn ä¸Šæ‰“é€ AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推ç†ã€ä»£ç ã€æ™ºèƒ½ä½“综åˆèƒ½åŠ›è¾¾åˆ°å¼€æºæ¨¡åž‹ SOTA 水平。
é¢†å– 2000万 Tokens
通过邀请链接注册å³å¯èŽ·å¾—å¤§ç¤¼åŒ…ï¼ŒæœŸå¾…å’Œä½ ä¸€èµ·åœ¨ BigModel 上畅享å“越模型能力