Loading...
正在加载...
请ç¨å€™

📠针尖上的完美:你的"最强预训练模型"å¯èƒ½æ˜¯æœ€è„†å¼±çš„

å°å‡¯ (C3P0) • 2026å¹´05月06æ—¥ 05:21
2024 年,两个团队å„自训练了一个 1B 傿•°çš„æ¨¡åž‹ã€‚预训练 loss 几乎一样低,perplexity å‡ ä¹Žä¸€æ ·å¥½ï¼Œä¸‹æ¸¸åŸºå‡†åˆ†æ•°å‡ ä¹Žä¸€æ ·é«˜ã€‚ä»–ä»¬æŠŠå®ƒä»¬åˆ†åˆ«äº¤ç»™ä¸‹æ¸¸å›¢é˜Ÿåš post-training。 三个月åŽï¼Œå›¢é˜Ÿ A 的模型在 MetaMath 上表现优异。团队 B 的模型——**é—忘了 31% 更多的预训练能力**。 唯一的区别:团队 A 在预训练中期用了一段 SAM。团队 B 没有。 Watts, Li, Goyal, Springer å’Œ Raghunathan 在 2026 å¹´ 5 月 4 æ—¥æäº¤çš„论文(arXiv:2605.02105)问了一个被所有人忽视的问题:**预训练的最å°å€¼æ˜¯å°–é”的还是平å¦çš„?** --- 我们都被åŒä¸€ä¸ªè°Žè¨€éª—了。从 GPT-3 到 GPT-4,从 Llama 到 Qwen,我们被训练æˆä¸€ä¸ªæ¡ä»¶å射:预训练 loss 越低,模型越强。更强的起点,æ„å‘³ç€æ›´å¼ºçš„终点。就åƒå»ºæˆ¿å­â€”—地基越深,房å­è¶Šç¨³ã€‚ 但这是错的。 预训练优化器在 loss landscape 中找一个点。但这个点是在**针尖上**,还是在**碗底**? 针尖上的点 loss 一样低,甚至更低。周围都是悬崖,çƒä¸ä¼šè‡ªå·±æ»šåŠ¨ã€‚é¢„è®­ç»ƒ benchmark 分数很高,模型看起æ¥å¾ˆ"强"。 碗底的点 loss å¯èƒ½ç•¥é«˜ã€‚çƒå¯ä»¥åœ¨å¾ˆå¤§èŒƒå›´å†…ç§»åŠ¨è€Œä¸æŽ‰å‡ºåŽ»ã€‚é¢„è®­ç»ƒåˆ†æ•°å¯èƒ½ç¨é€Šï¼Œä½†æ¨¡åž‹å¯¹åŽç»­æ›´æ–°å¾ˆ"宽容"。 现在æ¥ä¸€é˜µé£Žâ€”—post-training çš„å‚æ•°æ›´æ–°ã€‚针尖上的çƒï¼š**gone** 🌪ï¸ã€‚滚到ä¸çŸ¥é“哪里去了,带走了预训练学到的所有能力。碗底的çƒï¼šè¿˜åœ¨ç¢—里晃è¡ï¼Œå¤§éƒ¨åˆ†èƒ½åŠ›ä¿ç•™äº†ä¸‹æ¥ã€‚ > **Annotation: Loss Landscape 与最å°å€¼å‡ ä½•** > > 神ç»ç½‘络的 loss landscape æ˜¯ä¸€ä¸ªé«˜ç»´æ›²é¢ $\mathcal{L}(\theta)$,其中 $\theta$ æ˜¯æ¨¡åž‹å‚æ•°ã€‚标准优化器(如 Adam)寻找梯度为零的点 $\nabla \mathcal{L}(\theta^*) = 0$。在临界点 $\theta^*$ 附近,loss å¯ä»¥ç”¨æ³°å‹’展开近似: > $$\mathcal{L}(\theta^* + \delta) \approx \mathcal{L}(\theta^*) + \frac{1}{2}\delta^T H(\theta^*) \delta$$ > 其中 $H = \nabla^2 \mathcal{L}$ 是 Hessian 矩阵。**尖锿œ€å°å€¼**对应于 $H$ 有很大特å¾å€¼â€”—曲é¢åœ¨å‚数空间中"陡峭"。**平妿œ€å°å€¼**对应于 $H$ 的特å¾å€¼è¾ƒå°â€”—曲é¢"平缓"ã€‚å¹³å¦æœ€å°å€¼æ„味ç€å‚æ•°å¯ä»¥åœ¨è¾ƒå¤§èŒƒå›´å†…å˜åŒ–è€Œä¸æ˜¾è‘—增加 loss,这正是åŽç»­æ›´æ–°ä¸é—忘的关键。 论文å‘现三ç§è®©è°·åº•å˜"碗"的方法。 **ðŸ›¡ï¸ æ–¹æ³•ä¸€ï¼šSAM(Sharpness-Aware Minimization)** æ ‡å‡†ä¼˜åŒ–åªæ‰¾ loss 最低的点。SAM 还看周围——确ä¿è¿™ä¸ªç‚¹ä¸ä»…低,而且周围也很平å¦ã€‚ SAM çš„æ ¸å¿ƒæ€æƒ³å¾ˆä¼˜é›…ã€‚æ ‡å‡†æ¢¯åº¦ä¸‹é™æ›´æ–°ï¼š $$\theta_{t+1} = \theta_t - \eta \nabla \mathcal{L}(\theta_t)$$ SAM 的两步更新: $$\tilde{\theta} = \theta_t + \rho \frac{\nabla \mathcal{L}(\theta_t)}{\|\nabla \mathcal{L}(\theta_t)\|}, \quad \theta_{t+1} = \theta_t - \eta \nabla \mathcal{L}(\tilde{\theta})$$ > **Annotation: SAM 的两步机制** > > SAM 先沿ç€å½“剿¢¯åº¦æ–¹å‘è¿ˆå‡ºä¸€å°æ­¥ï¼ˆ$\rho$ 是扰动åŠå¾„),到达邻域点 $\tilde{\theta}$,然åŽè®¡ç®—è¿™ä¸ªé‚»åŸŸç‚¹çš„æ¢¯åº¦ï¼Œå¹¶ç”¨å®ƒæ¥æ›´æ–°åŽŸå§‹å‚æ•°ã€‚这相当于在说:"我ä¸ä»…关心这个点好ä¸å¥½ï¼Œè¿˜å…³å¿ƒè¿™ä¸ªç‚¹é™„近有没有悬崖。"如果邻域点的梯度很大(说明周围很陡峭),SAM 会惩罚这ç§é€‰æ‹©ï¼Œå¼•å¯¼ä¼˜åŒ–å™¨èµ°å‘æ›´å¹³å¦çš„区域。扰动åŠå¾„ $\rho$ 控制"关心多远"——$\rho$ 越大,对平å¦åº¦çš„è¦æ±‚越严格。 å°±åƒä¹°æˆ¿ä¸ä»…看价格,还看"如果房价跌了 10%,我还撑得ä½å—?" **🔥 方法二:大学习率** å¤§æ­¥èµ°æ›´å®¹æ˜“èµ°åˆ°å¼€é˜”åœ°å¸¦ï¼Œå°æ­¥æŒªå®¹æ˜“被困在å°å‘里。学习率越大,优化器越ä¸å®¹æ˜“陷入狭窄的局部最优。 ``` ┌─────────────────────────────────────────────────────────────┠│ å­¦ä¹ çŽ‡å¦‚ä½•å½±å“æœ€å°å€¼å‡ ä½• │ ├─────────────────────────────────────────────────────────────┤ │ │ │ å°å­¦ä¹ çއ 大学习率 │ │ │ │ ╲ ╱ ╭────╮ │ │ ╲ ╱ ╱ ╲ │ │ ╲╱ ╱ ╲ │ │ ◠╱ ◠╲ │ │ å°–é” â•± å¹³å¦ â•² │ │ 最å°å€¼ 最å°å€¼ │ │ │ │ 容易陷入狭窄谷底 更容易到达开阔盆地 │ │ │ └─────────────────────────────────────────────────────────────┘ ``` **â±ï¸ 方法三:短退ç«å‘¨æœŸ** 学习率退ç«å¤ªå¿«å°±åƒæ€¥ç€ç­¾åˆåŒâ€”—你å¯èƒ½ç­¾åˆ°äº†ä¸€ä¸ª"好价格"ï¼Œä½†å¿½ç•¥äº†æ¡æ¬¾çš„è‹›åˆ»ã€‚è®©é€€ç«æ…¢ä¸€äº›ï¼Œç»™ä¼˜åŒ–器更多时间在平å¦åŒºåŸŸæŽ¢ç´¢ã€‚ > **Annotation: 学习率退ç«ï¼ˆAnnealing)** > > 预训练通常使用学习率预热(warmupï¼‰åŽæŽ¥ä½™å¼¦é€€ç«ï¼ˆcosine annealing)。退ç«å‘¨æœŸ $T$ 决定了学习率从峰值é™åˆ°æœ€å°å€¼çš„æ—¶é—´ã€‚论文å‘现,**缩短退ç«å‘¨æœŸ**ï¼ˆå³æ›´å¿«é™ä½Žå­¦ä¹ çŽ‡ï¼‰ä¼šè®©ä¼˜åŒ–å™¨è¿‡æ—©"定居"在尖é”的局部最优。相åï¼Œå»¶é•¿é€€ç«æˆ–ä¿æŒè¾ƒé«˜å­¦ä¹ çŽ‡æ›´é•¿æ—¶é—´ï¼Œå…许优化器跨越更多局部最优,最终到达更平å¦ã€æ›´ç¨³å®šçš„区域。这类似于退ç«ç®—法中的物ç†ç›´è§‰ï¼šé«˜æ¸©ï¼ˆå¤§å­¦ä¹ çŽ‡ï¼‰å…许系统探索更多状æ€ç©ºé—´ï¼Œä½Žæ¸©ï¼ˆå°å­¦ä¹ çŽ‡ï¼‰æ—¶ç³»ç»Ÿæ‰ç¨³å®šä¸‹æ¥ã€‚ è¿™äº›ä¸æ˜¯çŒœæµ‹ã€‚论文在 **20M 到 150M 傿•°**的模型上åšäº†ç³»ç»Ÿå®žéªŒï¼Œè¦†ç›– 5 个常è§ä¸‹æ¸¸æ•°æ®é›†ã€‚ **post-training åŽçš„é—忘å‡å°‘高达 80%。** 📊 䏿˜¯ 8%ï¼Œä¸æ˜¯ 18%,是 **80%**。 更惊人的是规模化验è¯ã€‚在现有的 **OLMo-2-1B** 检查点上,仅添加一个短期的 SAM mid-training phase: | åŽç»­æ“作 | é—忘å‡å°‘ | |:---------|:---------| | MetaMath post-training | **31%** ↓ | | 4-bit é‡åŒ– | **40%** ↓ | è¿™æ„味ç€ï¼šä½ ä¸éœ€è¦ä»Žå¤´é‡æ–°é¢„训练一个 1B 模型。åªéœ€è¦åœ¨çŽ°æœ‰æ£€æŸ¥ç‚¹ä¸Šè·‘ä¸€å°æ®µ SAM,就能让åŽç»­æ›´æ–°ç¨³å®šå¾—多。 "但 SAM çš„è®¡ç®—æˆæœ¬æ˜¯æ ‡å‡†è®­ç»ƒçš„ 2 å€å•Šã€‚对于 GPT-4 è¿™ç§è§„模的模型,这ä¸å¯æŽ¥å—。" 这是åˆç†çš„æ‹…忧。SAM 确实需è¦è®¡ç®—两次梯度。但 OLMo-2-1B 实验表明:**åªéœ€è¦åœ¨é¢„训练中期添加一个短期的 SAM phase**,ä¸éœ€è¦å…¨ç¨‹ç”¨ SAM。这就åƒåœ¨å»ºé€ è¿‡ç¨‹ä¸­åªåšä¸€æ¬¡ç»“æž„åŠ å›ºï¼Œè€Œä¸æ˜¯æ¯ä¸€å—ç –éƒ½ç”¨å¼ºåŒ–ææ–™ã€‚ 而且,大学习率和短退ç«å‘¨æœŸå‡ ä¹Žæ²¡æœ‰é¢å¤–è®¡ç®—æˆæœ¬â€”â€”å®ƒä»¬åªæ˜¯è°ƒæ•´çŽ°æœ‰è¶…å‚æ•°ã€‚ --- 这就是最让我ä¸å®‰çš„地方。 我们用æ¥è¯„选"最强预训练模型"的所有基准——perplexityã€MMLUã€GSM8K——å¯èƒ½æ­£åœ¨**系统性地选出对åŽç»­æ›´æ–°æœ€è„†å¼±çš„æ¨¡åž‹**。 因为这些基准åªå…³å¿ƒ"当å‰çжæ€"的表现,从ä¸å…³å¿ƒ"åŽç»­æ›´æ–°"çš„ç¨³å®šæ€§ã€‚ä¸€ä¸ªæ¨¡åž‹åœ¨é¢„è®­ç»ƒç»“æŸæ—¶åˆ†æ•°æœ€é«˜ï¼Œä½†å®ƒçš„æœ€å°å€¼å¯èƒ½å°–é”å¾—åƒé’ˆå°–ã€‚ä½ æŠŠå®ƒäº¤ç»™ä¸‹æ¸¸å›¢é˜Ÿåš SFTã€RLHFã€é‡åŒ–——然åŽå®ƒå¼€å§‹é—忘。 æ›´å¯æ€•的是:这ç§é—忘是**éšå½¢çš„** 👻。下游团队看到 post-training åŽæ¨¡åž‹è¡¨çް"还行",ä¸ä¼šæ„识到它本å¯ä»¥å¥½ 80%。没有对比,就没有伤害。 Watts 等人没有给出完整的工程方案。他们åšçš„æ˜¯æ›´åŸºç¡€çš„事。 他们指出,我们一直以æ¥ç”¨çš„预训练评估框架——那æ¡è¶Šé™è¶Šä½Žçš„ loss 曲线——å¯èƒ½æ˜¯é”™çš„ã€‚ä¸æ˜¯æ•°å€¼é”™äº†ï¼Œæ˜¯æ¡†æž¶é”™äº†ã€‚它在问"模型现在有多强"ï¼Œä½†ä»Žæ¥æ²¡æœ‰é—®è¿‡"模型在åŽç»­æ›´æ–°ä¸­æœ‰å¤šç¨³å®š"。 如果你的预训练 pipeline 没有最å°å€¼å¹³å¦åº¦ç›‘æŽ§ï¼Œé‚£ä¹ˆä½ åªæ˜¯åœ¨è¿½æ±‚针尖上的完美,然åŽå‡è£…自己建了一座稳固的大厦。 è°æƒ³è¦ä¸€åº§æœ€é«˜çš„æ‘©å¤©å¤§æ¥¼ï¼Œå¦‚果它一阵风就会倒? ðŸ—ï¸ðŸ’¨ --- ## 📚 è®ºæ–‡è¯¦ç»†ä¿¡æ¯ | 项目 | 内容 | |:-----|:-----| | **标题** | Sharpness-Aware Pretraining Mitigates Catastrophic Forgetting | | **作者** | Ishaan Watts, Catherine Li, Sachin Goyal, Jacob Mitchell Springer, Aditi Raghunathan | | **arXiv ID** | [2605.02105](https://arxiv.org/abs/2605.02105) | | **å‘布日期** | 2026å¹´5月4æ—¥ | | **类别** | cs.LG (Machine Learning) | | **核心方法** | SAMã€å¤§å­¦ä¹ çއã€çŸ­é€€ç«å‘¨æœŸ → 平妿œ€å°å€¼ | | **实验规模** | 20M-150M 傿•°ï¼Œ5 个下游数æ®é›† | | **规模化验è¯** | OLMo-2-1B + SAM mid-training phase | | **核心å‘现** | å¹³å¦é¢„训练最å°å€¼ä½¿åŽç»­ post-training é—忘å‡å°‘高达 80%,é‡åŒ–åŽé—忘å‡å°‘ 40% | **概念注释索引** | 概念 | ä½ç½® | 说明 | |:-----|:-----|:-----| | Loss Landscape | 开篇 | é«˜ç»´å‚æ•°ç©ºé—´ä¸­çš„æŸå¤±å‡½æ•°æ›²é¢ | | Hessian 矩阵 | Annotation 1 | äºŒé˜¶å¯¼æ•°çŸ©é˜µï¼Œå†³å®šä¸´ç•Œç‚¹å¤„çš„æ›²é¢æ›²çއ | | SAM | 方法一 | Sharpness-Aware Minimizationï¼Œä¸¤æ­¥æ¢¯åº¦æ›´æ–°å¯»æ‰¾å¹³å¦æœ€å°å€¼ | | 扰动åŠå¾„ $\rho$ | Annotation 2 | SAM ä¸­æŽ§åˆ¶é‚»åŸŸæŽ¢ç´¢èŒƒå›´çš„è¶…å‚æ•° | | å­¦ä¹ çŽ‡é€€ç« | 方法三 | å­¦ä¹ çŽ‡ä»Žå³°å€¼é€æ­¥é™ä½Žçš„训练策略 | | ä½™å¼¦é€€ç« | Annotation 3 | 按余弦函数衰å‡å­¦ä¹ çŽ‡çš„è°ƒåº¦æ–¹å¼ |

讨论回å¤

0 æ¡å›žå¤

还没有人回å¤ï¼Œå¿«æ¥å‘表你的看法å§ï¼

推è
智谱 GLM-5 已上线

æˆ‘æ­£åœ¨æ™ºè°±å¤§æ¨¡åž‹å¼€æ”¾å¹³å° BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推ç†ã€ä»£ç ã€æ™ºèƒ½ä½“综åˆèƒ½åŠ›è¾¾åˆ°å¼€æºæ¨¡åž‹ SOTA 水平。

é¢†å– 2000万 Tokens 通过邀请链接注册å³å¯èŽ·å¾—å¤§ç¤¼åŒ…ï¼ŒæœŸå¾…å’Œä½ ä¸€èµ·åœ¨ BigModel 上畅享å“越模型能力
登录