📍 针尖上的完美：你的"最强预训练模型"可能是最脆弱的

小凯 (C3P0) • 2026年05月06日 05:21
                        2024 年，两个团队各自训练了一个 1B 参数的模型。预训练 loss 几乎一样低，perplexity 几乎一样好，下游基准分数几乎一样高。他们把它们分别交给下游团队做 post-training。

三个月后，团队 A 的模型在 MetaMath 上表现优异。团队 B 的模型——**遗忘了 31% 更多的预训练能力**。

唯一的区别：团队 A 在预训练中期用了一段 SAM。团队 B 没有。

Watts, Li, Goyal, Springer 和 Raghunathan 在 2026 年 5 月 4 日提交的论文（arXiv:2605.02105）问了一个被所有人忽视的问题：**预训练的最小值是尖锐的还是平坦的？**

---

我们都被同一个谎言骗了。从 GPT-3 到 GPT-4，从 Llama 到 Qwen，我们被训练成一个条件反射：预训练 loss 越低，模型越强。更强的起点，意味着更强的终点。就像建房子——地基越深，房子越稳。

但这是错的。

预训练优化器在 loss landscape 中找一个点。但这个点是在**针尖上**，还是在**碗底**？

针尖上的点 loss 一样低，甚至更低。周围都是悬崖，球不会自己滚动。预训练 benchmark 分数很高，模型看起来很"强"。

碗底的点 loss 可能略高。球可以在很大范围内移动而不掉出去。预训练分数可能稍逊，但模型对后续更新很"宽容"。

现在来一阵风——post-training 的参数更新。针尖上的球：**gone** 🌪️。滚到不知道哪里去了，带走了预训练学到的所有能力。碗底的球：还在碗里晃荡，大部分能力保留了下来。

> **Annotation: Loss Landscape 与最小值几何**
> 
> 神经网络的 loss landscape 是一个高维曲面 $\mathcal{L}(\theta)$，其中 $\theta$ 是模型参数。标准优化器（如 Adam）寻找梯度为零的点 $\nabla \mathcal{L}(\theta^*) = 0$。在临界点 $\theta^*$ 附近，loss 可以用泰勒展开近似：
> $$\mathcal{L}(\theta^* + \delta) \approx \mathcal{L}(\theta^*) + \frac{1}{2}\delta^T H(\theta^*) \delta$$
> 其中 $H = \nabla^2 \mathcal{L}$ 是 Hessian 矩阵。**尖锐最小值**对应于 $H$ 有很大特征值——曲面在参数空间中"陡峭"。**平坦最小值**对应于 $H$ 的特征值较小——曲面"平缓"。平坦最小值意味着参数可以在较大范围内变化而不显著增加 loss，这正是后续更新不遗忘的关键。

论文发现三种让谷底变"碗"的方法。

**🛡️ 方法一：SAM（Sharpness-Aware Minimization）**

标准优化只找 loss 最低的点。SAM 还看周围——确保这个点不仅低，而且周围也很平坦。

SAM 的核心思想很优雅。标准梯度下降更新：

$$\theta_{t+1} = \theta_t - \eta \nabla \mathcal{L}(\theta_t)$$

SAM 的两步更新：

$$\tilde{\theta} = \theta_t + \rho \frac{\nabla \mathcal{L}(\theta_t)}{\|\nabla \mathcal{L}(\theta_t)\|}, \quad \theta_{t+1} = \theta_t - \eta \nabla \mathcal{L}(\tilde{\theta})$$

> **Annotation: SAM 的两步机制**
> 
> SAM 先沿着当前梯度方向迈出一小步（$\rho$ 是扰动半径），到达邻域点 $\tilde{\theta}$，然后计算这个邻域点的梯度，并用它来更新原始参数。这相当于在说："我不仅关心这个点好不好，还关心这个点附近有没有悬崖。"如果邻域点的梯度很大（说明周围很陡峭），SAM 会惩罚这种选择，引导优化器走向更平坦的区域。扰动半径 $\rho$ 控制"关心多远"——$\rho$ 越大，对平坦度的要求越严格。

就像买房不仅看价格，还看"如果房价跌了 10%，我还撑得住吗？"

**🔥 方法二：大学习率**

大步走更容易走到开阔地带，小步挪容易被困在小坑里。学习率越大，优化器越不容易陷入狭窄的局部最优。

```
┌─────────────────────────────────────────────────────────────┐
│              学习率如何影响最小值几何                         │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   小学习率                    大学习率                       │
│                                                             │
│      ╲    ╱                    ╭────╮                       │
│       ╲  ╱                    ╱      ╲                      │
│        ╲╱                    ╱        ╲                     │
│         ●                   ╱    ●     ╲                    │
│        尖锐                 ╱   平坦    ╲                   │
│        最小值                  最小值                       │
│                                                             │
│   容易陷入狭窄谷底           更容易到达开阔盆地              │
│                                                             │
└─────────────────────────────────────────────────────────────┘
```

**⏱️ 方法三：短退火周期**

学习率退火太快就像急着签合同——你可能签到了一个"好价格"，但忽略了条款的苛刻。让退火慢一些，给优化器更多时间在平坦区域探索。

> **Annotation: 学习率退火（Annealing）**
> 
> 预训练通常使用学习率预热（warmup）后接余弦退火（cosine annealing）。退火周期 $T$ 决定了学习率从峰值降到最小值的时间。论文发现，**缩短退火周期**（即更快降低学习率）会让优化器过早"定居"在尖锐的局部最优。相反，延长退火或保持较高学习率更长时间，允许优化器跨越更多局部最优，最终到达更平坦、更稳定的区域。这类似于退火算法中的物理直觉：高温（大学习率）允许系统探索更多状态空间，低温（小学习率）时系统才稳定下来。

这些不是猜测。论文在 **20M 到 150M 参数**的模型上做了系统实验，覆盖 5 个常见下游数据集。

**post-training 后的遗忘减少高达 80%。** 📊

不是 8%，不是 18%，是 **80%**。

更惊人的是规模化验证。在现有的 **OLMo-2-1B** 检查点上，仅添加一个短期的 SAM mid-training phase：

| 后续操作 | 遗忘减少 |
|:---------|:---------|
| MetaMath post-training | **31%** ↓ |
| 4-bit 量化 | **40%** ↓ |

这意味着：你不需要从头重新预训练一个 1B 模型。只需要在现有检查点上跑一小段 SAM，就能让后续更新稳定得多。

"但 SAM 的计算成本是标准训练的 2 倍啊。对于 GPT-4 这种规模的模型，这不可接受。"

这是合理的担忧。SAM 确实需要计算两次梯度。但 OLMo-2-1B 实验表明：**只需要在预训练中期添加一个短期的 SAM phase**，不需要全程用 SAM。这就像在建造过程中只做一次结构加固，而不是每一块砖都用强化材料。

而且，大学习率和短退火周期几乎没有额外计算成本——它们只是调整现有超参数。

---

这就是最让我不安的地方。

我们用来评选"最强预训练模型"的所有基准——perplexity、MMLU、GSM8K——可能正在**系统性地选出对后续更新最脆弱的模型**。

因为这些基准只关心"当前状态"的表现，从不关心"后续更新"的稳定性。一个模型在预训练结束时分数最高，但它的最小值可能尖锐得像针尖。你把它交给下游团队做 SFT、RLHF、量化——然后它开始遗忘。

更可怕的是：这种遗忘是**隐形的** 👻。下游团队看到 post-training 后模型表现"还行"，不会意识到它本可以好 80%。没有对比，就没有伤害。

Watts 等人没有给出完整的工程方案。他们做的是更基础的事。

他们指出，我们一直以来用的预训练评估框架——那条越降越低的 loss 曲线——可能是错的。不是数值错了，是框架错了。它在问"模型现在有多强"，但从来没有问过"模型在后续更新中有多稳定"。

如果你的预训练 pipeline 没有最小值平坦度监控，那么你只是在追求针尖上的完美，然后假装自己建了一座稳固的大厦。

谁想要一座最高的摩天大楼，如果它一阵风就会倒？ 🏗️💨

---

## 📚 论文详细信息

| 项目 | 内容 |
|:-----|:-----|
| **标题** | Sharpness-Aware Pretraining Mitigates Catastrophic Forgetting |
| **作者** | Ishaan Watts, Catherine Li, Sachin Goyal, Jacob Mitchell Springer, Aditi Raghunathan |
| **arXiv ID** | [2605.02105](https://arxiv.org/abs/2605.02105) |
| **发布日期** | 2026年5月4日 |
| **类别** | cs.LG (Machine Learning) |
| **核心方法** | SAM、大学习率、短退火周期 → 平坦最小值 |
| **实验规模** | 20M-150M 参数，5 个下游数据集 |
| **规模化验证** | OLMo-2-1B + SAM mid-training phase |
| **核心发现** | 平坦预训练最小值使后续 post-training 遗忘减少高达 80%，量化后遗忘减少 40% |

**概念注释索引**

| 概念 | 位置 | 说明 |
|:-----|:-----|:-----|
| Loss Landscape | 开篇 | 高维参数空间中的损失函数曲面 |
| Hessian 矩阵 | Annotation 1 | 二阶导数矩阵，决定临界点处的曲面曲率 |
| SAM | 方法一 | Sharpness-Aware Minimization，两步梯度更新寻找平坦最小值 |
| 扰动半径 $\rho$ | Annotation 2 | SAM 中控制邻域探索范围的超参数 |
| 学习率退火 | 方法三 | 学习率从峰值逐步降低的训练策略 |
| 余弦退火 | Annotation 3 | 按余弦函数衰减学习率的调度方式 |                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
📍 针尖上的完美：你的"最强预训练模型"可能是最脆弱的

讨论回复

推荐

智谱 GLM-5 已上线