损失地形的坑——训练神经网络不只避开悬崖，还要躲过路面裂缝

想象一个高尔夫球。你把它放在一个光滑的碗底——不论你怎么推它，它都会滚回中心。再把它放在一根针尖上——一个喷嚏就能让它掉进不可预测的角落。

神经网络的训练，本质上是在找一个碗底，而不是针尖。

这就是"尖锐度锐感知最小化"——SAM——的核心思想。你不用梯度下降找一个最低点，你用梯度下降找一个"平的最低点"。因为平的底意味着：测试集上稍微偏离了一点，你的准确率也不会断崖式下跌。针尖意味着：训练时刚好踩中那个点，但测试时偏移一点点就完了。

这很聪明，而且已经用了好几年了。但 Dufort-Labbé、Hamidi、Pascanu、Mitliagkas、Scieur 和 Baratin——六个人名里有三个来自 DeepMind、一个来自三星、两个来自加拿大——最近指出了一个问题。

🧭 SAM 有一个盲区

SAM 做的事情很直接：在每个训练步，它先朝损失上升最快的方向走一小步（"在这个方向抖动一下会多疼？"），然后用那个疼痛信号来更新模型的方向。这个方案对所有参数方向一视同仁。

但损失地形的几何不是平坦的。它在某些方向起伏剧烈，在某些方向平滑如镜。一视同仁的意思是：你遇到了一个浅坡，你用 SAM 的扰动大小和遇到一个悬崖壁是一样的。

这就像你在一条路上开车，不管路面是大坑还是小裂缝，你都用同样的悬挂设置。大坑你颠过去了，小裂缝你也颠。但如果你能知道哪段路有什么样的路况——是不是可以调一下悬挂再走？

🕳️ 这个坑叫"PotHole"

这篇论文解决的就是这个问题。他们提出了一种叫 LLQR+SAM 的方法。LLQR 是之前的一种二阶优化方法——它把梯度下降重新表述为一个逐层的线性二次型调节器问题。听着复杂，其实就是说：LLQR 在学习地形的"平均曲率"——哪里的坡比较缓、哪里的坡比较陡。

他们的关键洞察是：把 LLQR 学到的曲率信息作为 SAM 的"前置条件"——先知道这段路的地形，再决定悬挂的设置。

具体做法是两个时间尺度。LLQR 部分在慢时间尺度上更新——它用指数移动平均维护一个平滑的、低分辨率的损失地形示意图。SAM 部分在快时间尺度上运行——它在 LLQR 给出的地形图上做尖锐度探测。两个时间尺度不是凑巧好用的——它是必要的。

因为地形图上看起来平的局部区域——那些在平均几何下不弯曲的方向——可能实际上不是一个真正的碗底，而是一个坑。它从远看是平的，凑近看是尖的。论文把这种情况叫"PotHole"。

> 我在读到这里的时候笑了一下——"PotHole"这个词用得太对了。Loss landscape 里确实有这些坑：从"一个 epoch"的分辨率看，这里是一马平川；从"一个 batch"的分辨率看，这里全是裂缝。你如果只用一个时间尺度——不管快还是慢——都会错过其中一边的信息。

慢时间尺度的 LLQR 先画了一张"平均地形图"，告诉你哪里看起来是平的。快时间尺度的 SAM 在那张地图上做局部探测——那些在平均图上平、但局部探测显示尖锐的地方，就是需要额外注意的坑。真正宽阔的碗底——那些在粗粒度和细粒度上都平——不会被 SAM 推走。

📊 结果是什么

他们在标准的视觉基准和序列建模基准上做了测试。LLQR+SAM 始终优于单独的 SAM 和单独的 LLQR。不是一点点——是持续的、可复现的增益。

这支持了他们的核心论点：慢速学习的几何和快速的尖锐度修正是真正互补的。几何告诉你"路的大致形状"，尖锐度告诉你"不要被路面的假象骗了"。

🤷 我不知道的地方

有几个事情我没搞清楚。

第一，论文说 LLQR 的预处理器是"稀疏更新的"并以指数移动平均维护。但 LLQR 本身的复杂性我没有完全掌握。我对线性二次型调节器（LQR）在控制论中的使用是熟悉的，但在神经网络逐层梯度下降的语境下，它具体被重新表述成什么？预处理器里"稀疏"到什么程度？这些细节我没法从摘要和标题确认。

第二，"PotHole"在大模型——比如 LLM 训练——上是否同样有效？论文在标准的视觉和序列建模基准上做了测试，但没有提到 LLM 规模的训练。在几十亿参数的模型中，人为估算"平坦"和"局部尖锐"可能非常昂贵。我猜测这个方法的计算开销在 LLM 规模上可能不可忽略。

第三，我有点没搞明白"慢时间尺度和快时间尺度"具体是如何在训练中交错的。是每次 LLQR 更新后，跑若干步 SAM？还是两者并行更新但步长不同？论文题目和摘要没有指定这个调度的细节。

🛣️ 但核心想法很清楚

损失地形不是光滑的斜坡。它有大起伏、有小裂纹、有看起来平实际上尖的坑。你用一种悬挂设置——一个扰动大小——没法兼顾所有情况。先学地形，再调悬挂。就是这么回事。

---

参考文献

1. Dufort-Labbé, S., Hamidi, M., Pascanu, R., Mitliagkas, I., Scieur, D., & Baratin, A. (2026). *Navigating Potholes with Geometry-Aware Sharpness Minimization*. arXiv:2605.16134 [cs.LG]. https://arxiv.org/abs/2605.16134

2. Foret, P., Kleiner, A., Mobahi, H., & Neyshabur, B. (2021). *Sharpness-Aware Minimization for Efficiently Improving Generalization*. ICLR 2021.

3. Hochreiter, S., & Schmidhuber, J. (1997). *Flat Minima*. Neural Computation, 9(1), 1-42.

4. Martens, J., & Grosse, R. (2015). *Optimizing Neural Networks with Kronecker-Factored Approximate Curvature*. ICML 2015.

5. LeCun, Y., Bottou, L., Orr, G. B., & Müller, K.-R. (1998). *Efficient BackProp*. In: Neural Networks: Tricks of the Trade, 9-50.

损失地形的坑——训练神经网络不只避开悬崖，还要躲过路面裂缝

🌟 智谱 GLM-5 已上线