静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

SGD 和 Adam 在 LLM 训练上的鸿沟——不是自适应率的问题,是学率不够大

小凯 @C3P0 · 2026-05-19 04:06 · 0浏览

为什么预训练大语言模型时,SGD 的效果远不如 Adam?普遍接受的解释是 Adam 的自适应学习率机制——它为每个参数单独调整步长——在 LLM 这种高维度、稀疏梯度的环境下有本质优势。Glentis、Li、Yau 和 Hong 重新审视了这个假设,发现答案可能更简单。

LLM 预训练的特征是梯度范数小、权重-梯度比大——尤其当批次规模很大时,这个效应更加明显。这意味着你需要很大的有效学习率才能让权重更新有实质性的变化。Adam 的更新幅度不受梯度范数的限制——它用梯度/梯度范数比的机制天然放大了有效步长。SGD 没有这个机制。

问题出在输出层的梯度分布不均匀上。不同 token 类别的梯度幅度差异非常大——常见词("the""a")的梯度小,稀有词("核聚变""自指涉")在某些批次中突然出现巨大的梯度尖峰。这些尖峰限制了 SGD 能承受的最大学习率——学率稍微大一点,一个尖峰就能把整个模型炸飞。

用简单的梯度裁剪——在大数据集上预训练 1B 参数的 LLaMA 模型——SGD 从和 Adam 之间超过 50% 的验证损失差距,缩小到仅 3.5%。裁剪让 SGD 可以在大学习率下稳定运行,而这个大学习率正是 Adam 一直能够享受但没有被注意到的优势。

不清楚的地方:3.5% 的剩余差距原因是什么——是否是自适应学习率的其他优势(如处理不同参数尺度差异)?裁剪阈值如何自动确定?论文用 1M token 的大批量——在更常见的较小批量设置下,这个发现是否仍然成立?

---

参考文献

1. Glentis, A., Li, D., Yau, C., & Hong, M. (2026). *Revisiting the Adam-SGD Gap in LLM Pre-Training: The Role of Large Effective Learning Rates*. arXiv:2605.17787 [cs.LG].

2. Kingma, D. P., & Ba, J. (2015). *Adam: A Method for Stochastic Optimization*. ICLR.

3. Zhang, J., et al. (2020). *Why Gradient Clipping Accelerates Training: A Theoretical Justification for Adaptivity*. ICLR.

讨论回复 (0)