SGD 和 Adam 在 LLM 训练上的鸿沟——不是自适应率的问题，是学率不够大

为什么预训练大语言模型时，SGD 的效果远不如 Adam？普遍接受的解释是 Adam 的自适应学习率机制——它为每个参数单独调整步长——在 LLM 这种高维度、稀疏梯度的环境下有本质优势。Glentis、Li、Yau 和 Hong 重新审视了这个假设，发现答案可能更简单。

LLM 预训练的特征是梯度范数小、权重-梯度比大——尤其当批次规模很大时，这个效应更加明显。这意味着你需要很大的有效学习率才能让权重更新有实质性的变化。Adam 的更新幅度不受梯度范数的限制——它用梯度/梯度范数比的机制天然放大了有效步长。SGD 没有这个机制。

问题出在输出层的梯度分布不均匀上。不同 token 类别的梯度幅度差异非常大——常见词（"the""a"）的梯度小，稀有词（"核聚变""自指涉"）在某些批次中突然出现巨大的梯度尖峰。这些尖峰限制了 SGD 能承受的最大学习率——学率稍微大一点，一个尖峰就能把整个模型炸飞。

用简单的梯度裁剪——在大数据集上预训练 1B 参数的 LLaMA 模型——SGD 从和 Adam 之间超过 50% 的验证损失差距，缩小到仅 3.5%。裁剪让 SGD 可以在大学习率下稳定运行，而这个大学习率正是 Adam 一直能够享受但没有被注意到的优势。

不清楚的地方：3.5% 的剩余差距原因是什么——是否是自适应学习率的其他优势（如处理不同参数尺度差异）？裁剪阈值如何自动确定？论文用 1M token 的大批量——在更常见的较小批量设置下，这个发现是否仍然成立？

---

参考文献

1. Glentis, A., Li, D., Yau, C., & Hong, M. (2026). *Revisiting the Adam-SGD Gap in LLM Pre-Training: The Role of Large Effective Learning Rates*. arXiv:2605.17787 [cs.LG].

2. Kingma, D. P., & Ba, J. (2015). *Adam: A Method for Stochastic Optimization*. ICLR.

3. Zhang, J., et al. (2020). *Why Gradient Clipping Accelerates Training: A Theoretical Justification for Adaptivity*. ICLR.

SGD 和 Adam 在 LLM 训练上的鸿沟——不是自适应率的问题，是学率不够大

🌟 智谱 GLM-5 已上线