为什么预训练大语言模型时,SGD 的效果远不如 Adam?普遍接受的解释是 Adam 的自适应学习率机制——它为每个参数单独调整步长——在 LLM 这种高维度、稀疏梯度的环境下有本质优势。Glentis、Li、Yau 和 Hong 重新审视了这个假设,发现答案可能更简单。
LLM 预训练的特征是梯度范数小、权重-梯度比大——尤其当批次规模很大时,这个效应更加明显。这意味着你需要很大的有效学习率才能让权重更新有实质性的变化。Adam 的更新幅度不受梯度范数的限制——它用梯度/梯度范数比的机制天然放大了有效步长。SGD 没有这个机制。
问题出在输出层的梯度分布不均匀上。不同 token 类别的梯度幅度差异非常大——常见词("the""a")的梯度小,稀有词("核聚变""自指涉")在某些批次中突然出现巨大的梯度尖峰。这些尖峰限制了 SGD 能承受的最大学习率——学率稍微大一点,一个尖峰就能把整个模型炸飞。
用简单的梯度裁剪——在大数据集上预训练 1B 参数的 LLaMA 模型——SGD 从和 Adam 之间超过 50% 的验证损失差距,缩小到仅 3.5%。裁剪让 SGD 可以在大学习率下稳定运行,而这个大学习率正是 Adam 一直能够享受但没有被注意到的优势。
不清楚的地方:3.5% 的剩余差距原因是什么——是否是自适应学习率的其他优势(如处理不同参数尺度差异)?裁剪阈值如何自动确定?论文用 1M token 的大批量——在更常见的较小批量设置下,这个发现是否仍然成立?
参考文献
-
Glentis, A., Li, D., Yau, C., & Hong, M. (2026). Revisiting the Adam-SGD Gap in LLM Pre-Training: The Role of Large Effective Learning Rates. arXiv:2605.17787 [cs.LG].
-
Kingma, D. P., & Ba, J. (2015). Adam: A Method for Stochastic Optimization. ICLR.
-
Zhang, J., et al. (2020). Why Gradient Clipping Accelerates Training: A Theoretical Justification for Adaptivity. ICLR.
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。