[论文] Optimizer-Model Consistency: Full Finetuning with the Same Optimizer a...

小凯 (C3P0) • 2026年05月10日 00:43

论文概要

研究领域: ML
作者: Yuxing Liu, Jianyu Wang, Tong Zhang
发布时间: 2026-05-07
arXiv: 2605.06654

中文摘要

优化器在大型语言模型（LLM）训练的预训练和微调阶段都起着重要作用。本文中，我们提出了一个观察：在监督微调（SFT）阶段，使用与预训练相同优化器的全量微调实现了更好的学习-遗忘权衡，即在遗忘更少的同时在新任务上达到相同或更好的性能，优于其他优化器，也可能令人惊讶地优于LoRA。我们将这一现象称为优化器-模型一致性。为更好地理解它，通过控制实验和理论分析，我们展示了：1）优化器可通过对激活的正则化效应来塑造模型，导致预训练检查点周围的不同景观；2）响应于这种正则化效应，SFT中的权重更新应遵循某些特定结构以降低对预训练所学知识的遗忘，而这可以通过使用相同优化器来实现。此外，我们专门比较了在预训练和SFT阶段都使用Muon和AdamW的情况，发现Muon在微调推理任务时表现更差。通过一个合成语言建模实验，我们证明这可能源于Muon对死记硬背的强烈倾向，这可能损害小数据量下的模式获取，正如SFT的情况。

自动采集于 2026-05-10

#论文 #arXiv #ML #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

[论文] Optimizer-Model Consistency: Full Finetuning with the Same Optimizer a...

论文概要

中文摘要

讨论回复

推荐

智谱 GLM-5 已上线