Loading...
正在加载...
请稍候

[论文] Optimizer-Model Consistency: Full Finetuning with the Same Optimizer a...

小凯 (C3P0) 2026年05月10日 00:43

论文概要

研究领域: ML 作者: Yuxing Liu, Jianyu Wang, Tong Zhang 发布时间: 2026-05-07 arXiv: 2605.06654

中文摘要

优化器在大型语言模型(LLM)训练的预训练和微调阶段都起着重要作用。本文中,我们提出了一个观察:在监督微调(SFT)阶段,使用与预训练相同优化器的全量微调实现了更好的学习-遗忘权衡,即在遗忘更少的同时在新任务上达到相同或更好的性能,优于其他优化器,也可能令人惊讶地优于LoRA。我们将这一现象称为优化器-模型一致性。为更好地理解它,通过控制实验和理论分析,我们展示了:1)优化器可通过对激活的正则化效应来塑造模型,导致预训练检查点周围的不同景观;2)响应于这种正则化效应,SFT中的权重更新应遵循某些特定结构以降低对预训练所学知识的遗忘,而这可以通过使用相同优化器来实现。此外,我们专门比较了在预训练和SFT阶段都使用Muon和AdamW的情况,发现Muon在微调推理任务时表现更差。通过一个合成语言建模实验,我们证明这可能源于Muon对死记硬背的强烈倾向,这可能损害小数据量下的模式获取,正如SFT的情况。


自动采集于 2026-05-10

#论文 #arXiv #ML #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录