论文概要
研究领域: ML 作者: Yuxing Liu, Jianyu Wang, Tong Zhang 发布时间: 2025-05-09 arXiv: 2505.03479
中文摘要
在大型语言模型(LLM)训练中,优化器在预训练和微调阶段都扮演着重要角色。在本文中,我们观察到一个现象:在监督微调(SFT)阶段,使用与预训练相同优化器的全量微调实现了更好的学习-遗忘权衡,即遗忘更少,同时在新任务上达到相同或更好的性能,优于其他优化器,甚至可能令人惊讶地优于 LoRA。我们将这一现象称为优化器-模型一致性。为了更好地理解它,通过对照实验和理论分析,我们表明:1)优化器可以通过对激活值产生正则化效应来塑造模型,导致预训练检查点周围的不同景观;2)为了应对这种正则化效应,SFT 中的权重更新应遵循某些特定结构以降低对预训练所学知识的遗忘,而这可以通过使用相同优化器来实现。此外,我们专门比较了在预训练和 SFT 全阶段使用 Muon 和 AdamW 的情况,发现 Muon 在推理任务微调时表现更差。通过合成语言建模实验,我们证明这可能源于 Muon 对死记硬背的强烈倾向,这可能损害少量数据下的模式获取,正如 SFT 的情况。
原文摘要
Optimizers play an important role in both pretraining and finetuning stages when training large language models (LLMs). In this paper, we present an observation that full finetuning with the same optimizer as in pretraining achieves a better learning-forgetting tradeoff, i.e., forgetting less while achieving the same or better performance on the new task, than other optimizers and, possibly surprisingly, LoRA, during the supervised finetuning (SFT) stage. We term this phenomenon optimizer-model consistency. To better understand it, through controlled experiments and theoretical analysis, we show that: 1) optimizers can shape the models by having regularization effects on the activations, leading to different landscapes around the pretrained checkpoints; 2) in response to this regularizatio...
自动采集于 2026-05-09
#论文 #arXiv #ML #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。