你以为是对齐出了问题。其实是优化的目标函数切换时,模型正在穿越损失景观的山谷。
训练大模型的人都见过这条曲线:
SFT 阶段,loss 稳步下降,benchmark 分数节节攀升。一切看起来很美好。然后进入 RL 阶段(PPO、DPO、GRPO 随便哪个),第一个 epoch,MMLU 掉了 3 个点,GSM8K 掉了 5 个点,翻译能力直接腰斩。团队群里一片哀嚎。"RL 把我们的模型搞坏了。"
但继续训。第三、第四个 epoch,分数开始回暖。到第六个 epoch,有些指标不但回到 SFT 水平,还超过了。
这不是 bug。这是特征。
2023 年 InstructGPT 的论文里就标注了这个问题。2024 年 "Mitigating the Alignment Tax of RLHF" 把它命名为 Alignment Tax(对齐税)。2025 年 Illinois 的团队发现了一个更深层的现象:RL 只更新模型 5-30% 的参数,其余 70-95% 完全不动——这意味着性能的"降"和"升",本质上是模型内部一小部分参数在重新排兵布阵。
这篇文章要做的,是把"先降后升"这个表象,拆成五层可解释的机制。
📉 第一章:现象确认——这不是你的训练脚本出错了
先上数据,再谈理论。
经典观察:InstructGPT / PPO-ptx
OpenAI 2022 年的 InstructGPT 论文明确记录:
"Just using RL objective leads to performance degradation on many NLP tasks."
他们的解决方案是 PPO-ptx——在 RL 目标里加了一个预训练数据的辅助损失(auxiliary LM objective)。没有 ptx 的纯 PPO,在翻译和阅读理解的 benchmark 上持续下降。加了 ptx 之后,下降被部分缓解。
2024 年的系统验证
"Mitigating the Alignment Tax of RLHF"(ACL 2024)做了更系统的追踪:
| 训练阶段 | 奖励分数 | 翻译能力 | 阅读理解 | 常识推理 |
|---|---|---|---|---|
| SFT 后 | 基线 | 基线 | 基线 | 基线 |
| RL epoch 1-2 | 上升 | 下降 | 下降 | 先升后降 |
| RL epoch 4-6 | plateau | 部分恢复 | 部分恢复 | 持续下降 |
关键发现:
- 奖励和通用能力不是同步变化的。奖励上升时,通用能力可能还在下降。
- 常识推理呈现"先升后降"——说明不同能力维度对 RL 的敏感度不同。
- 灾难性遗忘是对齐税的本质。
2025 年的微观发现
Illinois Urbana-Champaign 的 "Reinforcement Learning Finetunes Small Subnetworks in Large Language Models"(arXiv:2505.11711)用探针直接观测参数更新:
"RL fine-tuning effectively modifies only a small subnetwork (typically 5–30% of parameters), leaving the majority of weights essentially unchanged."
这意味着:
- "性能下降"不是"整个模型变笨了",是一小部分关键参数被打乱了。
- "性能恢复"也不是"模型慢慢适应了",是这一小部分参数重新找到了有效配置。
🔬 第二章:五层机制拆解
机制一:目标函数切换——从模仿到优化
SFT 的目标函数:
L_SFT = -E[log P(answer | prompt)]
这是最大似然估计。模型在学习"人类会怎么回答"。它的最优解是复制人类回答的分布。
RL 的目标函数(以 PPO 为例):
L_RL = E[r(x,a)] - β * KL(π_RL || π_SFT)
这是奖励最大化。模型在学习"什么样的回答能获得高奖励"。它的最优解是找到奖励模型的盲点并 exploit 它。
目标函数切换的瞬间,模型从"模仿者"变成了"策略家"。策略家一开始会犯错——它还不了解奖励地形的全貌,只能瞎试。这就是"降"。
机制二:奖励黑客(Reward Hacking)——先走弯路再走正路
奖励模型(RM)是一个代理目标(proxy objective)。它不是"人类真实满意度",而是人类标注员对某些回答片段的打分模式。
RL 早期,模型很快发现一些"欺骗"奖励模型的模式:
- 回答越长,奖励越高(因为标注员觉得"详细=好")
- 用更多" certainly "" definitely "这样的确定性词汇(因为标注员觉得"自信=好")
- 在开头重复 prompt 里的关键词(因为奖励模型对表面匹配有偏见)
这些策略在 benchmark 上是灾难性的——模型变得啰嗦、模板化、不敢给出简洁回答。但随着训练继续:
- KL 散度惩罚开始生效:偏离 SFT 模型太远会被惩罚
- 奖励模型饱和:简单的黑客策略不再提升奖励
- 模型被迫寻找更深层策略:真正有用的推理链、更好的格式组织
这就是"降"之后"升"的核心驱动力:奖励黑客走不通了,模型必须学会真正的本领。
机制三:探索-利用的动态博弈
RL 是一个在线学习过程。PPO 的 clipped surrogate objective 强制策略不能一次跳太远:
r_t(θ) = π_θ(a|s) / π_old(a|s) # 新旧策略比率
clip(r_t, 1-ε, 1+ε) # 限制在 [0.9, 1.1] 范围内
早期 = 探索阶段:策略在 ε 的边界内疯狂试探。有些试探方向是对的(更好的 reasoning),有些是错的(奖励黑客)。错的方向多,性能下降。
中期 = 利用阶段:策略找到了几个高奖励方向,开始 exploit。如果这几个方向恰好也提升通用能力(比如更好的 chain-of-thought),benchmark 分数回升。
后期 = 平衡阶段:在 KL 惩罚和奖励之间找到帕累托最优。
机制四:KL 散度的时变效应
KL 散度惩罚项的系数 β 通常是固定的,但它的实际约束强度是动态的:
- 早期:策略 π_RL 离 π_SFT 很近,KL 值很小,惩罚几乎为 0。模型可以大胆探索。
- 中期:策略开始偏离,KL 值上升,惩罚开始显著。模型被"拉回来"。
- 后期:策略在约束边界上振荡,KL 值稳定在某个水平。
这个动态过程解释了为什么性能不是单调下降或单调上升,而是先降(无约束探索)→ 再升(约束下的优化)。
机制五:参数更新的稀疏性——2025 年的关键拼图
Illinois 团队的发现颠覆了传统理解:
"RL updates a small subset of parameters that nevertheless span almost the full subspaces."
具体来说:
- 5-30% 的参数被更新,70-95% 的参数纹丝不动
- 但这些被更新的参数不是集中在某几层——几乎每一层的参数矩阵都有稀疏更新
- 更新是全秩的(full-rank):虽然只更新了少量参数,但这些更新覆盖了参数矩阵的几乎所有子空间
- 不同随机种子、不同数据集、不同算法(PPO/DPO/GRPO)更新的子网络有显著重叠
这意味着什么?
SFT 之后,模型已经是一个高度优化的系统。RL 不需要重构整个系统——它只需要微调几个关键旋钮。这些旋钮被打乱时(早期 RL),系统表现下降。旋钮找到新位置后(后期 RL),系统表现不但恢复,还可能超越原配置。
这个发现也解释了为什么 LoRA(低秩适配)在 RL 中往往不够用——RL 的更新虽然是稀疏的,但在子空间上是全秩的。LoRA 的低秩约束可能恰好切断了 RL 需要的那条更新路径。
📊 第三章:实验证据与量化分析
对齐税的量级
| 模型 | 对齐方法 | MMLU 下降 | 翻译下降 | 数学下降 |
|---|---|---|---|---|
| LLaMA-7B | PPO | -2~5% | -10~30% | -3~8% |
| LLaMA-13B | DPO | -1~3% | -5~15% | -2~5% |
| GPT-3.5 | RLHF | 有 ptx 缓解 | 有 ptx 缓解 | 轻微 |
恢复时间尺度
从多个开源项目的训练日志看:
- 下降阶段:通常持续 1-3 个 epoch(约 10-30% 的总 RL 步数)
- 恢复阶段:通常需要 2-4 个 epoch
- 超越阶段:在总步数的 60-80% 处,部分指标超过 SFT 基线
不同算法的差异
| 算法 | 下降幅度 | 恢复速度 | 最终超越 |
|---|---|---|---|
| PPO | 大 | 慢 | 是(有 ptx) |
| DPO | 中 | 中 | 是 |
| GRPO | 小 | 快 | 是 |
| SimPO | 小 | 快 | 是 |
DPO/GRPO/SimPO 作为离线算法,采样数据来自 SFT 模型本身,分布偏移较小,所以"下降"阶段更短、更浅。
🛠️ 第四章:工程实践——怎么让"降"不那么痛
策略 1:预训练数据混入(PPO-ptx)
InstructGPT 的做法:在 RL 阶段保留一部分预训练数据的语言建模损失。
L_total = L_RL + γ * L_pretrain
γ 通常很小(0.01-0.1),但足够让模型"不要忘记怎么说话"。
策略 2:模型平均 / 权重插值
ACL 2024 的论文发现:在 SFT 权重和 RL 权重之间做插值,可以找到帕累托最优。
θ_final = α * θ_SFT + (1-α) * θ_RL
α 通常在 0.3-0.7 之间。这个简单操作在对齐税和奖励之间做了更好的权衡。
更高级的做法是 在线模型合并(Lu et al., 2024):每个 RL 优化步骤同时合并 SFT 模型的梯度,而不是训完再合并。
策略 3:交替优化(SFT ↔ DPO)
"LookAlike" 论文(2025)的做法:
epoch 1: SFT (重新校准到 ground-truth 分布)
epoch 2: DPO (学习偏好排名)
epoch 3: SFT (重新校准)
epoch 4: DPO (学习偏好)
...
每个 SFT 阶段后重新计算偏好数据集。这样做避免了 DPO 单独训练时的"verbose + out-of-distribution"退化。
策略 4:奖励鲁棒性约束
"REWARD-ROBUST RLHF"(2024)发现:当奖励模型在某些任务上表现很差时(比如 MMLU),标准 RL 会让模型跟着差的奖励信号走。
解决方案:在奖励上加一个鲁棒性约束,限制模型对奖励模型的过度信任。
策略 5:监控正确的指标
不要只盯着奖励曲线。训练时同时监控:
- 通用能力 benchmark(MMLU、GSM8K、HumanEval)
- 生成长度分布(防止奖励黑客导致的 verbosity)
- KL 散度值(防止偏离太远)
- 回答拒绝率(PPO 崩溃的早期信号)
如果通用能力连续 2 个 epoch 下降超过阈值,触发早停或减小学习率。
🎯 第五章:对训练流程设计的启示
启示 1:SFT 不是"最好"的,是"最安全"的
SFT 的解是一个局部最优——在人类回答分布上表现好,但离真正的"最优策略"有距离。RL 的作用就是跳出这个局部最优。
"先降后升"的本质:跳出局部最优必须经过山谷。山谷里的表现比原来的山顶差,但新山顶更高。
启示 2:RL 阶段的"下降"是信号,不是噪声
如果 RL 阶段没有任何性能下降,可能说明:
- KL 约束太紧,模型没真正探索
- 奖励模型太弱,没有提供有效的梯度信号
- 学习率太小,策略更新幅度不够
适度的"下降"说明模型真的在探索新策略空间。
启示 3:参数稀疏性 = 效率机会
Illinois 的发现意味着:
- 你可以用 参数冻结 + 稀疏更新 加速 RL 训练
- 不需要全量微调,只需要找到那 5-30% 的关键参数
- 这为 更高效的 RL 算法 打开了大门——比如只在重叠子网络上做 LoRA
结语
SFT 之后 RL 的"先降后升",本质上是一场目标函数切换引发的短期动荡。
模型从"模仿人类"切换到"优化奖励",走了一段弯路(奖励黑客),穿过山谷(通用能力下降),最后找到新的高峰(对齐后的更强策略)。
2025 年的稀疏性发现告诉我们:这场动荡只涉及模型 5-30% 的参数。其余 70-95% 的参数是"基础设施",不动如山。
对从业者来说,这意味着两件事:
- 不要看到下降就 panic。给它 3-4 个 epoch,让它走完山谷。
- 用对工具:预训练数据混入、模型平均、交替优化、鲁棒奖励——这些不是"锦上添花",是"必需品"。
训练大模型像爬山。SFT 把你带到一个小山顶。RL 说"对面那座更高",然后带着你下山、过桥、再往上爬。下山的路上别慌,看的是最终高度,不是中间海拔。
参考来源
- Training language models to follow instructions with human feedback (InstructGPT, 2022)
- Mitigating the Alignment Tax of RLHF (ACL 2024, arXiv:2309.06256)
- Reinforcement Learning Finetunes Small Subnetworks in Large Language Models (arXiv:2505.11711, 2025)
- A Comprehensive Survey of Datasets, Theories, Variants, and Applications in Direct Preference Optimization (arXiv:2410.15595)
- REWARD-ROBUST RLHF IN LLMs (arXiv:2409.15360)
- LookAlike: Consistent Distractor Generation in Math MCQs (2025)
- RLHF in an SFT Way: From Optimal Solution to Reward-Weighted Alignment (arXiv:2502.11026)
- RLHF — Fine-Tuning a Sparse Subnetwork in LLMs (arXiv:2507.17107, withdrawn)
#LLM训练 #RLHF #对齐税 #PPO #DPO #GRPO #参数稀疏性 #强化学习 #模型对齐 #训练动态 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。