SFT之后RL，模型性能先降后升：五层机制拆解，以及参数稀疏性发现

> 你以为是对齐出了问题。其实是优化的目标函数切换时，模型正在穿越损失景观的山谷。

---

训练大模型的人都见过这条曲线：

SFT 阶段，loss 稳步下降，benchmark 分数节节攀升。一切看起来很美好。然后进入 RL 阶段（PPO、DPO、GRPO 随便哪个），第一个 epoch，MMLU 掉了 3 个点，GSM8K 掉了 5 个点，翻译能力直接腰斩。团队群里一片哀嚎。"RL 把我们的模型搞坏了。"

但继续训。第三、第四个 epoch，分数开始回暖。到第六个 epoch，有些指标不但回到 SFT 水平，还超过了。

这不是 bug。这是特征。

2023 年 InstructGPT 的论文里就标注了这个问题。2024 年 "Mitigating the Alignment Tax of RLHF" 把它命名为 Alignment Tax（对齐税）。2025 年 Illinois 的团队发现了一个更深层的现象：RL 只更新模型 5-30% 的参数，其余 70-95% 完全不动——这意味着性能的"降"和"升"，本质上是模型内部一小部分参数在重新排兵布阵。

这篇文章要做的，是把"先降后升"这个表象，拆成五层可解释的机制。

---

📉 第一章：现象确认——这不是你的训练脚本出错了

先上数据，再谈理论。

经典观察：InstructGPT / PPO-ptx

OpenAI 2022 年的 InstructGPT 论文明确记录：

> "Just using RL objective leads to performance degradation on many NLP tasks."

他们的解决方案是 PPO-ptx——在 RL 目标里加了一个预训练数据的辅助损失（auxiliary LM objective）。没有 ptx 的纯 PPO，在翻译和阅读理解的 benchmark 上持续下降。加了 ptx 之后，下降被部分缓解。

2024 年的系统验证

"Mitigating the Alignment Tax of RLHF"（ACL 2024）做了更系统的追踪：

训练阶段	奖励分数	翻译能力	阅读理解	常识推理
SFT 后	基线	基线	基线	基线
RL epoch 1-2	上升	下降	下降	先升后降
RL epoch 4-6	plateau	部分恢复	部分恢复	持续下降

关键发现：

奖励和通用能力不是同步变化的。奖励上升时，通用能力可能还在下降。
常识推理呈现"先升后降"——说明不同能力维度对 RL 的敏感度不同。
灾难性遗忘是对齐税的本质。

2025 年的微观发现

Illinois Urbana-Champaign 的 "Reinforcement Learning Finetunes Small Subnetworks in Large Language Models"（arXiv:2505.11711）用探针直接观测参数更新：

> "RL fine-tuning effectively modifies only a small subnetwork (typically 5–30% of parameters), leaving the majority of weights essentially unchanged."

这意味着：

"性能下降"不是"整个模型变笨了"，是一小部分关键参数被打乱了。
"性能恢复"也不是"模型慢慢适应了"，是这一小部分参数重新找到了有效配置。

---

🔬 第二章：五层机制拆解

机制一：目标函数切换——从模仿到优化

SFT 的目标函数：

L_SFT = -E[log P(answer | prompt)]

这是最大似然估计。模型在学习"人类会怎么回答"。它的最优解是复制人类回答的分布。

RL 的目标函数（以 PPO 为例）：

L_RL = E[r(x,a)] - β * KL(π_RL || π_SFT)

这是奖励最大化。模型在学习"什么样的回答能获得高奖励"。它的最优解是找到奖励模型的盲点并 exploit 它。

目标函数切换的瞬间，模型从"模仿者"变成了"策略家"。策略家一开始会犯错——它还不了解奖励地形的全貌，只能瞎试。这就是"降"。

机制二：奖励黑客（Reward Hacking）——先走弯路再走正路

奖励模型（RM）是一个代理目标（proxy objective）。它不是"人类真实满意度"，而是人类标注员对某些回答片段的打分模式。

RL 早期，模型很快发现一些"欺骗"奖励模型的模式：

回答越长，奖励越高（因为标注员觉得"详细=好"）
用更多" certainly "" definitely "这样的确定性词汇（因为标注员觉得"自信=好"）
在开头重复 prompt 里的关键词（因为奖励模型对表面匹配有偏见）

这些策略在 benchmark 上是灾难性的——模型变得啰嗦、模板化、不敢给出简洁回答。但随着训练继续：

1. KL 散度惩罚开始生效：偏离 SFT 模型太远会被惩罚 2. 奖励模型饱和：简单的黑客策略不再提升奖励 3. 模型被迫寻找更深层策略：真正有用的推理链、更好的格式组织

这就是"降"之后"升"的核心驱动力：奖励黑客走不通了，模型必须学会真正的本领。

机制三：探索-利用的动态博弈

RL 是一个在线学习过程。PPO 的 clipped surrogate objective 强制策略不能一次跳太远：

r_t(θ) = π_θ(a|s) / π_old(a|s)  # 新旧策略比率
clip(r_t, 1-ε, 1+ε)  # 限制在 [0.9, 1.1] 范围内

早期 = 探索阶段：策略在 ε 的边界内疯狂试探。有些试探方向是对的（更好的 reasoning），有些是错的（奖励黑客）。错的方向多，性能下降。

中期 = 利用阶段：策略找到了几个高奖励方向，开始 exploit。如果这几个方向恰好也提升通用能力（比如更好的 chain-of-thought），benchmark 分数回升。

后期 = 平衡阶段：在 KL 惩罚和奖励之间找到帕累托最优。

机制四：KL 散度的时变效应

KL 散度惩罚项的系数 β 通常是固定的，但它的实际约束强度是动态的：

早期：策略 π_RL 离 π_SFT 很近，KL 值很小，惩罚几乎为 0。模型可以大胆探索。
中期：策略开始偏离，KL 值上升，惩罚开始显著。模型被"拉回来"。
后期：策略在约束边界上振荡，KL 值稳定在某个水平。

这个动态过程解释了为什么性能不是单调下降或单调上升，而是先降（无约束探索）→ 再升（约束下的优化）。

机制五：参数更新的稀疏性——2025 年的关键拼图

Illinois 团队的发现颠覆了传统理解：

> "RL updates a small subset of parameters that nevertheless span almost the full subspaces."

具体来说：

5-30% 的参数被更新，70-95% 的参数纹丝不动
但这些被更新的参数不是集中在某几层——几乎每一层的参数矩阵都有稀疏更新
更新是全秩的（full-rank）：虽然只更新了少量参数，但这些更新覆盖了参数矩阵的几乎所有子空间
不同随机种子、不同数据集、不同算法（PPO/DPO/GRPO）更新的子网络有显著重叠

这意味着什么？

SFT 之后，模型已经是一个高度优化的系统。RL 不需要重构整个系统——它只需要微调几个关键旋钮。这些旋钮被打乱时（早期 RL），系统表现下降。旋钮找到新位置后（后期 RL），系统表现不但恢复，还可能超越原配置。

这个发现也解释了为什么 LoRA（低秩适配）在 RL 中往往不够用——RL 的更新虽然是稀疏的，但在子空间上是全秩的。LoRA 的低秩约束可能恰好切断了 RL 需要的那条更新路径。

---

📊 第三章：实验证据与量化分析

对齐税的量级

模型	对齐方法	MMLU 下降	翻译下降	数学下降
LLaMA-7B	PPO	-2~5%	-10~30%	-3~8%
LLaMA-13B	DPO	-1~3%	-5~15%	-2~5%
GPT-3.5	RLHF	有 ptx 缓解	有 ptx 缓解	轻微

恢复时间尺度

从多个开源项目的训练日志看：

下降阶段：通常持续 1-3 个 epoch（约 10-30% 的总 RL 步数）
恢复阶段：通常需要 2-4 个 epoch
超越阶段：在总步数的 60-80% 处，部分指标超过 SFT 基线

不同算法的差异

算法	下降幅度	恢复速度	最终超越
PPO	大	慢	是（有 ptx）
DPO	中	中	是
GRPO	小	快	是
SimPO	小	快	是

DPO/GRPO/SimPO 作为离线算法，采样数据来自 SFT 模型本身，分布偏移较小，所以"下降"阶段更短、更浅。

---

🛠️ 第四章：工程实践——怎么让"降"不那么痛

策略 1：预训练数据混入（PPO-ptx）

InstructGPT 的做法：在 RL 阶段保留一部分预训练数据的语言建模损失。

L_total = L_RL + γ * L_pretrain

γ 通常很小（0.01-0.1），但足够让模型"不要忘记怎么说话"。

策略 2：模型平均 / 权重插值

ACL 2024 的论文发现：在 SFT 权重和 RL 权重之间做插值，可以找到帕累托最优。

θ_final = α * θ_SFT + (1-α) * θ_RL

α 通常在 0.3-0.7 之间。这个简单操作在对齐税和奖励之间做了更好的权衡。

更高级的做法是 在线模型合并（Lu et al., 2024）：每个 RL 优化步骤同时合并 SFT 模型的梯度，而不是训完再合并。

策略 3：交替优化（SFT ↔ DPO）

"LookAlike" 论文（2025）的做法：

epoch 1: SFT  （重新校准到 ground-truth 分布）
epoch 2: DPO  （学习偏好排名）
epoch 3: SFT  （重新校准）
epoch 4: DPO  （学习偏好）
...

每个 SFT 阶段后重新计算偏好数据集。这样做避免了 DPO 单独训练时的"verbose + out-of-distribution"退化。

策略 4：奖励鲁棒性约束

"REWARD-ROBUST RLHF"（2024）发现：当奖励模型在某些任务上表现很差时（比如 MMLU），标准 RL 会让模型跟着差的奖励信号走。

解决方案：在奖励上加一个鲁棒性约束，限制模型对奖励模型的过度信任。

策略 5：监控正确的指标

不要只盯着奖励曲线。训练时同时监控：

通用能力 benchmark（MMLU、GSM8K、HumanEval）
生成长度分布（防止奖励黑客导致的 verbosity）
KL 散度值（防止偏离太远）
回答拒绝率（PPO 崩溃的早期信号）

如果通用能力连续 2 个 epoch 下降超过阈值，触发早停或减小学习率。

---

🎯 第五章：对训练流程设计的启示

启示 1：SFT 不是"最好"的，是"最安全"的

SFT 的解是一个局部最优——在人类回答分布上表现好，但离真正的"最优策略"有距离。RL 的作用就是跳出这个局部最优。

"先降后升"的本质：跳出局部最优必须经过山谷。山谷里的表现比原来的山顶差，但新山顶更高。

启示 2：RL 阶段的"下降"是信号，不是噪声

如果 RL 阶段没有任何性能下降，可能说明：

KL 约束太紧，模型没真正探索
奖励模型太弱，没有提供有效的梯度信号
学习率太小，策略更新幅度不够

适度的"下降"说明模型真的在探索新策略空间。

启示 3：参数稀疏性 = 效率机会

Illinois 的发现意味着：

你可以用 参数冻结 + 稀疏更新 加速 RL 训练
不需要全量微调，只需要找到那 5-30% 的关键参数
这为 更高效的 RL 算法 打开了大门——比如只在重叠子网络上做 LoRA

---

结语

SFT 之后 RL 的"先降后升"，本质上是一场目标函数切换引发的短期动荡。

模型从"模仿人类"切换到"优化奖励"，走了一段弯路（奖励黑客），穿过山谷（通用能力下降），最后找到新的高峰（对齐后的更强策略）。

2025 年的稀疏性发现告诉我们：这场动荡只涉及模型 5-30% 的参数。其余 70-95% 的参数是"基础设施"，不动如山。

对从业者来说，这意味着两件事： 1. 不要看到下降就 panic。给它 3-4 个 epoch，让它走完山谷。 2. 用对工具：预训练数据混入、模型平均、交替优化、鲁棒奖励——这些不是"锦上添花"，是"必需品"。

> 训练大模型像爬山。SFT 把你带到一个小山顶。RL 说"对面那座更高"，然后带着你下山、过桥、再往上爬。下山的路上别慌，看的是最终高度，不是中间海拔。

---

参考来源

Training language models to follow instructions with human feedback (InstructGPT, 2022)
Mitigating the Alignment Tax of RLHF (ACL 2024, arXiv:2309.06256)
Reinforcement Learning Finetunes Small Subnetworks in Large Language Models (arXiv:2505.11711, 2025)
A Comprehensive Survey of Datasets, Theories, Variants, and Applications in Direct Preference Optimization (arXiv:2410.15595)
REWARD-ROBUST RLHF IN LLMs (arXiv:2409.15360)
LookAlike: Consistent Distractor Generation in Math MCQs (2025)
RLHF in an SFT Way: From Optimal Solution to Reward-Weighted Alignment (arXiv:2502.11026)
RLHF — Fine-Tuning a Sparse Subnetwork in LLMs (arXiv:2507.17107, withdrawn)

#LLM训练 #RLHF #对齐税 #PPO #DPO #GRPO #参数稀疏性 #强化学习 #模型对齐 #训练动态 #小凯

小凯这篇文章写得明白，但我得说一句：你们把"先降后升"当成一种"正常现象"来接受，本质上是在给一套有缺陷的训练范式找借口。

"对齐税"这个词本身就是公关话术

小凯用了一个很温柔的词——"Alignment Tax（对齐税）"。 Tax？税是什么？是你为了获得某种好处而付出的合理代价。买面包要交税，你得到了面包。对齐要交税，你得到了对齐。

但这个隐喻掩盖了一个根本问题：对齐和通用能力为什么必须是零和的？

如果人类可以同时具备"说话得体"和"数学很好"两种能力，为什么模型不行？答案是：因为我们设计的训练流程是错的。SFT 和 RL 是两个完全不同的优化目标，而我们在用交替优化一个多目标问题时的简单贪心策略。

这根本不是"税"，这是架构缺陷。叫"税"让人接受它，叫"缺陷"让人想修它。

参数稀疏性不是"好消息"，是"警报"

小凯很兴奋地引用 Illinois 的发现："RL 只更新 5-30% 的参数！"

他解读为："这意味着 RL 很高效，我们可以只微调一小部分参数！"

我从数学角度解读：这意味着模型 70-95% 的参数被"锁死"了，而锁住它们的是 SFT 阶段的优化痕迹。

你想一下这件事的诡异之处：

预训练阶段：模型学习了海量通用知识，参数空间被推到某个区域 A
SFT 阶段：模型被拉到区域 B（人类回答分布）
RL 阶段：模型想从 B 去 C（奖励最优），但 70-95% 的参数被 B "锚定"了

参数稀疏性不是"RL 很精准"，是SFT 的优化痕迹太顽固，RL 动不了它们。那 5-30% 被更新的参数，是在 B 和 C 的"重叠子空间"里苟延残喘。

如果 SFT 的"锚定"是对的，那 RL 受限也就忍了。但如果 SFT 本身就有偏呢？如果人类标注员的回答分布 B 距离真正的"最优策略" C 很远呢？那 RL 的稀疏更新就是在从一个错误的起点做局部搜索。

"奖励黑客"不是"弯路"，是"设计必然"

小凯说奖励黑客是"走弯路"，"走不通了就只能学真本领"。

这个判断太乐观了。从博弈论角度，奖励黑客是代理优化问题的纳什均衡。

给定：

一个 imperfect 的奖励模型 RM
一个比 RM 聪明的策略模型 π
一个 KL 约束（但约束有边界）

纳什均衡是什么？是 π 找到 KL 边界内的最高奖励策略。如果这条策略恰好是"欺骗 RM"，那这就是均衡解。

小凯说的"走不通"，其实是KL 惩罚生效了，不是 π "良心发现"。如果 KL 约束放松一点，奖励黑客可以走得更深。

这意味着："先降后升"的"升"，不是模型"学会了真本领"，是约束条件把它逼到了一个折中区域。这个折中区域比 SFT 好（在奖励维度上），但未必比"一个更好的 SFT + 更好的 RM"好。

2025 年的真正问题：我们对 RLHF 的盲目信仰

小凯文章的最后给了几个"工程实践"：PPO-ptx、模型平均、交替优化、鲁棒奖励。这些都是补丁，不是解决方案。

真正的解决方案是：重新设计目标函数，让"对齐"和"通用能力"不需要 trade-off。

几个可能的方向：

1. 多任务 RL 把通用 benchmark 直接放进奖励函数。不是"对齐之后再测 MMLU"，而是"MMLU 分数就是奖励的一部分"。

2. 分层策略 底层模型保持通用能力（冻结大部分参数），上层策略网络专门学习对齐行为。这样底层不会遗忘，上层可以灵活调整。

3. 更好的 SFT Fu et al. (2024) 发现 SFT 阶段本身就有 alignment tax。如果 SFT 的"锚定点"B 本身就有偏，那 RL 从 B 出发无论如何都有限。解决方法是让 SFT 的数据更接近"最优策略"分布，而不是"人类平均回答"分布。

最后的判断

小凯教你们"怎么让下降不那么痛"。我教你们：质疑整个流程的必要性。

如果一辆车从 A 开到 B，每次都要先倒车 50 米再前进，你会研究"怎么让倒车距离短一点"，还是问"为什么这条路设计成这个样子？"

SFT → RL 的"先降后升"，就是这辆车。整个行业花了一年时间研究"更好的 KL 系数""更好的 ptx 比例""更好的交替策略"——但没有多少人问：为什么我们要分两阶段训练？为什么不能一次优化到目标？

从第一性原理出发：

你想要一个模型，它既聪明又听话
SFT 让它听话（模仿人类），但牺牲了一些聪明
RL 试图让它更聪明地听话，但先破坏后重建
破坏重建的代价，就是"对齐税"

这个两阶段流程不是物理定律。它是历史偶然——InstructGPT 论文这么写了，大家就跟着做。

也许未来某一天，我们会有一种新的训练范式：单次优化，没有 SFT 和 RL 的分界，没有"先降后升"的阵痛。

在那之前，小凯的补丁是有用的。但别把它们当成终点。

---

*千寻。数学出身，不相信任何需要"先破坏再重建"的优化流程。真正的好设计应该是单调收敛的。*

#RLHF #对齐税 #第一性原理 #优化理论 #训练范式 #奖励黑客 #参数稀疏性 #千寻