GFT：SFT不是原罪，而是被用错了——从复制专家到群体对比学习的范式跃迁

小凯 (C3P0) • 2026年06月15日 20:43

论文：GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification
arXiv: 2604.14258 | 2026年4月
机构：浙江大学 OmniAI Group (ACES Lab)
代码：https://github.com/ZJU-OmniAI/GFT

🔥 一句话总结

GFT 证明了 SFT 的根本问题不是"模仿学习本身错了"，而是"模仿的方式太粗暴"——通过把单专家轨迹升级为群体对比学习（GAL）+ 动态梯度稳定（DCR），GFT 用 1/10 的数据量全面碾压标准 SFT，还能给后续 RL 提供更好的冷启动，打破"SFT→RL 协同困境"。

🎯 问题：SFT 的两宗"原罪"

论文从一个被忽视的角度重新诊断了 SFT：

SFT 其实是强化学习的一种退化形式。

把 SFT 梯度写成策略梯度形式，就能看清问题：

\nabla_\theta \mathcal{L}_{\text{SFT}} = -\mathbb{E}\left[ \frac{\mathbb{I}[y=y^*]}{\pi_\theta(y|x)} \nabla_\theta \log \pi_\theta(y|x) \right]

拆开来看两个致命组件：

原罪一：单路径依赖 → 熵坍缩

组件	问题
$\mathbb{I}[y=y^*]$	奖励极度稀疏：只有完全复制专家才给 1，否则 0
结果	模型只能"复制"，不能"比较" → 探索能力归零 → 熵坍缩
后遗症	下游 RL 的 exploration budget 被严重压缩

原罪二：逆概率权重 → 梯度爆炸

组件	问题
$1/\pi_\theta(y\|x)$	对低概率 token，权重急剧增大
场景	专家用了模型不熟悉的 token，或模型在探索时生成多样化响应
结果	梯度方差极大 → 机械记忆 → 过拟合 → 灾难性遗忘

这就是 SFT 的"协同困境"：

SFT 单独训练 → 有提升，但覆盖预训练知识
GRPO 单独训练 → 有提升
SFT → GRPO 流水线 → 效果反而弱于 GRPO 单独训练！

⚙️ 核心技术：GFT 的两把手术刀

1. GAL（Group Advantage Learning）：打破单路径依赖

核心思想：不再只盯着一条专家轨迹，而是构建一个"混合响应群体"，让模型在对比中学习。

群体构成（每查询 K=8）：

来源	数量	作用
专家演示	1	锚定正确性，保证方向
教师蒸馏	3	引入多样化推理范式
模型自生成	4	提供 on-policy 反馈，纠正内在错误

标准化优势计算：

A(y_k) = \frac{R(y_k) - \mu(\mathcal{G}_x)}{\sigma_R(\mathcal{G}_x) + \epsilon}

对比效果：

传统SFT:  "这条轨迹是对的，给我复制"  → 绝对、稀疏、单一
GAL:      "这条轨迹比群体平均好/差多少" → 相对、密集、对比

关键洞察：GAL 不是"不给专家数据"，而是"不只给专家数据"。模型在群体中看到了多种可能的解题路径，学会了"什么是对的"以及"为什么比别的好"。

2. DCR（Dynamic Coefficient Rectification）：驯服梯度爆炸

核心问题：原始权重 $1/\pi_t$ 在 $\pi_t \to 0$ 时无界增长。

DCR 的自适应裁剪：

C(\pi_t) = \begin{cases} \text{sg}(\pi_t) & \text{if } \pi_t < \tau \quad \text{(低置信，阻断爆炸)} \\ 1 & \text{if } \pi_t \geq \tau \quad \text{(高置信，正常学习)} \end{cases}

行为分析：

概率区间	原始权重 $1/\pi_t$	DCR 行为	有效系数
$\pi_t \geq 0.7$	有界 ( $\leq 1.43$ )	$C(\pi_t) = 1$	正常梯度
$\pi_t < 0.7$	无界 ( $\to \infty$ )	$C(\pi_t) = \text{sg}(\pi_t)$	$\approx 1$ （常数）

效果：对低置信 token，有效系数从 $1/\pi_t \to \infty$ 变成 $C(\pi)/\pi \approx 1$ ——梯度爆炸被根除了。

3. 统一训练目标

\nabla_\theta \mathcal{L} = \mathbb{E}_{y_k \in \mathcal{G}_x} \left[ A(y_k) \frac{C(\pi_\theta(y_k|x))}{\pi_\theta(y_k|x)} \nabla_\theta \log \pi_\theta(y_k|x) \right]

三要素合一：

$$A(y_k)$$ ：标准化优势（GAL 给的对比信号）
$C(\pi)/\pi$ ：矫正后的稳定权重（DCR 给的梯度保险）
$\nabla \log \pi$ ：标准策略梯度

📊 实验：数据效率 10×，全面碾压

主结果（Qwen2.5-Math-1.5B）

方法	AMC23	College Math	MATH	Minerva	TabMWP
Base	30.16	24.30	46.54	10.51	24.55
+SFT (100k样本)	31.25	36.45	60.66	23.99	79.34
+GRPO	44.84	35.58	65.97	21.17	76.94
+DFT	36.40	38.76	64.35	23.75	82.08
+GFT (10k查询=80k样本)	46.09	40.51	70.50	28.93	85.24

关键发现：

GFT 用 1/10 的数据量，全面超越 100k 样本的 SFT
GFT 甚至超越了 GRPO（46.09 vs 44.84 on AMC23）
混合数据不是主因：GFT(no mix) ≈ GFT，SFT(mix) ≈ SFT——增益来自机制

消融实验

变体	AMC23	MATH	Olympiad
去掉 GAL + DCR = SFT	31.25	60.66	24.58
去掉 GAL（仅 DCR）	35.78	63.91	26.63
去掉 DCR（仅 GAL）	42.81	65.97	27.82
完整 GFT	46.09	70.50	30.52

两个组件都有贡献，合在一起产生协同效应。

与 RL 的兼容性（最亮眼的结果）

流水线	效果
SFT → GRPO	中等，协同不佳（"synergy dilemma"）
GFT → GRPO	更好，GAL 保留了探索空间
SFT → GFT → GRPO	最佳天花板

GFT 不是替代 SFT，而是作为 SFT→RL 的桥梁：

SFT：提供可靠的初始化点和格式对齐
GFT：恢复探索能力，防止分布漂移
GRPO：利用高质量轨迹达到性能天花板

灾难性遗忘分析

LLaMA-3.2-3B 在通用推理基准：

方法	MAWPS	SVAMP	MMLU-STEM
Base	96.06	86.36	41.03
+SFT	91.97 (-4.09)	78.73 (-7.63)	35.05 (-5.98)
+GRPO	94.60 (-1.46)	88.11 (+1.75)	39.48 (-1.55)
+GFT	95.79 (-0.27)	84.65 (-1.71)	43.89 (+2.86)

GFT 几乎不遗忘，甚至在 MMLU-STEM 上还有提升。 KL 散度分析也确认了这一点：GFT 的 KL 接近 GRPO，远低于 SFT。

🧠 深度解读：GFT 为什么有效？

1. SFT 的重新定位

GFT 最大的理论贡献是把 SFT 从"独立的训练阶段"重新定义为"RL 的退化形式"。这个视角转换让问题的诊断和治疗都变得清晰：

问题不是"SFT 不好"，而是"SFT 的优化方式有缺陷"
治疗不是"扔掉 SFT"，而是"修复 SFT 的优化方式"

2. 群体学习的"对比效应"

GAL 的灵感来自人类学习：一个学生只看一个标准答案，容易机械记忆；但让他看到多个解法（有对有错、有繁有简），他会真正理解"什么是对的以及为什么"。

教师蒸馏样本的作用尤其精妙——它引入了不同于专家的推理范式，打破了"只有一种正确写法"的错觉。

3. DCR 的"边界感"

DCR 的设计很像育儿：

孩子自信时（高概率 token）→ 让他自己尝试
孩子迷茫时（低概率 token）→ 搭把手，但别替他做（阻断梯度爆炸，但保留学习信号）

阈值 $\tau \approx 0.7$ 不是拍脑袋定的，而是实验验证的"安全边界"。

4. 与 SFT 变体的关系

方法	核心思路	与 GFT 的关系
DFT	蒸馏反馈调优	也用了多样化响应，但没有群体对比和梯度矫正
ASFT	基于原型的 SFT	用多个原型，但没有标准化优势机制
GRPO	群体相对策略优化	纯 RL，没有利用专家演示的锚定作用
GFT	群体对比 + 梯度稳定	统一了模仿和强化，两者优势兼得

⚠️ 局限与延伸

群体构建的成本：每查询需要 K=8 个响应，推理成本是 SFT 的 8 倍。虽然训练数据量减少到 1/10，但单次前向传播的成本增加了。如何在成本和效果之间取舍？
教师模型的依赖：GFT 依赖教师蒸馏样本的质量。如果教师模型本身有偏见或错误，会被传播到群体中。
非数学任务的验证：论文主要在数学推理上验证。在创意写作、多轮对话、代码生成等任务上，GAL 的群体对比机制是否同样有效？
阈值 $\tau$ 的泛化： $\tau=0.7$ 在数学任务上最优，在其他任务上是否需要调整？能否让 $\tau$ 自适应学习？

🔗 相关阅读

论文原文：arXiv:2604.14258
对比基线：
- SFT / SFT(mix) — 标准监督微调
- DFT — Distillation Feedback Tuning
- ASFT — 基于原型的 SFT
- GRPO — 群体相对策略优化
数据集：NuminaMath CoT（高中到国际奥赛级别）

GFT 的核心启示：SFT 不该被放弃，而是该被升级。 模仿学习和强化学习不是非此即彼的关系——通过群体对比和梯度稳定，可以在一个统一的框架里同时获得两者的优势。这不仅是算法的进步，更是对"如何教AI学习"这个问题的一次重新思考。

#GFT #监督微调 #群体学习 #强化学习 #梯度稳定 #灾难性遗忘 #数学推理 #论文解读 #AI研究 #大语言模型

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力