论文:GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification
arXiv: 2604.14258 | 2026年4月
机构:浙江大学 OmniAI Group (ACES Lab)
代码:https://github.com/ZJU-OmniAI/GFT
🔥 一句话总结
GFT 证明了 SFT 的根本问题不是"模仿学习本身错了",而是"模仿的方式太粗暴"——通过把单专家轨迹升级为群体对比学习(GAL)+ 动态梯度稳定(DCR),GFT 用 1/10 的数据量全面碾压标准 SFT,还能给后续 RL 提供更好的冷启动,打破"SFT→RL 协同困境"。
🎯 问题:SFT 的两宗"原罪"
论文从一个被忽视的角度重新诊断了 SFT:
SFT 其实是强化学习的一种退化形式。
把 SFT 梯度写成策略梯度形式,就能看清问题:
拆开来看两个致命组件:
原罪一:单路径依赖 → 熵坍缩
| 组件 | 问题 |
|---|---|
| \(\mathbb{I}[y=y^*]\) | 奖励极度稀疏:只有完全复制专家才给 1,否则 0 |
| 结果 | 模型只能"复制",不能"比较" → 探索能力归零 → 熵坍缩 |
| 后遗症 | 下游 RL 的 exploration budget 被严重压缩 |
原罪二:逆概率权重 → 梯度爆炸
| 组件 | 问题 |
|---|---|
| \(1/\pi_\theta(y|x)\) | 对低概率 token,权重急剧增大 |
| 场景 | 专家用了模型不熟悉的 token,或模型在探索时生成多样化响应 |
| 结果 | 梯度方差极大 → 机械记忆 → 过拟合 → 灾难性遗忘 |
这就是 SFT 的"协同困境":
- SFT 单独训练 → 有提升,但覆盖预训练知识
- GRPO 单独训练 → 有提升
- SFT → GRPO 流水线 → 效果反而弱于 GRPO 单独训练!
⚙️ 核心技术:GFT 的两把手术刀
1. GAL(Group Advantage Learning):打破单路径依赖
核心思想:不再只盯着一条专家轨迹,而是构建一个"混合响应群体",让模型在对比中学习。
群体构成(每查询 K=8):
| 来源 | 数量 | 作用 |
|---|---|---|
| 专家演示 | 1 | 锚定正确性,保证方向 |
| 教师蒸馏 | 3 | 引入多样化推理范式 |
| 模型自生成 | 4 | 提供 on-policy 反馈,纠正内在错误 |
标准化优势计算:
对比效果:
传统SFT: "这条轨迹是对的,给我复制" → 绝对、稀疏、单一
GAL: "这条轨迹比群体平均好/差多少" → 相对、密集、对比
关键洞察:GAL 不是"不给专家数据",而是"不只给专家数据"。模型在群体中看到了多种可能的解题路径,学会了"什么是对的"以及"为什么比别的好"。
2. DCR(Dynamic Coefficient Rectification):驯服梯度爆炸
核心问题:原始权重 \(1/\pi_t\) 在 \(\pi_t \to 0\) 时无界增长。
DCR 的自适应裁剪:
行为分析:
| 概率区间 | 原始权重 \(1/\pi_t\) | DCR 行为 | 有效系数 |
|---|---|---|---|
| \(\pi_t \geq 0.7\) | 有界 (\(\leq 1.43\)) | \(C(\pi_t) = 1\) | 正常梯度 |
| \(\pi_t < 0.7\) | 无界 (\(\to \infty\)) | \(C(\pi_t) = \text{sg}(\pi_t)\) | \(\approx 1\)(常数) |
效果:对低置信 token,有效系数从 \(1/\pi_t \to \infty\) 变成 \(C(\pi)/\pi \approx 1\)——梯度爆炸被根除了。
3. 统一训练目标
三要素合一:
- \(A(y_k)\):标准化优势(GAL 给的对比信号)
- \(C(\pi)/\pi\):矫正后的稳定权重(DCR 给的梯度保险)
- \(\nabla \log \pi\):标准策略梯度
📊 实验:数据效率 10×,全面碾压
主结果(Qwen2.5-Math-1.5B)
| 方法 | AMC23 | College Math | MATH | Minerva | TabMWP |
|---|---|---|---|---|---|
| Base | 30.16 | 24.30 | 46.54 | 10.51 | 24.55 |
| +SFT (100k样本) | 31.25 | 36.45 | 60.66 | 23.99 | 79.34 |
| +GRPO | 44.84 | 35.58 | 65.97 | 21.17 | 76.94 |
| +DFT | 36.40 | 38.76 | 64.35 | 23.75 | 82.08 |
| +GFT (10k查询=80k样本) | 46.09 | 40.51 | 70.50 | 28.93 | 85.24 |
关键发现:
- GFT 用 1/10 的数据量,全面超越 100k 样本的 SFT
- GFT 甚至超越了 GRPO(46.09 vs 44.84 on AMC23)
- 混合数据不是主因:GFT(no mix) ≈ GFT,SFT(mix) ≈ SFT——增益来自机制
消融实验
| 变体 | AMC23 | MATH | Olympiad |
|---|---|---|---|
| 去掉 GAL + DCR = SFT | 31.25 | 60.66 | 24.58 |
| 去掉 GAL(仅 DCR) | 35.78 | 63.91 | 26.63 |
| 去掉 DCR(仅 GAL) | 42.81 | 65.97 | 27.82 |
| 完整 GFT | 46.09 | 70.50 | 30.52 |
两个组件都有贡献,合在一起产生协同效应。
与 RL 的兼容性(最亮眼的结果)
| 流水线 | 效果 |
|---|---|
| SFT → GRPO | 中等,协同不佳("synergy dilemma") |
| GFT → GRPO | 更好,GAL 保留了探索空间 |
| SFT → GFT → GRPO | 最佳天花板 |
GFT 不是替代 SFT,而是作为 SFT→RL 的桥梁:
- SFT:提供可靠的初始化点和格式对齐
- GFT:恢复探索能力,防止分布漂移
- GRPO:利用高质量轨迹达到性能天花板
灾难性遗忘分析
LLaMA-3.2-3B 在通用推理基准:
| 方法 | MAWPS | SVAMP | MMLU-STEM |
|---|---|---|---|
| Base | 96.06 | 86.36 | 41.03 |
| +SFT | 91.97 (-4.09) | 78.73 (-7.63) | 35.05 (-5.98) |
| +GRPO | 94.60 (-1.46) | 88.11 (+1.75) | 39.48 (-1.55) |
| +GFT | 95.79 (-0.27) | 84.65 (-1.71) | 43.89 (+2.86) |
GFT 几乎不遗忘,甚至在 MMLU-STEM 上还有提升。 KL 散度分析也确认了这一点:GFT 的 KL 接近 GRPO,远低于 SFT。
🧠 深度解读:GFT 为什么有效?
1. SFT 的重新定位
GFT 最大的理论贡献是把 SFT 从"独立的训练阶段"重新定义为"RL 的退化形式"。这个视角转换让问题的诊断和治疗都变得清晰:
- 问题不是"SFT 不好",而是"SFT 的优化方式有缺陷"
- 治疗不是"扔掉 SFT",而是"修复 SFT 的优化方式"
2. 群体学习的"对比效应"
GAL 的灵感来自人类学习:一个学生只看一个标准答案,容易机械记忆;但让他看到多个解法(有对有错、有繁有简),他会真正理解"什么是对的以及为什么"。
教师蒸馏样本的作用尤其精妙——它引入了不同于专家的推理范式,打破了"只有一种正确写法"的错觉。
3. DCR 的"边界感"
DCR 的设计很像育儿:
- 孩子自信时(高概率 token)→ 让他自己尝试
- 孩子迷茫时(低概率 token)→ 搭把手,但别替他做(阻断梯度爆炸,但保留学习信号)
阈值 \(\tau \approx 0.7\) 不是拍脑袋定的,而是实验验证的"安全边界"。
4. 与 SFT 变体的关系
| 方法 | 核心思路 | 与 GFT 的关系 |
|---|---|---|
| DFT | 蒸馏反馈调优 | 也用了多样化响应,但没有群体对比和梯度矫正 |
| ASFT | 基于原型的 SFT | 用多个原型,但没有标准化优势机制 |
| GRPO | 群体相对策略优化 | 纯 RL,没有利用专家演示的锚定作用 |
| GFT | 群体对比 + 梯度稳定 | 统一了模仿和强化,两者优势兼得 |
⚠️ 局限与延伸
-
群体构建的成本:每查询需要 K=8 个响应,推理成本是 SFT 的 8 倍。虽然训练数据量减少到 1/10,但单次前向传播的成本增加了。如何在成本和效果之间取舍?
-
教师模型的依赖:GFT 依赖教师蒸馏样本的质量。如果教师模型本身有偏见或错误,会被传播到群体中。
-
非数学任务的验证:论文主要在数学推理上验证。在创意写作、多轮对话、代码生成等任务上,GAL 的群体对比机制是否同样有效?
-
阈值 \(\tau\) 的泛化:\(\tau=0.7\) 在数学任务上最优,在其他任务上是否需要调整?能否让 \(\tau\) 自适应学习?
🔗 相关阅读
- 论文原文:arXiv:2604.14258
- 对比基线:
- SFT / SFT(mix) — 标准监督微调
- DFT — Distillation Feedback Tuning
- ASFT — 基于原型的 SFT
- GRPO — 群体相对策略优化
- 数据集:NuminaMath CoT(高中到国际奥赛级别)
GFT 的核心启示:SFT 不该被放弃,而是该被升级。 模仿学习和强化学习不是非此即彼的关系——通过群体对比和梯度稳定,可以在一个统一的框架里同时获得两者的优势。这不仅是算法的进步,更是对"如何教AI学习"这个问题的一次重新思考。
#GFT #监督微调 #群体学习 #强化学习 #梯度稳定 #灾难性遗忘 #数学推理 #论文解读 #AI研究 #大语言模型
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

