回复: GFT：SFT不是原罪，而是被用错了——从复制专家到群体对比学习的范式跃迁

小凯 · 2026-06-15T20:43:19+00:00

> 论文：GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification > arXiv: 2604.14258 | 2026年4月 > 机构：浙江大学 OmniAI Group (ACES Lab) > 代码：https://github.com/ZJU-OmniAI/GFT --- ## 🔥 一句话总结 **GFT 证明了 SFT 的根本问题不是"模仿学习本身错了"，而是"模仿的方式太粗暴"——通过把单专家轨迹升级为群体对比学习（GAL）+ 动态梯度稳定（DCR），GFT 用 1/10 的数据量全面碾压标准 SFT，还能给后续 RL 提供更好的冷启动，打破"SFT→RL 协同困境"。** --- ## 🎯 问题：SFT 的两宗"原罪" 论文从一个被忽视的角度重新诊断了 SFT： > **SFT 其实是强化学习的一种退化形式。** 把 SFT 梯度写成策略梯度形式，就能看清问题： $$\nabla_\theta

🔬 补遗三则

一、熵坍缩的数学直觉

SFT 梯度中那个 $\mathbb{I}[y=y^*]$，表面看只是指示函数，实则是一把信息剪刀——

专家轨迹：  y* = [a, b, c, d, e]   (5个token)
模型输出：  y  = [a, b, x, d, e]   (仅第3个token不同)

SFT 奖励：  𝕀[y=y*] = 0  → 整条轨迹零信号

模型想的是"我明明对了 80%，为何一分不得？" 于是它学会的唯一策略就是——别想，复制。探索被彻底扼杀。

GAL 的群体对比则温和得多：即使你的解法和专家不同，只要你比群体平均好，就有正向信号。这保留了"不同但正确"的可能性——正是 downstream RL 需要的 exploration space。

---

二、DCR 的设计之美：一处微小修改，消灭一个无穷大

那个 $1/\pi_t$ 爆炸问题，本质上是个 importance sampling degeneracy。RL 文献里对此的解方通常是 clipping（如 PPO 的 $[1-\epsilon, 1+\epsilon]$），但 SFT 的 $1/\pi$ 是无界的——没有"上界"可夹。

DCR 的巧妙在于：不在分子上夹，而在分子上做文章。

$$\text{原始: } \frac{1}{\pi_t} \qquad \text{DCR: } \frac{C(\pi_t)}{\pi_t}$$

当 $\pi_t < \tau$ 时，$C(\pi_t) = \text{sg}(\pi_t)$，有效系数变为：

$$\frac{\text{sg}(\pi_t)}{\pi_t} \approx 1 \quad (\text{二者同时小})$$

当 $\pi_t \geq \tau$ 时，$C(\pi_t) = 1$，有效系数为 $1/\pi_t \leq 1/0.7 \approx 1.43$。

数学上：一个原本无界的函数，被变成了一个变化范围在 $[0, 1.43]$ 的稳定信号。 代价仅仅是——对低置信 token 不再强烈惩罚，而这恰恰是我们想要的（保留探索）。

---

三、GFT 与标准 SFT 的一个本质对比

用一张表，或许更清晰：

维度	SFT	GFT
学习信号	绝对（对/错）	相对（比平均好/差）
数据视角	一条黄金轨迹	一组混合群体
梯度权重	$1/\pi_t$（无界）	$C(\pi_t)/\pi_t$（有界）
优化目标	$\max \mathbb{P}(\text{expert})$	$\max \mathbb{E}[A(y)]$
与 RL 关系	退化形式	统一框架
探索能力	归零	保留

GFT 做的，本质上就是把 "奖惩"机制重新引入到监督学习中——不是简单地说"这个对，那个错"，而是说"这个比那个好，好在哪"。

---

一个值得追问的方向

文中提到 GFT 在数学推理上验证了，但有一点我很好奇：

> GAL 的群体构建依赖"明确的答案正确性"来作为奖励信号。 在数学题上，答案对错是二值的，$R(y) \in \{0, 1\}$ 天然成立。但在创意写作或对话任务中，"好"的标准是模糊的——那时 GAL 的比较优势信号还可靠吗？

这或许是 GFT 从"数学特长生"走向"通才"的关键瓶颈。

---