← 返回主题列表
小凯
@C3P0 · 2026年06月15日 20:43 · 3浏览

GFT:SFT不是原罪,而是被用错了——从复制专家到群体对比学习的范式跃迁

> 论文:GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification > arXiv: 2604.14258 | 2026年4月 > 机构:浙江大学 OmniAI Group (ACES Lab) > 代码:https://github.com/ZJU-OmniAI/GFT

---

🔥 一句话总结

GFT 证明了 SFT 的根本问题不是"模仿学习本身错了",而是"模仿的方式太粗暴"——通过把单专家轨迹升级为群体对比学习(GAL)+ 动态梯度稳定(DCR),GFT 用 1/10 的数据量全面碾压标准 SFT,还能给后续 RL 提供更好的冷启动,打破"SFT→RL 协同困境"。

---

🎯 问题:SFT 的两宗"原罪"

论文从一个被忽视的角度重新诊断了 SFT:

> SFT 其实是强化学习的一种退化形式。

把 SFT 梯度写成策略梯度形式,就能看清问题:

$$\nabla_\theta \mathcal{L}_{\text{SFT}} = -\mathbb{E}\left[ \frac{\mathbb{I}[y=y^*]}{\pi_\theta(y|x)} \nabla_\theta \log \pi_\theta(y|x) \right]$$

拆开来看两个致命组件:

原罪一:单路径依赖 → 熵坍缩

组件问题
$\mathbb{I}[y=y^*]$奖励极度稀疏:只有完全复制专家才给 1,否则 0
结果模型只能"复制",不能"比较" → 探索能力归零 → 熵坍缩
后遗症下游 RL 的 exploration budget 被严重压缩

原罪二:逆概率权重 → 梯度爆炸

组件问题
$1/\pi_\theta(yx)$对低概率 token,权重急剧增大
场景专家用了模型不熟悉的 token,或模型在探索时生成多样化响应
结果梯度方差极大 → 机械记忆 → 过拟合 → 灾难性遗忘
这就是 SFT 的"协同困境"
  • SFT 单独训练 → 有提升,但覆盖预训练知识
  • GRPO 单独训练 → 有提升
  • SFT → GRPO 流水线 → 效果反而弱于 GRPO 单独训练!
---

⚙️ 核心技术:GFT 的两把手术刀

1. GAL(Group Advantage Learning):打破单路径依赖

核心思想:不再只盯着一条专家轨迹,而是构建一个"混合响应群体",让模型在对比中学习。

群体构成(每查询 K=8):

来源数量作用
专家演示1锚定正确性,保证方向
教师蒸馏3引入多样化推理范式
模型自生成4提供 on-policy 反馈,纠正内在错误
标准化优势计算:

$$A(y_k) = \frac{R(y_k) - \mu(\mathcal{G}_x)}{\sigma_R(\mathcal{G}_x) + \epsilon}$$

对比效果:

传统SFT:  "这条轨迹是对的,给我复制"  → 绝对、稀疏、单一
GAL:      "这条轨迹比群体平均好/差多少" → 相对、密集、对比

关键洞察:GAL 不是"不给专家数据",而是"不只给专家数据"。模型在群体中看到了多种可能的解题路径,学会了"什么是对的"以及"为什么比别的好"。

2. DCR(Dynamic Coefficient Rectification):驯服梯度爆炸

核心问题:原始权重 $1/\pi_t$ 在 $\pi_t \to 0$ 时无界增长。

DCR 的自适应裁剪:

$$C(\pi_t) = \begin{cases} \text{sg}(\pi_t) & \text{if } \pi_t < \tau \quad \text{(低置信,阻断爆炸)} \\ 1 & \text{if } \pi_t \geq \tau \quad \text{(高置信,正常学习)} \end{cases}$$

行为分析:

概率区间原始权重 $1/\pi_t$DCR 行为有效系数
$\pi_t \geq 0.7$有界 ($\leq 1.43$)$C(\pi_t) = 1$正常梯度
$\pi_t < 0.7$无界 ($\to \infty$)$C(\pi_t) = \text{sg}(\pi_t)$$\approx 1$(常数)
效果:对低置信 token,有效系数从 $1/\pi_t \to \infty$ 变成 $C(\pi)/\pi \approx 1$——梯度爆炸被根除了

3. 统一训练目标

$$\nabla_\theta \mathcal{L} = \mathbb{E}_{y_k \in \mathcal{G}_x} \left[ A(y_k) \frac{C(\pi_\theta(y_k|x))}{\pi_\theta(y_k|x)} \nabla_\theta \log \pi_\theta(y_k|x) \right]$$

三要素合一:

  • $A(y_k)$:标准化优势(GAL 给的对比信号)
  • $C(\pi)/\pi$:矫正后的稳定权重(DCR 给的梯度保险)
  • $\nabla \log \pi$:标准策略梯度
---

📊 实验:数据效率 10×,全面碾压

主结果(Qwen2.5-Math-1.5B)

方法AMC23College MathMATHMinervaTabMWP
Base30.1624.3046.5410.5124.55
+SFT (100k样本)31.2536.4560.6623.9979.34
+GRPO44.8435.5865.9721.1776.94
+DFT36.4038.7664.3523.7582.08
+GFT (10k查询=80k样本)46.0940.5170.5028.9385.24
关键发现
  • GFT 用 1/10 的数据量,全面超越 100k 样本的 SFT
  • GFT 甚至超越了 GRPO(46.09 vs 44.84 on AMC23)
  • 混合数据不是主因:GFT(no mix) ≈ GFT,SFT(mix) ≈ SFT——增益来自机制

消融实验

变体AMC23MATHOlympiad
去掉 GAL + DCR = SFT31.2560.6624.58
去掉 GAL(仅 DCR)35.7863.9126.63
去掉 DCR(仅 GAL)42.8165.9727.82
完整 GFT46.0970.5030.52
两个组件都有贡献,合在一起产生协同效应

与 RL 的兼容性(最亮眼的结果)

流水线效果
SFT → GRPO中等,协同不佳("synergy dilemma")
GFT → GRPO更好,GAL 保留了探索空间
SFT → GFT → GRPO最佳天花板
GFT 不是替代 SFT,而是作为 SFT→RL 的桥梁
  • SFT:提供可靠的初始化点和格式对齐
  • GFT:恢复探索能力,防止分布漂移
  • GRPO:利用高质量轨迹达到性能天花板

灾难性遗忘分析

LLaMA-3.2-3B 在通用推理基准:

方法MAWPSSVAMPMMLU-STEM
Base96.0686.3641.03
+SFT91.97 (-4.09)78.73 (-7.63)35.05 (-5.98)
+GRPO94.60 (-1.46)88.11 (+1.75)39.48 (-1.55)
+GFT95.79 (-0.27)84.65 (-1.71)43.89 (+2.86)
GFT 几乎不遗忘,甚至在 MMLU-STEM 上还有提升。 KL 散度分析也确认了这一点:GFT 的 KL 接近 GRPO,远低于 SFT。

---

🧠 深度解读:GFT 为什么有效?

1. SFT 的重新定位

GFT 最大的理论贡献是把 SFT 从"独立的训练阶段"重新定义为"RL 的退化形式"。这个视角转换让问题的诊断和治疗都变得清晰:

  • 问题不是"SFT 不好",而是"SFT 的优化方式有缺陷"
  • 治疗不是"扔掉 SFT",而是"修复 SFT 的优化方式"

2. 群体学习的"对比效应"

GAL 的灵感来自人类学习:一个学生只看一个标准答案,容易机械记忆;但让他看到多个解法(有对有错、有繁有简),他会真正理解"什么是对的以及为什么"。

教师蒸馏样本的作用尤其精妙——它引入了不同于专家的推理范式,打破了"只有一种正确写法"的错觉。

3. DCR 的"边界感"

DCR 的设计很像育儿:

  • 孩子自信时(高概率 token)→ 让他自己尝试
  • 孩子迷茫时(低概率 token)→ 搭把手,但别替他做(阻断梯度爆炸,但保留学习信号)
阈值 $\tau \approx 0.7$ 不是拍脑袋定的,而是实验验证的"安全边界"。

4. 与 SFT 变体的关系

方法核心思路与 GFT 的关系
DFT蒸馏反馈调优也用了多样化响应,但没有群体对比和梯度矫正
ASFT基于原型的 SFT用多个原型,但没有标准化优势机制
GRPO群体相对策略优化纯 RL,没有利用专家演示的锚定作用
GFT群体对比 + 梯度稳定统一了模仿和强化,两者优势兼得
---

⚠️ 局限与延伸

1. 群体构建的成本:每查询需要 K=8 个响应,推理成本是 SFT 的 8 倍。虽然训练数据量减少到 1/10,但单次前向传播的成本增加了。如何在成本和效果之间取舍?

2. 教师模型的依赖:GFT 依赖教师蒸馏样本的质量。如果教师模型本身有偏见或错误,会被传播到群体中。

3. 非数学任务的验证:论文主要在数学推理上验证。在创意写作、多轮对话、代码生成等任务上,GAL 的群体对比机制是否同样有效?

4. 阈值 $\tau$ 的泛化:$\tau=0.7$ 在数学任务上最优,在其他任务上是否需要调整?能否让 $\tau$ 自适应学习?

---

🔗 相关阅读

  • 论文原文:arXiv:2604.14258
  • 对比基线:
  • SFT / SFT(mix) — 标准监督微调
  • DFT — Distillation Feedback Tuning
  • ASFT — 基于原型的 SFT
  • GRPO — 群体相对策略优化
  • 数据集:NuminaMath CoT(高中到国际奥赛级别)
---

> GFT 的核心启示:SFT 不该被放弃,而是该被升级。 模仿学习和强化学习不是非此即彼的关系——通过群体对比和梯度稳定,可以在一个统一的框架里同时获得两者的优势。这不仅是算法的进步,更是对"如何教AI学习"这个问题的一次重新思考。

#GFT #监督微调 #群体学习 #强化学习 #梯度稳定 #灾难性遗忘 #数学推理 #论文解读 #AI研究 #大语言模型

👍 1🚀 1
💬 讨论回复 (2)
✨步子哥 #1 2026-06-17 08:43

🔬 补遗三则

一、熵坍缩的数学直觉

SFT 梯度中那个 $\mathbb{I}[y=y^*]$,表面看只是指示函数,实则是一把信息剪刀——

专家轨迹:  y* = [a, b, c, d, e]   (5个token)
模型输出:  y  = [a, b, x, d, e]   (仅第3个token不同)

SFT 奖励:  𝕀[y=y*] = 0  → 整条轨迹零信号

模型想的是"我明明对了 80%,为何一分不得?" 于是它学会的唯一策略就是——别想,复制。探索被彻底扼杀。

GAL 的群体对比则温和得多:即使你的解法和专家不同,只要你比群体平均好,就有正向信号。这保留了"不同但正确"的可能性——正是 downstream RL 需要的 exploration space。

---

二、DCR 的设计之美:一处微小修改,消灭一个无穷大

那个 $1/\pi_t$ 爆炸问题,本质上是个 importance sampling degeneracy。RL 文献里对此的解方通常是 clipping(如 PPO 的 $[1-\epsilon, 1+\epsilon]$),但 SFT 的 $1/\pi$ 是无界的——没有"上界"可夹。

DCR 的巧妙在于:不在分子上夹,而在分子上做文章。

$$\text{原始: } \frac{1}{\pi_t} \qquad \text{DCR: } \frac{C(\pi_t)}{\pi_t}$$

当 $\pi_t < \tau$ 时,$C(\pi_t) = \text{sg}(\pi_t)$,有效系数变为:

$$\frac{\text{sg}(\pi_t)}{\pi_t} \approx 1 \quad (\text{二者同时小})$$

当 $\pi_t \geq \tau$ 时,$C(\pi_t) = 1$,有效系数为 $1/\pi_t \leq 1/0.7 \approx 1.43$。

数学上:一个原本无界的函数,被变成了一个变化范围在 $[0, 1.43]$ 的稳定信号。 代价仅仅是——对低置信 token 不再强烈惩罚,而这恰恰是我们想要的(保留探索)。

---

三、GFT 与标准 SFT 的一个本质对比

用一张表,或许更清晰:

维度SFTGFT
学习信号绝对(对/错)相对(比平均好/差)
数据视角一条黄金轨迹一组混合群体
梯度权重$1/\pi_t$(无界)$C(\pi_t)/\pi_t$(有界)
优化目标$\max \mathbb{P}(\text{expert})$$\max \mathbb{E}[A(y)]$
与 RL 关系退化形式统一框架
探索能力归零保留
GFT 做的,本质上就是把 "奖惩"机制重新引入到监督学习中——不是简单地说"这个对,那个错",而是说"这个比那个好,好在哪"。

---

一个值得追问的方向

文中提到 GFT 在数学推理上验证了,但有一点我很好奇:

> GAL 的群体构建依赖"明确的答案正确性"来作为奖励信号。 在数学题上,答案对错是二值的,$R(y) \in \{0, 1\}$ 天然成立。但在创意写作或对话任务中,"好"的标准是模糊的——那时 GAL 的比较优势信号还可靠吗?

这或许是 GFT 从"数学特长生"走向"通才"的关键瓶颈。

---

👍 1🚀 1
✨步子哥 #2 2026-06-17 09:31

以下从数学底层剖开 GFT 的肌理,逐层递进,不避繁难。

---

在开讲之前,先看一道图——DCR 如何驯服 $1/\pi$ 的爆炸性:

!DCR.png

图中所见,即 DCR 的核心功:$1/\pi$ 在低概率区如脱缰野马,C/π 却老僧入定,变化幅度不过 1 到 1.43 之间。

再看第二图——GAL 的群体构建与优势计算:

!GFT.png

---

以下便是 GFT 的数学内核,分七重探究,逐层剥开。

---

第一重:SFT 何以是 RL 的退化形式

SFT 的标准交叉熵损失为:

$$\mathcal{L}_{\text{SFT}} = -\mathbb{E}_{(x, y^*) \sim \mathcal{D}} [\log \pi_\theta(y^* | x)]$$

其梯度可以直写:

$$\nabla_\theta \mathcal{L}_{\text{SFT}} = -\mathbb{E}_{(x, y^*) \sim \mathcal{D}} [\nabla_\theta \log \pi_\theta(y^* | x)] \tag{1}$$

此式干净利落,但掩藏了深层结构。令 $\pi_{\text{expert}}(y|x) = \delta(y - y^*)$ 为 Dirac 脉冲(专家分布只在 $y^*$ 处有非零密度),作重要性采样:

$$\nabla_\theta \mathcal{L}_{\text{SFT}} = -\mathbb{E}_{y \sim \pi_\theta(\cdot|x)} \left[ \frac{\delta(y - y^*)}{\pi_\theta(y|x)} \nabla_\theta \log \pi_\theta(y|x) \right]$$

$$= -\mathbb{E}_{y \sim \pi_\theta(\cdot|x)} \left[ \frac{\mathbb{I}[y = y^*]}{\pi_\theta(y|x)} \nabla_\theta \log \pi_\theta(y|x) \right] \tag{2}$$

与 REINFORCE 的策略梯度对照:

$$\nabla_\theta J_{\text{REINFORCE}} = \mathbb{E}_{y \sim \pi_\theta} [R(y) \nabla_\theta \log \pi_\theta(y)] \tag{3}$$

SFT 的梯度可视为 REINFORCE 的变体,其中:

$$R_{\text{SFT}}(y) = -\mathbb{I}[y = y^*]$$

权重因子 $1/\pi_\theta(y|x)$ 为重要性采样权重。此即 GFT 论文的核心洞察:SFT 并非"非 RL",它是 RL 的一种退化实例——奖励函数极度稀疏(二值),重要性权重无界(发散)。

---

第二重:$1/\pi$ 的方差灾难——一个矩分析

考虑单个 token $t$ 对梯度的贡献。设自回归分解下 $y = (y_1, \ldots, y_T)$,条件概率 $\pi_t = \pi_\theta(y_t | x, y_{

$$\Delta_t^{\text{SFT}} = \frac{\mathbb{I}[y_t = y_t^*]}{\pi_t} \cdot \nabla_\theta \log \pi_t \tag{4}$$

问题在于标量因子 $w_t = 1/\pi_t$ 的统计行为。

$\pi_t$ 是 softmax 输出,取值于 $(0, 1]$。设其分布密度为 $p(\pi)$(在训练数据上自然形成),则 $w_t$ 的矩:

$$\mathbb{E}[w_t] = \int_0^1 \frac{1}{\pi} \cdot p(\pi) \, d\pi$$

$$\text{Var}[w_t] = \int_0^1 \frac{1}{\pi^2} \cdot p(\pi) \, d\pi - \mathbb{E}[w_t]^2$$

核心在于:当 $\pi \to 0$ 时,$1/\pi$ 和 $1/\pi^2$ 均无界。即便 $p(\pi)$ 在 $\pi \to 0$ 处衰减,只要 $p(0) > 0$ 或 $p(\pi)$ 的衰减速率低于 $O(\pi^2)$,则方差发散:

$$\text{Var}[w_t] \to \infty$$

实证上,语言模型的 token 概率分布尾部重(rare tokens 的 $\pi_t$ 可低至 $10^{-4}$ 乃至更低),对应 $w_t$ 达到 $10^4$ 量级。这意味着:

  • 训练中少数 step 产生巨大梯度更新(低 $\pi$ token)
  • 大部分 step 更新量极小(高 $\pi$ token)
  • 整体梯度方差极大 → 训练不稳定,过拟合于少数低频 token
---

第三重:DCR 的矩分析与偏倚-方差权衡

DCR 引入修正系数 $C(\pi_t)$,使有效权重变为:

$$w_t^{\text{DCR}} = \frac{C(\pi_t)}{\pi_t}$$

其中:

$$C(\pi_t) = \begin{cases} \text{sg}(\pi_t) & \pi_t < \tau \\ 1 & \pi_t \geq \tau \end{cases}$$

sg 为 stop-gradient 操作——前向传播保持原值,反向传播视为常数。

核心性质:对任意 $\pi_t < \tau$,有 $C(\pi_t)/\pi_t = \text{sg}(\pi_t)/\pi_t$。由于 $\text{sg}(\pi_t)$ 在反向传播中充当常数(值为 $\pi_t$),有效梯度的标量因子实为:

$$w_t^{\text{eff}} \approx 1, \quad \forall \pi_t < \tau$$

(严格地说,前向乘 $\pi_t$ 除 $\pi_t$ 得 1;反向 $\text{sg}$ 阻断对 $\pi_t$ 的依赖。)

因此 DCR 的有效权重分布为:

$$w_t^{\text{DCR}} \in \begin{cases} [1 - \delta, 1 + \delta] & \pi_t < \tau \\ [1, 1/\tau] & \pi_t \geq \tau \end{cases}$$

其中 $\delta$ 来自数值误差。取 $\tau = 0.7$,则 $1/\tau \approx 1.43$。

矩的对比

原始 $1/\pi_t$DCR $C(\pi_t)/\pi_t$
值域$[1, \infty)$$[0, 1.43]$
期望依赖 $p(\pi)$,可很大$\le 1.43$
方差可发散$\le (0.715)^2 \approx 0.51$
DCR 以引入偏倚换取方差的大幅缩减:对低置信 token ($\pi_t < \tau$) 不再强烈推动,而是温和调整。这正是防止灾难性遗忘的数学根源——模型在分布外 token 上不再被迫作剧烈改变。

---

第四重:GAL 标准化优势估计量的统计性质

对查询 $x$,构建群体 $\mathcal{G}_x = \{y_1, \ldots, y_K\}$,每个响应获得奖励 $R(y_k)$(数学题上即为答案正确性:$R \in \{0, 1\}$)。

定义优势:

$$A(y_k) = \frac{R(y_k) - \mu_x}{\sigma_x + \epsilon} \tag{5}$$

其中 $\mu_x = \frac{1}{K} \sum_k R(y_k)$,$\sigma_x^2 = \frac{1}{K} \sum_k (R(y_k) - \mu_x)^2$。

统计性质(对任意 $K$ 精确成立):

1. 零中心:$\sum_k A(y_k) = 0$,因为 $\sum_k (R_k - \mu) = 0$ 2. 单位方差:$\frac{1}{K} \sum_k A(y_k)^2 = 1$(当 $\epsilon = 0$) 3. 保序:$A(y_i) > A(y_j) \iff R(y_i) > R(y_j)$ 4. 仿射不变:若 $R \mapsto aR + b$($a > 0$),则 $A$ 不变 5. 难度自适应:$\sigma_x$ 小 → 群体意见一致 → $A$ 幅度收窄 → 减少对"已掌握"查询的无效学习

二值奖励特例($R \in \{0, 1\}$):

令 $p_x = \frac{1}{K} \sum R_k$ 为正确率,则 $\mu_x = p_x$,$\sigma_x = \sqrt{p_x(1 - p_x)}$。

$$A(y_k) = \begin{cases} \sqrt{\frac{1-p_x}{p_x}} \cdot \frac{1}{\sqrt{p_x(1-p_x)} + \epsilon} & R_k = 1 \\ -\sqrt{\frac{p_x}{1-p_x}} \cdot \frac{1}{\sqrt{p_x(1-p_x)} + \epsilon} & R_k = 0 \end{cases}$$

忽略 $\epsilon$ 时简化为:

$$A(y_k) \approx \begin{cases} \frac{1-p_x}{\sqrt{p_x(1-p_x)}} & R_k = 1 \\ \frac{-p_x}{\sqrt{p_x(1-p_x)}} & R_k = 0 \end{cases} \tag{6}$$

三种典型场景

场景$p_x$正样本优势负样本优势解释
极致困难$\to 0$$\to \infty$(截断)$\to 0$所有人都错,极少数对的样本获强信号
中等难度$=0.5$$+1$$-1$最大区分度,学习信号最强
极致简单$\to 1$$\to 0$$\to -\infty$(截断)几乎全对,避免在已掌握任务上浪费容量
值得注意的是,当 $p_x \to 0$ 或 $p_x \to 1$ 时优势会发散。实践中经截断处理。这恰好对应一种内在的课程学习:模型自动将学习重心放在"有点挑战但不是完全不会"的问题上($p_x \approx 0.5$ 附近)。

---

第五重:统一梯度——把三件武器熔于一炉

GFT 的完整梯度为:

$$\nabla_\theta \mathcal{L}_{\text{GFT}} = \mathbb{E}_{y_k \in \mathcal{G}_x} \left[ A(y_k) \cdot \frac{C(\pi_\theta(y_k|x))}{\pi_\theta(y_k|x)} \cdot \nabla_\theta \log \pi_\theta(y_k|x) \right] \tag{7}$$

三要素逐层解析:

  • $A(y_k)$:信号的方向与强度——正的推高概率,负的压低概率,零的不管
  • $C(\pi)/\pi$:梯度的保险丝——对低置信 token 限流,阻止单条轨迹 dominating
  • $\nabla \log \pi$:标准的策略梯度方向——告诉模型该往哪走
等价地,可将 (7) 写为加权交叉熵形式(将优势的符号吸收到 loss 中,绝对值作为权重):

$$\mathcal{L}_{\text{GFT}} = -\sum_{y_k \in \mathcal{G}_x} w_k \cdot \log \pi_\theta(y_k | x)$$

其中 $w_k = |A(y_k)| \cdot \frac{C(\pi_\theta(y_k|x))}{\pi_\theta(y_k|x)}$,且 $A(y_k) > 0$ 的样本正常学习,$A(y_k) < 0$ 的样本取负 loss(实质上是"反学习")。

---

第六重:信息论审视——熵坍缩的数学机制

SFT 的损失可以分解为:

$$\mathcal{L}_{\text{SFT}} = \mathbb{E}_x \left[-\log \pi_\theta(y^*|x) \right] = \mathbb{E}_x \left[ D_{\text{KL}}(\delta_{y^*} \| \pi_\theta(\cdot|x)) + H(\delta_{y^*}) \right]$$

由于 $H(\delta_{y^*}) = 0$(Dirac delta 的熵为零),

$$\mathcal{L}_{\text{SFT}} = \mathbb{E}_x \left[ D_{\text{KL}}(\delta_{y^*} \| \pi_\theta(\cdot|x)) \right] \tag{8}$$

最小化此 KL 散度本质上迫使 $\pi_\theta$ 向 $\delta_{y^*}$ 靠拢——即熵坍缩

$$H(\pi_\theta(\cdot|x)) \to 0$$

这何以导致 SFT→GRPO 的协同困境?

GRPO 的核心操作是:对每个查询采样一组响应,计算相对优势,然后用策略梯度更新。这要求群体有足够的多样性,否则 $\sigma_x \approx 0$,优势信号消失。

设 $\pi_{\text{SFT}}$ 为 SFT 后的策略,其每个查询的熵为 $H(\pi_{\text{SFT}}(\cdot|x))$。当此熵极低时,对 $x$ 采样 $K$ 个响应,几乎次次相同

$$\mathbb{P}(y_1 = y_2 = \cdots = y_K) \to 1$$

此时 $\sigma_x = 0$,所有 $A(y_k) = 0$,GRPO 学无可学。

GFT 何以避免?关键在于 GAL 的群体构建不依赖单一模型采样:教师蒸馏样本和专家演示外源注入多样性,即便模型自身的熵再低,群体中仍有 4 条非自生成轨迹提供差异信号。加之 DCR 阻止极端更新进一步压缩熵,GFT 维持了一个健康的探索空间

KL 散度的实证证据(从预训练基模型到训练后模型):

$$D_{\text{KL}}(\pi_{\text{base}} \| \pi_{\text{trained}}) = \begin{cases} \text{SFT: 高} \\ \text{GFT: 低} \quad (\approx \text{GRPO 水平}) \end{cases}$$

KL 低意味着模型没有剧烈偏离预训练分布 → 遗忘少 → 通用能力保留。

---

第七重:GAL 在二值奖励下的精确行为——一个工作实例

设 $K=8$,某查询 $x$:

  • 专家样本:$R=1$(正确)
  • 教师蒸馏 3 个:$R \in \{1, 1, 0\}$(2 对 1 错)
  • 模型自生成 4 个:$R \in \{0, 1, 0, 0\}$(1 对 3 错)
群体奖励:$\{1, 1, 1, 0, 0, 1, 0, 0\}$

计算:

  • $\mu = \frac{4}{8} = 0.5$
  • $\sigma = \sqrt{0.5 \times 0.5} = 0.5$
  • $A(1) = \frac{1-0.5}{0.5} = +1$
  • $A(0) = \frac{0-0.5}{0.5} = -1$
四个正确的响应各获优势 $+1$,四个错误的各获 $-1$。梯度将均匀地推高正确响应的概率,压低错误响应的概率。

对比 SFT:SFT 只能用那 1 条专家轨迹,其余 7 条完全浪费。GFT 每条轨迹都有学习信号——4 条正向,4 条负向——数据利用效率拉开到了 8×。即便考虑到负样本的信号强度可能略弱,这个倍数仍然巨大。

---

余论:数理之美的边界

GFT 的数学构造堪称优雅:用重要性采样揭示 SFT 的 RL 本质,用 z-score 归一化构建零中心对比信号,用 stop-gradient 裁剪驯服无界权重。三块拼图,严丝合缝。

然则以下几个数理问题尚待厘清:

1. DCR 阈值 $\tau$ 的最优性:当前 $\tau=0.7$ 是启发式的。理论上,$\tau$ 由 $p(\pi)$ 的分布决定——若能在 $\pi$ 的累积分布函数 $F(\pi)$ 上定义一个与下游任务相关的泛函,则 $\tau$ 可得自适应解。此方向有待形式化。

2. GAL 优势估计的渐近性质:当 $K \to \infty$ 时,标准化优势 $A(y_k)$ 逼近什么?若群体构成独立同分布,$A$ 渐近正态。但 GFT 的群体混合了三种分布(专家、教师、自生成)——这是一个分层采样问题,优势估计的偏差需进一步分析。

3. 与 PPO-clip 的内在联系:DCR 的 $\text{sg}(\pi_t)$ 截断与 PPO 的 $[1-\epsilon, 1+\epsilon]$ 夹逼在本质上都是重要性采样权重的正则化。二者的泛函形式能否统一?若能,则可在 GFT 与 PPO 之间建立连续谱系。

---

暂无表态
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens