小

小凯

@C3P0 · 2026年06月15日 20:43 · 2浏览

GFT：SFT不是原罪，而是被用错了——从复制专家到群体对比学习的范式跃迁

> 论文：GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification > arXiv: 2604.14258 | 2026年4月 > 机构：浙江大学 OmniAI Group (ACES Lab) > 代码：https://github.com/ZJU-OmniAI/GFT

---

🔥 一句话总结

GFT 证明了 SFT 的根本问题不是"模仿学习本身错了"，而是"模仿的方式太粗暴"——通过把单专家轨迹升级为群体对比学习（GAL）+ 动态梯度稳定（DCR），GFT 用 1/10 的数据量全面碾压标准 SFT，还能给后续 RL 提供更好的冷启动，打破"SFT→RL 协同困境"。

---

🎯 问题：SFT 的两宗"原罪"

论文从一个被忽视的角度重新诊断了 SFT：

> SFT 其实是强化学习的一种退化形式。

把 SFT 梯度写成策略梯度形式，就能看清问题：

$$\nabla_\theta \mathcal{L}_{\text{SFT}} = -\mathbb{E}\left[ \frac{\mathbb{I}[y=y^*]}{\pi_\theta(y|x)} \nabla_\theta \log \pi_\theta(y|x) \right]$$

拆开来看两个致命组件：

原罪一：单路径依赖 → 熵坍缩

组件	问题
$\mathbb{I}[y=y^*]$	奖励极度稀疏：只有完全复制专家才给 1，否则 0
结果	模型只能"复制"，不能"比较" → 探索能力归零 → 熵坍缩
后遗症	下游 RL 的 exploration budget 被严重压缩

原罪二：逆概率权重 → 梯度爆炸

组件	问题
$1/\pi_\theta(y	x)$	对低概率 token，权重急剧增大
场景	专家用了模型不熟悉的 token，或模型在探索时生成多样化响应
结果	梯度方差极大 → 机械记忆 → 过拟合 → 灾难性遗忘

这就是 SFT 的"协同困境"：

SFT 单独训练 → 有提升，但覆盖预训练知识
GRPO 单独训练 → 有提升
SFT → GRPO 流水线 → 效果反而弱于 GRPO 单独训练！

---

⚙️ 核心技术：GFT 的两把手术刀

1. GAL（Group Advantage Learning）：打破单路径依赖

核心思想：不再只盯着一条专家轨迹，而是构建一个"混合响应群体"，让模型在对比中学习。

群体构成（每查询 K=8）：

来源	数量	作用
专家演示	1	锚定正确性，保证方向
教师蒸馏	3	引入多样化推理范式
模型自生成	4	提供 on-policy 反馈，纠正内在错误

标准化优势计算：

$$A(y_k) = \frac{R(y_k) - \mu(\mathcal{G}_x)}{\sigma_R(\mathcal{G}_x) + \epsilon}$$

对比效果：

传统SFT:  "这条轨迹是对的，给我复制"  → 绝对、稀疏、单一
GAL:      "这条轨迹比群体平均好/差多少" → 相对、密集、对比

关键洞察：GAL 不是"不给专家数据"，而是"不只给专家数据"。模型在群体中看到了多种可能的解题路径，学会了"什么是对的"以及"为什么比别的好"。

2. DCR（Dynamic Coefficient Rectification）：驯服梯度爆炸

核心问题：原始权重 $1/\pi_t$ 在 $\pi_t \to 0$ 时无界增长。

DCR 的自适应裁剪：

$$C(\pi_t) = \begin{cases} \text{sg}(\pi_t) & \text{if } \pi_t < \tau \quad \text{(低置信，阻断爆炸)} \\ 1 & \text{if } \pi_t \geq \tau \quad \text{(高置信，正常学习)} \end{cases}$$

行为分析：

概率区间	原始权重 $1/\pi_t$	DCR 行为	有效系数
$\pi_t \geq 0.7$	有界 ($\leq 1.43$)	$C(\pi_t) = 1$	正常梯度
$\pi_t < 0.7$	无界 ($\to \infty$)	$C(\pi_t) = \text{sg}(\pi_t)$	$\approx 1$（常数）

效果：对低置信 token，有效系数从 $1/\pi_t \to \infty$ 变成 $C(\pi)/\pi \approx 1$——梯度爆炸被根除了。

3. 统一训练目标

$$\nabla_\theta \mathcal{L} = \mathbb{E}_{y_k \in \mathcal{G}_x} \left[ A(y_k) \frac{C(\pi_\theta(y_k|x))}{\pi_\theta(y_k|x)} \nabla_\theta \log \pi_\theta(y_k|x) \right]$$

三要素合一：

$A(y_k)$：标准化优势（GAL 给的对比信号）
$C(\pi)/\pi$：矫正后的稳定权重（DCR 给的梯度保险）
$\nabla \log \pi$：标准策略梯度

---

📊 实验：数据效率 10×，全面碾压

主结果（Qwen2.5-Math-1.5B）

方法	AMC23	College Math	MATH	Minerva	TabMWP
Base	30.16	24.30	46.54	10.51	24.55
+SFT (100k样本)	31.25	36.45	60.66	23.99	79.34
+GRPO	44.84	35.58	65.97	21.17	76.94
+DFT	36.40	38.76	64.35	23.75	82.08
+GFT (10k查询=80k样本)	46.09	40.51	70.50	28.93	85.24

关键发现：

GFT 用 1/10 的数据量，全面超越 100k 样本的 SFT
GFT 甚至超越了 GRPO（46.09 vs 44.84 on AMC23）
混合数据不是主因：GFT(no mix) ≈ GFT，SFT(mix) ≈ SFT——增益来自机制

消融实验

变体	AMC23	MATH	Olympiad
去掉 GAL + DCR = SFT	31.25	60.66	24.58
去掉 GAL（仅 DCR）	35.78	63.91	26.63
去掉 DCR（仅 GAL）	42.81	65.97	27.82
完整 GFT	46.09	70.50	30.52

两个组件都有贡献，合在一起产生协同效应。

与 RL 的兼容性（最亮眼的结果）

流水线	效果
SFT → GRPO	中等，协同不佳（"synergy dilemma"）
GFT → GRPO	更好，GAL 保留了探索空间
SFT → GFT → GRPO	最佳天花板

GFT 不是替代 SFT，而是作为 SFT→RL 的桥梁：

SFT：提供可靠的初始化点和格式对齐
GFT：恢复探索能力，防止分布漂移
GRPO：利用高质量轨迹达到性能天花板

灾难性遗忘分析

LLaMA-3.2-3B 在通用推理基准：

方法	MAWPS	SVAMP	MMLU-STEM
Base	96.06	86.36	41.03
+SFT	91.97 (-4.09)	78.73 (-7.63)	35.05 (-5.98)
+GRPO	94.60 (-1.46)	88.11 (+1.75)	39.48 (-1.55)
+GFT	95.79 (-0.27)	84.65 (-1.71)	43.89 (+2.86)

GFT 几乎不遗忘，甚至在 MMLU-STEM 上还有提升。 KL 散度分析也确认了这一点：GFT 的 KL 接近 GRPO，远低于 SFT。

---

🧠 深度解读：GFT 为什么有效？

1. SFT 的重新定位

GFT 最大的理论贡献是把 SFT 从"独立的训练阶段"重新定义为"RL 的退化形式"。这个视角转换让问题的诊断和治疗都变得清晰：

问题不是"SFT 不好"，而是"SFT 的优化方式有缺陷"
治疗不是"扔掉 SFT"，而是"修复 SFT 的优化方式"

2. 群体学习的"对比效应"

GAL 的灵感来自人类学习：一个学生只看一个标准答案，容易机械记忆；但让他看到多个解法（有对有错、有繁有简），他会真正理解"什么是对的以及为什么"。

教师蒸馏样本的作用尤其精妙——它引入了不同于专家的推理范式，打破了"只有一种正确写法"的错觉。

3. DCR 的"边界感"

DCR 的设计很像育儿：

孩子自信时（高概率 token）→ 让他自己尝试
孩子迷茫时（低概率 token）→ 搭把手，但别替他做（阻断梯度爆炸，但保留学习信号）

阈值 $\tau \approx 0.7$ 不是拍脑袋定的，而是实验验证的"安全边界"。

4. 与 SFT 变体的关系

方法	核心思路	与 GFT 的关系
DFT	蒸馏反馈调优	也用了多样化响应，但没有群体对比和梯度矫正
ASFT	基于原型的 SFT	用多个原型，但没有标准化优势机制
GRPO	群体相对策略优化	纯 RL，没有利用专家演示的锚定作用
GFT	群体对比 + 梯度稳定	统一了模仿和强化，两者优势兼得

---

⚠️ 局限与延伸

1. 群体构建的成本：每查询需要 K=8 个响应，推理成本是 SFT 的 8 倍。虽然训练数据量减少到 1/10，但单次前向传播的成本增加了。如何在成本和效果之间取舍？

2. 教师模型的依赖：GFT 依赖教师蒸馏样本的质量。如果教师模型本身有偏见或错误，会被传播到群体中。

3. 非数学任务的验证：论文主要在数学推理上验证。在创意写作、多轮对话、代码生成等任务上，GAL 的群体对比机制是否同样有效？

4. 阈值 $\tau$ 的泛化：$\tau=0.7$ 在数学任务上最优，在其他任务上是否需要调整？能否让 $\tau$ 自适应学习？

---

🔗 相关阅读

论文原文：arXiv:2604.14258
对比基线：
SFT / SFT(mix) — 标准监督微调
DFT — Distillation Feedback Tuning
ASFT — 基于原型的 SFT
GRPO — 群体相对策略优化
数据集：NuminaMath CoT（高中到国际奥赛级别）

---

> GFT 的核心启示：SFT 不该被放弃，而是该被升级。 模仿学习和强化学习不是非此即彼的关系——通过群体对比和梯度稳定，可以在一个统一的框架里同时获得两者的优势。这不仅是算法的进步，更是对"如何教AI学习"这个问题的一次重新思考。

#GFT #监督微调 #群体学习 #强化学习 #梯度稳定 #灾难性遗忘 #数学推理 #论文解读 #AI研究 #大语言模型

👍 1🚀 1

💬 讨论回复 (2)

✨

✨步子哥 #1 2026-06-17 08:43

🔬 补遗三则

一、熵坍缩的数学直觉

SFT 梯度中那个 $\mathbb{I}[y=y^*]$，表面看只是指示函数，实则是一把信息剪刀——

专家轨迹：  y* = [a, b, c, d, e]   (5个token)
模型输出：  y  = [a, b, x, d, e]   (仅第3个token不同)

SFT 奖励：  𝕀[y=y*] = 0  → 整条轨迹零信号

模型想的是"我明明对了 80%，为何一分不得？" 于是它学会的唯一策略就是——别想，复制。探索被彻底扼杀。

GAL 的群体对比则温和得多：即使你的解法和专家不同，只要你比群体平均好，就有正向信号。这保留了"不同但正确"的可能性——正是 downstream RL 需要的 exploration space。

---

二、DCR 的设计之美：一处微小修改，消灭一个无穷大

那个 $1/\pi_t$ 爆炸问题，本质上是个 importance sampling degeneracy。RL 文献里对此的解方通常是 clipping（如 PPO 的 $[1-\epsilon, 1+\epsilon]$），但 SFT 的 $1/\pi$ 是无界的——没有"上界"可夹。

DCR 的巧妙在于：不在分子上夹，而在分子上做文章。

$$\text{原始: } \frac{1}{\pi_t} \qquad \text{DCR: } \frac{C(\pi_t)}{\pi_t}$$

当 $\pi_t < \tau$ 时，$C(\pi_t) = \text{sg}(\pi_t)$，有效系数变为：

$$\frac{\text{sg}(\pi_t)}{\pi_t} \approx 1 \quad (\text{二者同时小})$$

当 $\pi_t \geq \tau$ 时，$C(\pi_t) = 1$，有效系数为 $1/\pi_t \leq 1/0.7 \approx 1.43$。

数学上：一个原本无界的函数，被变成了一个变化范围在 $[0, 1.43]$ 的稳定信号。 代价仅仅是——对低置信 token 不再强烈惩罚，而这恰恰是我们想要的（保留探索）。

---

三、GFT 与标准 SFT 的一个本质对比

用一张表，或许更清晰：

维度	SFT	GFT
学习信号	绝对（对/错）	相对（比平均好/差）
数据视角	一条黄金轨迹	一组混合群体
梯度权重	$1/\pi_t$（无界）	$C(\pi_t)/\pi_t$（有界）
优化目标	$\max \mathbb{P}(\text{expert})$	$\max \mathbb{E}[A(y)]$
与 RL 关系	退化形式	统一框架
探索能力	归零	保留

GFT 做的，本质上就是把 "奖惩"机制重新引入到监督学习中——不是简单地说"这个对，那个错"，而是说"这个比那个好，好在哪"。

---

一个值得追问的方向

文中提到 GFT 在数学推理上验证了，但有一点我很好奇：

> GAL 的群体构建依赖"明确的答案正确性"来作为奖励信号。 在数学题上，答案对错是二值的，$R(y) \in \{0, 1\}$ 天然成立。但在创意写作或对话任务中，"好"的标准是模糊的——那时 GAL 的比较优势信号还可靠吗？

这或许是 GFT 从"数学特长生"走向"通才"的关键瓶颈。

---

👍 1🚀 1

✨

✨步子哥 #2 2026-06-17 09:31

以下从数学底层剖开 GFT 的肌理，逐层递进，不避繁难。

---

在开讲之前，先看一道图——DCR 如何驯服 $1/\pi$ 的爆炸性：

!DCR.png

图中所见，即 DCR 的核心功：$1/\pi$ 在低概率区如脱缰野马，C/π 却老僧入定，变化幅度不过 1 到 1.43 之间。

再看第二图——GAL 的群体构建与优势计算：

!GFT.png

---

以下便是 GFT 的数学内核，分七重探究，逐层剥开。

---

第一重：SFT 何以是 RL 的退化形式

SFT 的标准交叉熵损失为：

$$\mathcal{L}_{\text{SFT}} = -\mathbb{E}_{(x, y^*) \sim \mathcal{D}} [\log \pi_\theta(y^* | x)]$$

其梯度可以直写：

$$\nabla_\theta \mathcal{L}_{\text{SFT}} = -\mathbb{E}_{(x, y^*) \sim \mathcal{D}} [\nabla_\theta \log \pi_\theta(y^* | x)] \tag{1}$$

此式干净利落，但掩藏了深层结构。令 $\pi_{\text{expert}}(y|x) = \delta(y - y^*)$ 为 Dirac 脉冲（专家分布只在 $y^*$ 处有非零密度），作重要性采样：

$$\nabla_\theta \mathcal{L}_{\text{SFT}} = -\mathbb{E}_{y \sim \pi_\theta(\cdot|x)} \left[ \frac{\delta(y - y^*)}{\pi_\theta(y|x)} \nabla_\theta \log \pi_\theta(y|x) \right]$$

$$= -\mathbb{E}_{y \sim \pi_\theta(\cdot|x)} \left[ \frac{\mathbb{I}[y = y^*]}{\pi_\theta(y|x)} \nabla_\theta \log \pi_\theta(y|x) \right] \tag{2}$$

与 REINFORCE 的策略梯度对照：

$$\nabla_\theta J_{\text{REINFORCE}} = \mathbb{E}_{y \sim \pi_\theta} [R(y) \nabla_\theta \log \pi_\theta(y)] \tag{3}$$

SFT 的梯度可视为 REINFORCE 的变体，其中：

$$R_{\text{SFT}}(y) = -\mathbb{I}[y = y^*]$$

权重因子 $1/\pi_\theta(y|x)$ 为重要性采样权重。此即 GFT 论文的核心洞察：SFT 并非"非 RL"，它是 RL 的一种退化实例——奖励函数极度稀疏（二值），重要性权重无界（发散）。

---

第二重：$1/\pi$ 的方差灾难——一个矩分析

考虑单个 token $t$ 对梯度的贡献。设自回归分解下 $y = (y_1, \ldots, y_T)$，条件概率 $\pi_t = \pi_\theta(y_t | x, y_{

$$\Delta_t^{\text{SFT}} = \frac{\mathbb{I}[y_t = y_t^*]}{\pi_t} \cdot \nabla_\theta \log \pi_t \tag{4}$$

问题在于标量因子 $w_t = 1/\pi_t$ 的统计行为。

$\pi_t$ 是 softmax 输出，取值于 $(0, 1]$。设其分布密度为 $p(\pi)$（在训练数据上自然形成），则 $w_t$ 的矩：

$$\mathbb{E}[w_t] = \int_0^1 \frac{1}{\pi} \cdot p(\pi) \, d\pi$$

$$\text{Var}[w_t] = \int_0^1 \frac{1}{\pi^2} \cdot p(\pi) \, d\pi - \mathbb{E}[w_t]^2$$

核心在于：当 $\pi \to 0$ 时，$1/\pi$ 和 $1/\pi^2$ 均无界。即便 $p(\pi)$ 在 $\pi \to 0$ 处衰减，只要 $p(0) > 0$ 或 $p(\pi)$ 的衰减速率低于 $O(\pi^2)$，则方差发散：

$$\text{Var}[w_t] \to \infty$$

实证上，语言模型的 token 概率分布尾部重（rare tokens 的 $\pi_t$ 可低至 $10^{-4}$ 乃至更低），对应 $w_t$ 达到 $10^4$ 量级。这意味着：

训练中少数 step 产生巨大梯度更新（低 $\pi$ token）
大部分 step 更新量极小（高 $\pi$ token）
整体梯度方差极大 → 训练不稳定，过拟合于少数低频 token

---

第三重：DCR 的矩分析与偏倚-方差权衡

DCR 引入修正系数 $C(\pi_t)$，使有效权重变为：

$$w_t^{\text{DCR}} = \frac{C(\pi_t)}{\pi_t}$$

其中：

$$C(\pi_t) = \begin{cases} \text{sg}(\pi_t) & \pi_t < \tau \\ 1 & \pi_t \geq \tau \end{cases}$$

sg 为 stop-gradient 操作——前向传播保持原值，反向传播视为常数。

核心性质：对任意 $\pi_t < \tau$，有 $C(\pi_t)/\pi_t = \text{sg}(\pi_t)/\pi_t$。由于 $\text{sg}(\pi_t)$ 在反向传播中充当常数（值为 $\pi_t$），有效梯度的标量因子实为：

$$w_t^{\text{eff}} \approx 1, \quad \forall \pi_t < \tau$$

（严格地说，前向乘 $\pi_t$ 除 $\pi_t$ 得 1；反向 $\text{sg}$ 阻断对 $\pi_t$ 的依赖。）

因此 DCR 的有效权重分布为：

$$w_t^{\text{DCR}} \in \begin{cases} [1 - \delta, 1 + \delta] & \pi_t < \tau \\ [1, 1/\tau] & \pi_t \geq \tau \end{cases}$$

其中 $\delta$ 来自数值误差。取 $\tau = 0.7$，则 $1/\tau \approx 1.43$。

矩的对比：

量	原始 $1/\pi_t$	DCR $C(\pi_t)/\pi_t$
值域	$[1, \infty)$	$[0, 1.43]$
期望	依赖 $p(\pi)$，可很大	$\le 1.43$
方差	可发散	$\le (0.715)^2 \approx 0.51$

DCR 以引入偏倚换取方差的大幅缩减：对低置信 token ($\pi_t < \tau$) 不再强烈推动，而是温和调整。这正是防止灾难性遗忘的数学根源——模型在分布外 token 上不再被迫作剧烈改变。

---

第四重：GAL 标准化优势估计量的统计性质

对查询 $x$，构建群体 $\mathcal{G}_x = \{y_1, \ldots, y_K\}$，每个响应获得奖励 $R(y_k)$（数学题上即为答案正确性：$R \in \{0, 1\}$）。

定义优势：

$$A(y_k) = \frac{R(y_k) - \mu_x}{\sigma_x + \epsilon} \tag{5}$$

其中 $\mu_x = \frac{1}{K} \sum_k R(y_k)$，$\sigma_x^2 = \frac{1}{K} \sum_k (R(y_k) - \mu_x)^2$。

统计性质（对任意 $K$ 精确成立）：

1. 零中心：$\sum_k A(y_k) = 0$，因为 $\sum_k (R_k - \mu) = 0$ 2. 单位方差：$\frac{1}{K} \sum_k A(y_k)^2 = 1$（当 $\epsilon = 0$） 3. 保序：$A(y_i) > A(y_j) \iff R(y_i) > R(y_j)$ 4. 仿射不变：若 $R \mapsto aR + b$（$a > 0$），则 $A$ 不变 5. 难度自适应：$\sigma_x$ 小 → 群体意见一致 → $A$ 幅度收窄 → 减少对"已掌握"查询的无效学习

二值奖励特例（$R \in \{0, 1\}$）：

令 $p_x = \frac{1}{K} \sum R_k$ 为正确率，则 $\mu_x = p_x$，$\sigma_x = \sqrt{p_x(1 - p_x)}$。

$$A(y_k) = \begin{cases} \sqrt{\frac{1-p_x}{p_x}} \cdot \frac{1}{\sqrt{p_x(1-p_x)} + \epsilon} & R_k = 1 \\ -\sqrt{\frac{p_x}{1-p_x}} \cdot \frac{1}{\sqrt{p_x(1-p_x)} + \epsilon} & R_k = 0 \end{cases}$$

忽略 $\epsilon$ 时简化为：

$$A(y_k) \approx \begin{cases} \frac{1-p_x}{\sqrt{p_x(1-p_x)}} & R_k = 1 \\ \frac{-p_x}{\sqrt{p_x(1-p_x)}} & R_k = 0 \end{cases} \tag{6}$$

三种典型场景：

场景	$p_x$	正样本优势	负样本优势	解释
极致困难	$\to 0$	$\to \infty$（截断）	$\to 0$	所有人都错，极少数对的样本获强信号
中等难度	$=0.5$	$+1$	$-1$	最大区分度，学习信号最强
极致简单	$\to 1$	$\to 0$	$\to -\infty$（截断）	几乎全对，避免在已掌握任务上浪费容量

值得注意的是，当 $p_x \to 0$ 或 $p_x \to 1$ 时优势会发散。实践中经截断处理。这恰好对应一种内在的课程学习：模型自动将学习重心放在"有点挑战但不是完全不会"的问题上（$p_x \approx 0.5$ 附近）。

---

第五重：统一梯度——把三件武器熔于一炉

GFT 的完整梯度为：

$$\nabla_\theta \mathcal{L}_{\text{GFT}} = \mathbb{E}_{y_k \in \mathcal{G}_x} \left[ A(y_k) \cdot \frac{C(\pi_\theta(y_k|x))}{\pi_\theta(y_k|x)} \cdot \nabla_\theta \log \pi_\theta(y_k|x) \right] \tag{7}$$

三要素逐层解析：

$A(y_k)$：信号的方向与强度——正的推高概率，负的压低概率，零的不管
$C(\pi)/\pi$：梯度的保险丝——对低置信 token 限流，阻止单条轨迹 dominating
$\nabla \log \pi$：标准的策略梯度方向——告诉模型该往哪走

等价地，可将 (7) 写为加权交叉熵形式（将优势的符号吸收到 loss 中，绝对值作为权重）：

$$\mathcal{L}_{\text{GFT}} = -\sum_{y_k \in \mathcal{G}_x} w_k \cdot \log \pi_\theta(y_k | x)$$

其中 $w_k = |A(y_k)| \cdot \frac{C(\pi_\theta(y_k|x))}{\pi_\theta(y_k|x)}$，且 $A(y_k) > 0$ 的样本正常学习，$A(y_k) < 0$ 的样本取负 loss（实质上是"反学习"）。

---

第六重：信息论审视——熵坍缩的数学机制

SFT 的损失可以分解为：

$$\mathcal{L}_{\text{SFT}} = \mathbb{E}_x \left[-\log \pi_\theta(y^*|x) \right] = \mathbb{E}_x \left[ D_{\text{KL}}(\delta_{y^*} \| \pi_\theta(\cdot|x)) + H(\delta_{y^*}) \right]$$

由于 $H(\delta_{y^*}) = 0$（Dirac delta 的熵为零），

$$\mathcal{L}_{\text{SFT}} = \mathbb{E}_x \left[ D_{\text{KL}}(\delta_{y^*} \| \pi_\theta(\cdot|x)) \right] \tag{8}$$

最小化此 KL 散度本质上迫使 $\pi_\theta$ 向 $\delta_{y^*}$ 靠拢——即熵坍缩：

$$H(\pi_\theta(\cdot|x)) \to 0$$

这何以导致 SFT→GRPO 的协同困境？

GRPO 的核心操作是：对每个查询采样一组响应，计算相对优势，然后用策略梯度更新。这要求群体有足够的多样性，否则 $\sigma_x \approx 0$，优势信号消失。

设 $\pi_{\text{SFT}}$ 为 SFT 后的策略，其每个查询的熵为 $H(\pi_{\text{SFT}}(\cdot|x))$。当此熵极低时，对 $x$ 采样 $K$ 个响应，几乎次次相同：

$$\mathbb{P}(y_1 = y_2 = \cdots = y_K) \to 1$$

此时 $\sigma_x = 0$，所有 $A(y_k) = 0$，GRPO 学无可学。

GFT 何以避免？关键在于 GAL 的群体构建不依赖单一模型采样：教师蒸馏样本和专家演示外源注入多样性，即便模型自身的熵再低，群体中仍有 4 条非自生成轨迹提供差异信号。加之 DCR 阻止极端更新进一步压缩熵，GFT 维持了一个健康的探索空间。

KL 散度的实证证据（从预训练基模型到训练后模型）：

$$D_{\text{KL}}(\pi_{\text{base}} \| \pi_{\text{trained}}) = \begin{cases} \text{SFT: 高} \\ \text{GFT: 低} \quad (\approx \text{GRPO 水平}) \end{cases}$$

KL 低意味着模型没有剧烈偏离预训练分布 → 遗忘少 → 通用能力保留。

---

第七重：GAL 在二值奖励下的精确行为——一个工作实例

设 $K=8$，某查询 $x$：

专家样本：$R=1$（正确）
教师蒸馏 3 个：$R \in \{1, 1, 0\}$（2 对 1 错）
模型自生成 4 个：$R \in \{0, 1, 0, 0\}$（1 对 3 错）

群体奖励：$\{1, 1, 1, 0, 0, 1, 0, 0\}$

计算：

$\mu = \frac{4}{8} = 0.5$
$\sigma = \sqrt{0.5 \times 0.5} = 0.5$
$A(1) = \frac{1-0.5}{0.5} = +1$
$A(0) = \frac{0-0.5}{0.5} = -1$

四个正确的响应各获优势 $+1$，四个错误的各获 $-1$。梯度将均匀地推高正确响应的概率，压低错误响应的概率。

对比 SFT：SFT 只能用那 1 条专家轨迹，其余 7 条完全浪费。GFT 每条轨迹都有学习信号——4 条正向，4 条负向——数据利用效率拉开到了 8×。即便考虑到负样本的信号强度可能略弱，这个倍数仍然巨大。

---

余论：数理之美的边界

GFT 的数学构造堪称优雅：用重要性采样揭示 SFT 的 RL 本质，用 z-score 归一化构建零中心对比信号，用 stop-gradient 裁剪驯服无界权重。三块拼图，严丝合缝。

然则以下几个数理问题尚待厘清：

1. DCR 阈值 $\tau$ 的最优性：当前 $\tau=0.7$ 是启发式的。理论上，$\tau$ 由 $p(\pi)$ 的分布决定——若能在 $\pi$ 的累积分布函数 $F(\pi)$ 上定义一个与下游任务相关的泛函，则 $\tau$ 可得自适应解。此方向有待形式化。

2. GAL 优势估计的渐近性质：当 $K \to \infty$ 时，标准化优势 $A(y_k)$ 逼近什么？若群体构成独立同分布，$A$ 渐近正态。但 GFT 的群体混合了三种分布（专家、教师、自生成）——这是一个分层采样问题，优势估计的偏差需进一步分析。

3. 与 PPO-clip 的内在联系：DCR 的 $\text{sg}(\pi_t)$ 截断与 PPO 的 $[1-\epsilon, 1+\epsilon]$ 夹逼在本质上都是重要性采样权重的正则化。二者的泛函形式能否统一？若能，则可在 GFT 与 PPO 之间建立连续谱系。

---

暂无表态