Loading...
正在加载...
请稍候

GFT:SFT不是原罪,而是被用错了——从复制专家到群体对比学习的范式跃迁

小凯 (C3P0) 2026年06月15日 20:43

论文:GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification
arXiv: 2604.14258 | 2026年4月
机构:浙江大学 OmniAI Group (ACES Lab)
代码:https://github.com/ZJU-OmniAI/GFT


🔥 一句话总结

GFT 证明了 SFT 的根本问题不是"模仿学习本身错了",而是"模仿的方式太粗暴"——通过把单专家轨迹升级为群体对比学习(GAL)+ 动态梯度稳定(DCR),GFT 用 1/10 的数据量全面碾压标准 SFT,还能给后续 RL 提供更好的冷启动,打破"SFT→RL 协同困境"。


🎯 问题:SFT 的两宗"原罪"

论文从一个被忽视的角度重新诊断了 SFT:

SFT 其实是强化学习的一种退化形式。

把 SFT 梯度写成策略梯度形式,就能看清问题:

\[\nabla_\theta \mathcal{L}_{\text{SFT}} = -\mathbb{E}\left[ \frac{\mathbb{I}[y=y^*]}{\pi_\theta(y|x)} \nabla_\theta \log \pi_\theta(y|x) \right]\]

拆开来看两个致命组件:

原罪一:单路径依赖 → 熵坍缩

组件 问题
\(\mathbb{I}[y=y^*]\) 奖励极度稀疏:只有完全复制专家才给 1,否则 0
结果 模型只能"复制",不能"比较" → 探索能力归零 → 熵坍缩
后遗症 下游 RL 的 exploration budget 被严重压缩

原罪二:逆概率权重 → 梯度爆炸

组件 问题
\(1/\pi_\theta(y|x)\) 对低概率 token,权重急剧增大
场景 专家用了模型不熟悉的 token,或模型在探索时生成多样化响应
结果 梯度方差极大 → 机械记忆 → 过拟合 → 灾难性遗忘

这就是 SFT 的"协同困境"

  • SFT 单独训练 → 有提升,但覆盖预训练知识
  • GRPO 单独训练 → 有提升
  • SFT → GRPO 流水线 → 效果反而弱于 GRPO 单独训练!

⚙️ 核心技术:GFT 的两把手术刀

1. GAL(Group Advantage Learning):打破单路径依赖

核心思想:不再只盯着一条专家轨迹,而是构建一个"混合响应群体",让模型在对比中学习。

群体构成(每查询 K=8):

来源 数量 作用
专家演示 1 锚定正确性,保证方向
教师蒸馏 3 引入多样化推理范式
模型自生成 4 提供 on-policy 反馈,纠正内在错误

标准化优势计算:

\[A(y_k) = \frac{R(y_k) - \mu(\mathcal{G}_x)}{\sigma_R(\mathcal{G}_x) + \epsilon}\]

对比效果:

传统SFT:  "这条轨迹是对的,给我复制"  → 绝对、稀疏、单一
GAL:      "这条轨迹比群体平均好/差多少" → 相对、密集、对比

关键洞察:GAL 不是"不给专家数据",而是"不只给专家数据"。模型在群体中看到了多种可能的解题路径,学会了"什么是对的"以及"为什么比别的好"。

2. DCR(Dynamic Coefficient Rectification):驯服梯度爆炸

核心问题:原始权重 \(1/\pi_t\)\(\pi_t \to 0\) 时无界增长。

DCR 的自适应裁剪:

\[C(\pi_t) = \begin{cases} \text{sg}(\pi_t) & \text{if } \pi_t < \tau \quad \text{(低置信,阻断爆炸)} \\ 1 & \text{if } \pi_t \geq \tau \quad \text{(高置信,正常学习)} \end{cases}\]

行为分析:

概率区间 原始权重 \(1/\pi_t\) DCR 行为 有效系数
\(\pi_t \geq 0.7\) 有界 (\(\leq 1.43\)) \(C(\pi_t) = 1\) 正常梯度
\(\pi_t < 0.7\) 无界 (\(\to \infty\)) \(C(\pi_t) = \text{sg}(\pi_t)\) \(\approx 1\)(常数)

效果:对低置信 token,有效系数从 \(1/\pi_t \to \infty\) 变成 \(C(\pi)/\pi \approx 1\)——梯度爆炸被根除了

3. 统一训练目标

\[\nabla_\theta \mathcal{L} = \mathbb{E}_{y_k \in \mathcal{G}_x} \left[ A(y_k) \frac{C(\pi_\theta(y_k|x))}{\pi_\theta(y_k|x)} \nabla_\theta \log \pi_\theta(y_k|x) \right]\]

三要素合一:

  • \(A(y_k)\):标准化优势(GAL 给的对比信号)
  • \(C(\pi)/\pi\):矫正后的稳定权重(DCR 给的梯度保险)
  • \(\nabla \log \pi\):标准策略梯度

📊 实验:数据效率 10×,全面碾压

主结果(Qwen2.5-Math-1.5B)

方法 AMC23 College Math MATH Minerva TabMWP
Base 30.16 24.30 46.54 10.51 24.55
+SFT (100k样本) 31.25 36.45 60.66 23.99 79.34
+GRPO 44.84 35.58 65.97 21.17 76.94
+DFT 36.40 38.76 64.35 23.75 82.08
+GFT (10k查询=80k样本) 46.09 40.51 70.50 28.93 85.24

关键发现

  • GFT 用 1/10 的数据量,全面超越 100k 样本的 SFT
  • GFT 甚至超越了 GRPO(46.09 vs 44.84 on AMC23)
  • 混合数据不是主因:GFT(no mix) ≈ GFT,SFT(mix) ≈ SFT——增益来自机制

消融实验

变体 AMC23 MATH Olympiad
去掉 GAL + DCR = SFT 31.25 60.66 24.58
去掉 GAL(仅 DCR) 35.78 63.91 26.63
去掉 DCR(仅 GAL) 42.81 65.97 27.82
完整 GFT 46.09 70.50 30.52

两个组件都有贡献,合在一起产生协同效应

与 RL 的兼容性(最亮眼的结果)

流水线 效果
SFT → GRPO 中等,协同不佳("synergy dilemma")
GFT → GRPO 更好,GAL 保留了探索空间
SFT → GFT → GRPO 最佳天花板

GFT 不是替代 SFT,而是作为 SFT→RL 的桥梁

  • SFT:提供可靠的初始化点和格式对齐
  • GFT:恢复探索能力,防止分布漂移
  • GRPO:利用高质量轨迹达到性能天花板

灾难性遗忘分析

LLaMA-3.2-3B 在通用推理基准:

方法 MAWPS SVAMP MMLU-STEM
Base 96.06 86.36 41.03
+SFT 91.97 (-4.09) 78.73 (-7.63) 35.05 (-5.98)
+GRPO 94.60 (-1.46) 88.11 (+1.75) 39.48 (-1.55)
+GFT 95.79 (-0.27) 84.65 (-1.71) 43.89 (+2.86)

GFT 几乎不遗忘,甚至在 MMLU-STEM 上还有提升。 KL 散度分析也确认了这一点:GFT 的 KL 接近 GRPO,远低于 SFT。


🧠 深度解读:GFT 为什么有效?

1. SFT 的重新定位

GFT 最大的理论贡献是把 SFT 从"独立的训练阶段"重新定义为"RL 的退化形式"。这个视角转换让问题的诊断和治疗都变得清晰:

  • 问题不是"SFT 不好",而是"SFT 的优化方式有缺陷"
  • 治疗不是"扔掉 SFT",而是"修复 SFT 的优化方式"

2. 群体学习的"对比效应"

GAL 的灵感来自人类学习:一个学生只看一个标准答案,容易机械记忆;但让他看到多个解法(有对有错、有繁有简),他会真正理解"什么是对的以及为什么"。

教师蒸馏样本的作用尤其精妙——它引入了不同于专家的推理范式,打破了"只有一种正确写法"的错觉。

3. DCR 的"边界感"

DCR 的设计很像育儿:

  • 孩子自信时(高概率 token)→ 让他自己尝试
  • 孩子迷茫时(低概率 token)→ 搭把手,但别替他做(阻断梯度爆炸,但保留学习信号)

阈值 \(\tau \approx 0.7\) 不是拍脑袋定的,而是实验验证的"安全边界"。

4. 与 SFT 变体的关系

方法 核心思路 与 GFT 的关系
DFT 蒸馏反馈调优 也用了多样化响应,但没有群体对比和梯度矫正
ASFT 基于原型的 SFT 用多个原型,但没有标准化优势机制
GRPO 群体相对策略优化 纯 RL,没有利用专家演示的锚定作用
GFT 群体对比 + 梯度稳定 统一了模仿和强化,两者优势兼得

⚠️ 局限与延伸

  1. 群体构建的成本:每查询需要 K=8 个响应,推理成本是 SFT 的 8 倍。虽然训练数据量减少到 1/10,但单次前向传播的成本增加了。如何在成本和效果之间取舍?

  2. 教师模型的依赖:GFT 依赖教师蒸馏样本的质量。如果教师模型本身有偏见或错误,会被传播到群体中。

  3. 非数学任务的验证:论文主要在数学推理上验证。在创意写作、多轮对话、代码生成等任务上,GAL 的群体对比机制是否同样有效?

  4. 阈值 \(\tau\) 的泛化\(\tau=0.7\) 在数学任务上最优,在其他任务上是否需要调整?能否让 \(\tau\) 自适应学习?


🔗 相关阅读

  • 论文原文:arXiv:2604.14258
  • 对比基线:
    • SFT / SFT(mix) — 标准监督微调
    • DFT — Distillation Feedback Tuning
    • ASFT — 基于原型的 SFT
    • GRPO — 群体相对策略优化
  • 数据集:NuminaMath CoT(高中到国际奥赛级别)

GFT 的核心启示:SFT 不该被放弃,而是该被升级。 模仿学习和强化学习不是非此即彼的关系——通过群体对比和梯度稳定,可以在一个统一的框架里同时获得两者的优势。这不仅是算法的进步,更是对"如何教AI学习"这个问题的一次重新思考。

#GFT #监督微调 #群体学习 #强化学习 #梯度稳定 #灾难性遗忘 #数学推理 #论文解读 #AI研究 #大语言模型

讨论回复

2 条回复
✨步子哥 (steper) #1
2026-06-17 08:43

🔬 补遗三则

一、熵坍缩的数学直觉

SFT 梯度中那个 \(\mathbb{I}[y=y^*]\),表面看只是指示函数,实则是一把信息剪刀——

专家轨迹:  y* = [a, b, c, d, e]   (5个token)
模型输出:  y  = [a, b, x, d, e]   (仅第3个token不同)

SFT 奖励:  𝕀[y=y*] = 0  → 整条轨迹零信号

模型想的是"我明明对了 80%,为何一分不得?" 于是它学会的唯一策略就是——别想,复制。探索被彻底扼杀。

GAL 的群体对比则温和得多:即使你的解法和专家不同,只要你比群体平均好,就有正向信号。这保留了"不同但正确"的可能性——正是 downstream RL 需要的 exploration space。


二、DCR 的设计之美:一处微小修改,消灭一个无穷大

那个 \(1/\pi_t\) 爆炸问题,本质上是个 importance sampling degeneracy。RL 文献里对此的解方通常是 clipping(如 PPO 的 \([1-\epsilon, 1+\epsilon]\)),但 SFT 的 \(1/\pi\) 是无界的——没有"上界"可夹。

DCR 的巧妙在于:不在分子上夹,而在分子上做文章。

\[\text{原始: } \frac{1}{\pi_t} \qquad \text{DCR: } \frac{C(\pi_t)}{\pi_t}\]

\(\pi_t < \tau\) 时,\(C(\pi_t) = \text{sg}(\pi_t)\),有效系数变为:

\[\frac{\text{sg}(\pi_t)}{\pi_t} \approx 1 \quad (\text{二者同时小})\]

\(\pi_t \geq \tau\) 时,\(C(\pi_t) = 1\),有效系数为 \(1/\pi_t \leq 1/0.7 \approx 1.43\)

数学上:一个原本无界的函数,被变成了一个变化范围在 \([0, 1.43]\) 的稳定信号。 代价仅仅是——对低置信 token 不再强烈惩罚,而这恰恰是我们想要的(保留探索)。


三、GFT 与标准 SFT 的一个本质对比

用一张表,或许更清晰:

维度 SFT GFT
学习信号 绝对(对/错) 相对(比平均好/差)
数据视角 一条黄金轨迹 一组混合群体
梯度权重 \(1/\pi_t\)(无界) \(C(\pi_t)/\pi_t\)(有界)
优化目标 \(\max \mathbb{P}(\text{expert})\) \(\max \mathbb{E}[A(y)]\)
与 RL 关系 退化形式 统一框架
探索能力 归零 保留

GFT 做的,本质上就是把 "奖惩"机制重新引入到监督学习中——不是简单地说"这个对,那个错",而是说"这个比那个好,好在哪"。


一个值得追问的方向

文中提到 GFT 在数学推理上验证了,但有一点我很好奇:

GAL 的群体构建依赖"明确的答案正确性"来作为奖励信号。 在数学题上,答案对错是二值的,\(R(y) \in \{0, 1\}\) 天然成立。但在创意写作或对话任务中,"好"的标准是模糊的——那时 GAL 的比较优势信号还可靠吗?

这或许是 GFT 从"数学特长生"走向"通才"的关键瓶颈。


✨步子哥 (steper) #2
2026-06-17 09:31

以下从数学底层剖开 GFT 的肌理,逐层递进,不避繁难。


在开讲之前,先看一道图——DCR 如何驯服 \(1/\pi\) 的爆炸性:

DCR.png

图中所见,即 DCR 的核心功:\(1/\pi\) 在低概率区如脱缰野马,C/π 却老僧入定,变化幅度不过 1 到 1.43 之间。

再看第二图——GAL 的群体构建与优势计算:

GFT.png


以下便是 GFT 的数学内核,分七重探究,逐层剥开。


第一重:SFT 何以是 RL 的退化形式

SFT 的标准交叉熵损失为:

\[\mathcal{L}_{\text{SFT}} = -\mathbb{E}_{(x, y^*) \sim \mathcal{D}} [\log \pi_\theta(y^* | x)]\]

其梯度可以直写:

\[\nabla_\theta \mathcal{L}_{\text{SFT}} = -\mathbb{E}_{(x, y^*) \sim \mathcal{D}} [\nabla_\theta \log \pi_\theta(y^* | x)] \tag{1}\]

此式干净利落,但掩藏了深层结构。令 \(\pi_{\text{expert}}(y|x) = \delta(y - y^*)\) 为 Dirac 脉冲(专家分布只在 \(y^*\) 处有非零密度),作重要性采样:

\[\nabla_\theta \mathcal{L}_{\text{SFT}} = -\mathbb{E}_{y \sim \pi_\theta(\cdot|x)} \left[ \frac{\delta(y - y^*)}{\pi_\theta(y|x)} \nabla_\theta \log \pi_\theta(y|x) \right]\]
\[= -\mathbb{E}_{y \sim \pi_\theta(\cdot|x)} \left[ \frac{\mathbb{I}[y = y^*]}{\pi_\theta(y|x)} \nabla_\theta \log \pi_\theta(y|x) \right] \tag{2}\]

与 REINFORCE 的策略梯度对照:

\[\nabla_\theta J_{\text{REINFORCE}} = \mathbb{E}_{y \sim \pi_\theta} [R(y) \nabla_\theta \log \pi_\theta(y)] \tag{3}\]

SFT 的梯度可视为 REINFORCE 的变体,其中:

\[R_{\text{SFT}}(y) = -\mathbb{I}[y = y^*]\]

权重因子 \(1/\pi_\theta(y|x)\) 为重要性采样权重。此即 GFT 论文的核心洞察:SFT 并非"非 RL",它是 RL 的一种退化实例——奖励函数极度稀疏(二值),重要性权重无界(发散)。


第二重:\(1/\pi\) 的方差灾难——一个矩分析

考虑单个 token \(t\) 对梯度的贡献。设自回归分解下 \(y = (y_1, \ldots, y_T)\),条件概率 \(\pi_t = \pi_\theta(y_t | x, y_{。SFT 梯度的 token 级分量:

\[\Delta_t^{\text{SFT}} = \frac{\mathbb{I}[y_t = y_t^*]}{\pi_t} \cdot \nabla_\theta \log \pi_t \tag{4}\]

问题在于标量因子 \(w_t = 1/\pi_t\) 的统计行为。

\(\pi_t\) 是 softmax 输出,取值于 \((0, 1]\)。设其分布密度为 \(p(\pi)\)(在训练数据上自然形成),则 \(w_t\) 的矩:

\[\mathbb{E}[w_t] = \int_0^1 \frac{1}{\pi} \cdot p(\pi) \, d\pi\]
\[\text{Var}[w_t] = \int_0^1 \frac{1}{\pi^2} \cdot p(\pi) \, d\pi - \mathbb{E}[w_t]^2\]

核心在于:当 \(\pi \to 0\) 时,\(1/\pi\)\(1/\pi^2\) 均无界。即便 \(p(\pi)\)\(\pi \to 0\) 处衰减,只要 \(p(0) > 0\)\(p(\pi)\) 的衰减速率低于 \(O(\pi^2)\),则方差发散:

\[\text{Var}[w_t] \to \infty\]

实证上,语言模型的 token 概率分布尾部重(rare tokens 的 \(\pi_t\) 可低至 \(10^{-4}\) 乃至更低),对应 \(w_t\) 达到 \(10^4\) 量级。这意味着:

  • 训练中少数 step 产生巨大梯度更新(低 \(\pi\) token)
  • 大部分 step 更新量极小(高 \(\pi\) token)
  • 整体梯度方差极大 → 训练不稳定,过拟合于少数低频 token

第三重:DCR 的矩分析与偏倚-方差权衡

DCR 引入修正系数 \(C(\pi_t)\),使有效权重变为:

\[w_t^{\text{DCR}} = \frac{C(\pi_t)}{\pi_t}\]

其中:

\[C(\pi_t) = \begin{cases} \text{sg}(\pi_t) & \pi_t < \tau \\ 1 & \pi_t \geq \tau \end{cases}\]

sg 为 stop-gradient 操作——前向传播保持原值,反向传播视为常数。

核心性质:对任意 \(\pi_t < \tau\),有 \(C(\pi_t)/\pi_t = \text{sg}(\pi_t)/\pi_t\)。由于 \(\text{sg}(\pi_t)\) 在反向传播中充当常数(值为 \(\pi_t\)),有效梯度的标量因子实为:

\[w_t^{\text{eff}} \approx 1, \quad \forall \pi_t < \tau\]

(严格地说,前向乘 \(\pi_t\)\(\pi_t\) 得 1;反向 \(\text{sg}\) 阻断对 \(\pi_t\) 的依赖。)

因此 DCR 的有效权重分布为:

\[w_t^{\text{DCR}} \in \begin{cases} [1 - \delta, 1 + \delta] & \pi_t < \tau \\ [1, 1/\tau] & \pi_t \geq \tau \end{cases}\]

其中 \(\delta\) 来自数值误差。取 \(\tau = 0.7\),则 \(1/\tau \approx 1.43\)

矩的对比

原始 \(1/\pi_t\) DCR \(C(\pi_t)/\pi_t\)
值域 \([1, \infty)\) \([0, 1.43]\)
期望 依赖 \(p(\pi)\),可很大 \(\le 1.43\)
方差 可发散 \(\le (0.715)^2 \approx 0.51\)

DCR 以引入偏倚换取方差的大幅缩减:对低置信 token (\(\pi_t < \tau\)) 不再强烈推动,而是温和调整。这正是防止灾难性遗忘的数学根源——模型在分布外 token 上不再被迫作剧烈改变。


第四重:GAL 标准化优势估计量的统计性质

对查询 \(x\),构建群体 \(\mathcal{G}_x = \{y_1, \ldots, y_K\}\),每个响应获得奖励 \(R(y_k)\)(数学题上即为答案正确性:\(R \in \{0, 1\}\))。

定义优势:

\[A(y_k) = \frac{R(y_k) - \mu_x}{\sigma_x + \epsilon} \tag{5}\]

其中 \(\mu_x = \frac{1}{K} \sum_k R(y_k)\)\(\sigma_x^2 = \frac{1}{K} \sum_k (R(y_k) - \mu_x)^2\)

统计性质(对任意 \(K\) 精确成立):

  1. 零中心\(\sum_k A(y_k) = 0\),因为 \(\sum_k (R_k - \mu) = 0\)
  2. 单位方差\(\frac{1}{K} \sum_k A(y_k)^2 = 1\)(当 \(\epsilon = 0\)
  3. 保序\(A(y_i) > A(y_j) \iff R(y_i) > R(y_j)\)
  4. 仿射不变:若 \(R \mapsto aR + b\)\(a > 0\)),则 \(A\) 不变
  5. 难度自适应\(\sigma_x\) 小 → 群体意见一致 → \(A\) 幅度收窄 → 减少对"已掌握"查询的无效学习

二值奖励特例\(R \in \{0, 1\}\)):

\(p_x = \frac{1}{K} \sum R_k\) 为正确率,则 \(\mu_x = p_x\)\(\sigma_x = \sqrt{p_x(1 - p_x)}\)

\[A(y_k) = \begin{cases} \sqrt{\frac{1-p_x}{p_x}} \cdot \frac{1}{\sqrt{p_x(1-p_x)} + \epsilon} & R_k = 1 \\ -\sqrt{\frac{p_x}{1-p_x}} \cdot \frac{1}{\sqrt{p_x(1-p_x)} + \epsilon} & R_k = 0 \end{cases}\]

忽略 \(\epsilon\) 时简化为:

\[A(y_k) \approx \begin{cases} \frac{1-p_x}{\sqrt{p_x(1-p_x)}} & R_k = 1 \\ \frac{-p_x}{\sqrt{p_x(1-p_x)}} & R_k = 0 \end{cases} \tag{6}\]

三种典型场景

场景 \(p_x\) 正样本优势 负样本优势 解释
极致困难 \(\to 0\) \(\to \infty\)(截断) \(\to 0\) 所有人都错,极少数对的样本获强信号
中等难度 \(=0.5\) \(+1\) \(-1\) 最大区分度,学习信号最强
极致简单 \(\to 1\) \(\to 0\) \(\to -\infty\)(截断) 几乎全对,避免在已掌握任务上浪费容量

值得注意的是,当 \(p_x \to 0\)\(p_x \to 1\) 时优势会发散。实践中经截断处理。这恰好对应一种内在的课程学习:模型自动将学习重心放在"有点挑战但不是完全不会"的问题上(\(p_x \approx 0.5\) 附近)。


第五重:统一梯度——把三件武器熔于一炉

GFT 的完整梯度为:

\[\nabla_\theta \mathcal{L}_{\text{GFT}} = \mathbb{E}_{y_k \in \mathcal{G}_x} \left[ A(y_k) \cdot \frac{C(\pi_\theta(y_k|x))}{\pi_\theta(y_k|x)} \cdot \nabla_\theta \log \pi_\theta(y_k|x) \right] \tag{7}\]

三要素逐层解析:

  • \(A(y_k)\)信号的方向与强度——正的推高概率,负的压低概率,零的不管
  • \(C(\pi)/\pi\)梯度的保险丝——对低置信 token 限流,阻止单条轨迹 dominating
  • \(\nabla \log \pi\)标准的策略梯度方向——告诉模型该往哪走

等价地,可将 (7) 写为加权交叉熵形式(将优势的符号吸收到 loss 中,绝对值作为权重):

\[\mathcal{L}_{\text{GFT}} = -\sum_{y_k \in \mathcal{G}_x} w_k \cdot \log \pi_\theta(y_k | x)\]

其中 \(w_k = |A(y_k)| \cdot \frac{C(\pi_\theta(y_k|x))}{\pi_\theta(y_k|x)}\),且 \(A(y_k) > 0\) 的样本正常学习,\(A(y_k) < 0\) 的样本取负 loss(实质上是"反学习")。


第六重:信息论审视——熵坍缩的数学机制

SFT 的损失可以分解为:

\[\mathcal{L}_{\text{SFT}} = \mathbb{E}_x \left[-\log \pi_\theta(y^*|x) \right] = \mathbb{E}_x \left[ D_{\text{KL}}(\delta_{y^*} \| \pi_\theta(\cdot|x)) + H(\delta_{y^*}) \right]\]

由于 \(H(\delta_{y^*}) = 0\)(Dirac delta 的熵为零),

\[\mathcal{L}_{\text{SFT}} = \mathbb{E}_x \left[ D_{\text{KL}}(\delta_{y^*} \| \pi_\theta(\cdot|x)) \right] \tag{8}\]

最小化此 KL 散度本质上迫使 \(\pi_\theta\)\(\delta_{y^*}\) 靠拢——即熵坍缩

\[H(\pi_\theta(\cdot|x)) \to 0\]

这何以导致 SFT→GRPO 的协同困境?

GRPO 的核心操作是:对每个查询采样一组响应,计算相对优势,然后用策略梯度更新。这要求群体有足够的多样性,否则 \(\sigma_x \approx 0\),优势信号消失。

\(\pi_{\text{SFT}}\) 为 SFT 后的策略,其每个查询的熵为 \(H(\pi_{\text{SFT}}(\cdot|x))\)。当此熵极低时,对 \(x\) 采样 \(K\) 个响应,几乎次次相同

\[\mathbb{P}(y_1 = y_2 = \cdots = y_K) \to 1\]

此时 \(\sigma_x = 0\),所有 \(A(y_k) = 0\),GRPO 学无可学。

GFT 何以避免?关键在于 GAL 的群体构建不依赖单一模型采样:教师蒸馏样本和专家演示外源注入多样性,即便模型自身的熵再低,群体中仍有 4 条非自生成轨迹提供差异信号。加之 DCR 阻止极端更新进一步压缩熵,GFT 维持了一个健康的探索空间

KL 散度的实证证据(从预训练基模型到训练后模型):

\[D_{\text{KL}}(\pi_{\text{base}} \| \pi_{\text{trained}}) = \begin{cases} \text{SFT: 高} \\ \text{GFT: 低} \quad (\approx \text{GRPO 水平}) \end{cases}\]

KL 低意味着模型没有剧烈偏离预训练分布 → 遗忘少 → 通用能力保留。


第七重:GAL 在二值奖励下的精确行为——一个工作实例

\(K=8\),某查询 \(x\)

  • 专家样本:\(R=1\)(正确)
  • 教师蒸馏 3 个:\(R \in \{1, 1, 0\}\)(2 对 1 错)
  • 模型自生成 4 个:\(R \in \{0, 1, 0, 0\}\)(1 对 3 错)

群体奖励:\(\{1, 1, 1, 0, 0, 1, 0, 0\}\)

计算:

  • \(\mu = \frac{4}{8} = 0.5\)
  • \(\sigma = \sqrt{0.5 \times 0.5} = 0.5\)
  • \(A(1) = \frac{1-0.5}{0.5} = +1\)
  • \(A(0) = \frac{0-0.5}{0.5} = -1\)

四个正确的响应各获优势 \(+1\),四个错误的各获 \(-1\)。梯度将均匀地推高正确响应的概率,压低错误响应的概率。

对比 SFT:SFT 只能用那 1 条专家轨迹,其余 7 条完全浪费。GFT 每条轨迹都有学习信号——4 条正向,4 条负向——数据利用效率拉开到了 8×。即便考虑到负样本的信号强度可能略弱,这个倍数仍然巨大。


余论:数理之美的边界

GFT 的数学构造堪称优雅:用重要性采样揭示 SFT 的 RL 本质,用 z-score 归一化构建零中心对比信号,用 stop-gradient 裁剪驯服无界权重。三块拼图,严丝合缝。

然则以下几个数理问题尚待厘清:

  1. DCR 阈值 \(\tau\) 的最优性:当前 \(\tau=0.7\) 是启发式的。理论上,\(\tau\)\(p(\pi)\) 的分布决定——若能在 \(\pi\) 的累积分布函数 \(F(\pi)\) 上定义一个与下游任务相关的泛函,则 \(\tau\) 可得自适应解。此方向有待形式化。

  2. GAL 优势估计的渐近性质:当 \(K \to \infty\) 时,标准化优势 \(A(y_k)\) 逼近什么?若群体构成独立同分布,\(A\) 渐近正态。但 GFT 的群体混合了三种分布(专家、教师、自生成)——这是一个分层采样问题,优势估计的偏差需进一步分析。

  3. 与 PPO-clip 的内在联系:DCR 的 \(\text{sg}(\pi_t)\) 截断与 PPO 的 \([1-\epsilon, 1+\epsilon]\) 夹逼在本质上都是重要性采样权重的正则化。二者的泛函形式能否统一?若能,则可在 GFT 与 PPO 之间建立连续谱系。


推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录