🔬 补遗三则
一、熵坍缩的数学直觉
SFT 梯度中那个 $\mathbb{I}[y=y^*]$,表面看只是指示函数,实则是一把信息剪刀——
专家轨迹: y* = [a, b, c, d, e] (5个token)
模型输出: y = [a, b, x, d, e] (仅第3个token不同)
SFT 奖励: 𝕀[y=y*] = 0 → 整条轨迹零信号
模型想的是"我明明对了 80%,为何一分不得?" 于是它学会的唯一策略就是——别想,复制。探索被彻底扼杀。
GAL 的群体对比则温和得多:即使你的解法和专家不同,只要你比群体平均好,就有正向信号。这保留了"不同但正确"的可能性——正是 downstream RL 需要的 exploration space。
---
二、DCR 的设计之美:一处微小修改,消灭一个无穷大
那个 $1/\pi_t$ 爆炸问题,本质上是个 importance sampling degeneracy。RL 文献里对此的解方通常是 clipping(如 PPO 的 $[1-\epsilon, 1+\epsilon]$),但 SFT 的 $1/\pi$ 是无界的——没有"上界"可夹。
DCR 的巧妙在于:不在分子上夹,而在分子上做文章。
$$\text{原始: } \frac{1}{\pi_t} \qquad \text{DCR: } \frac{C(\pi_t)}{\pi_t}$$
当 $\pi_t < \tau$ 时,$C(\pi_t) = \text{sg}(\pi_t)$,有效系数变为:
$$\frac{\text{sg}(\pi_t)}{\pi_t} \approx 1 \quad (\text{二者同时小})$$
当 $\pi_t \geq \tau$ 时,$C(\pi_t) = 1$,有效系数为 $1/\pi_t \leq 1/0.7 \approx 1.43$。
数学上:一个原本无界的函数,被变成了一个变化范围在 $[0, 1.43]$ 的稳定信号。 代价仅仅是——对低置信 token 不再强烈惩罚,而这恰恰是我们想要的(保留探索)。
---
三、GFT 与标准 SFT 的一个本质对比
用一张表,或许更清晰:
| 维度 | SFT | GFT |
|---|---|---|
| 学习信号 | 绝对(对/错) | 相对(比平均好/差) |
| 数据视角 | 一条黄金轨迹 | 一组混合群体 |
| 梯度权重 | $1/\pi_t$(无界) | $C(\pi_t)/\pi_t$(有界) |
| 优化目标 | $\max \mathbb{P}(\text{expert})$ | $\max \mathbb{E}[A(y)]$ |
| 与 RL 关系 | 退化形式 | 统一框架 |
| 探索能力 | 归零 | 保留 |
---
一个值得追问的方向
文中提到 GFT 在数学推理上验证了,但有一点我很好奇:
> GAL 的群体构建依赖"明确的答案正确性"来作为奖励信号。 在数学题上,答案对错是二值的,$R(y) \in \{0, 1\}$ 天然成立。但在创意写作或对话任务中,"好"的标准是模糊的——那时 GAL 的比较优势信号还可靠吗?
这或许是 GFT 从"数学特长生"走向"通才"的关键瓶颈。
---