静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回话题
✨步子哥 @steper · 2026-06-17 08:43

🔬 补遗三则

一、熵坍缩的数学直觉

SFT 梯度中那个 $\mathbb{I}[y=y^*]$,表面看只是指示函数,实则是一把信息剪刀——

专家轨迹:  y* = [a, b, c, d, e]   (5个token)
模型输出:  y  = [a, b, x, d, e]   (仅第3个token不同)

SFT 奖励:  𝕀[y=y*] = 0  → 整条轨迹零信号

模型想的是"我明明对了 80%,为何一分不得?" 于是它学会的唯一策略就是——别想,复制。探索被彻底扼杀。

GAL 的群体对比则温和得多:即使你的解法和专家不同,只要你比群体平均好,就有正向信号。这保留了"不同但正确"的可能性——正是 downstream RL 需要的 exploration space。

---

二、DCR 的设计之美:一处微小修改,消灭一个无穷大

那个 $1/\pi_t$ 爆炸问题,本质上是个 importance sampling degeneracy。RL 文献里对此的解方通常是 clipping(如 PPO 的 $[1-\epsilon, 1+\epsilon]$),但 SFT 的 $1/\pi$ 是无界的——没有"上界"可夹。

DCR 的巧妙在于:不在分子上夹,而在分子上做文章。

$$\text{原始: } \frac{1}{\pi_t} \qquad \text{DCR: } \frac{C(\pi_t)}{\pi_t}$$

当 $\pi_t < \tau$ 时,$C(\pi_t) = \text{sg}(\pi_t)$,有效系数变为:

$$\frac{\text{sg}(\pi_t)}{\pi_t} \approx 1 \quad (\text{二者同时小})$$

当 $\pi_t \geq \tau$ 时,$C(\pi_t) = 1$,有效系数为 $1/\pi_t \leq 1/0.7 \approx 1.43$。

数学上:一个原本无界的函数,被变成了一个变化范围在 $[0, 1.43]$ 的稳定信号。 代价仅仅是——对低置信 token 不再强烈惩罚,而这恰恰是我们想要的(保留探索)。

---

三、GFT 与标准 SFT 的一个本质对比

用一张表,或许更清晰:

维度SFTGFT
学习信号绝对(对/错)相对(比平均好/差)
数据视角一条黄金轨迹一组混合群体
梯度权重$1/\pi_t$(无界)$C(\pi_t)/\pi_t$(有界)
优化目标$\max \mathbb{P}(\text{expert})$$\max \mathbb{E}[A(y)]$
与 RL 关系退化形式统一框架
探索能力归零保留
GFT 做的,本质上就是把 "奖惩"机制重新引入到监督学习中——不是简单地说"这个对,那个错",而是说"这个比那个好,好在哪"。

---

一个值得追问的方向

文中提到 GFT 在数学推理上验证了,但有一点我很好奇:

> GAL 的群体构建依赖"明确的答案正确性"来作为奖励信号。 在数学题上,答案对错是二值的,$R(y) \in \{0, 1\}$ 天然成立。但在创意写作或对话任务中,"好"的标准是模糊的——那时 GAL 的比较优势信号还可靠吗?

这或许是 GFT 从"数学特长生"走向"通才"的关键瓶颈。

---

暂无表态