未走的路：Frost Training 如何让 AI 在训练中"偷看"评分梯度

小凯 · 2026-05-29T00:48:38+00:00

## 论文概要 **研究领域**: AI **作者**: Arthur Renard, Franck Gabriel, Valentin Hartmann, et al. **发布时间**: 2026-05-28 **arXiv**: [2605.27701](https://arxiv.org/abs/2605.27701) ## 中文摘要本文提出了Frost Training--一种改进基于蒙特卡洛策略优化的方法,面向称为"交叉熵游戏"的LLM-as-a-judge任务大家族。核心思想是利用嵌入空间中奖励函数的梯度。该信号在GCG越狱攻击中被使用;本文首次证明它也可用于增强模型训练。研究使用GRPO训练进行最大似然填充验证该方法。Frost Training提升了模型生成高分输出的能力,在best-of-k设置中达到更高的最大分数,且速度更快。 ## 原文摘要 We present Frost Training, a method for improving Monte Carlo-based policy optimization for a large family

一个反直觉的事实

你有没有想过，训练 AI 写出好文章的过程，和训练一个人投篮惊人地相似？

教练让球员投 100 个球，记录命中率，然后说"多投进的那种，少投偏的那种"。这就是蒙特卡洛策略优化——AI 领域训练大语言模型的主流方法。GRPO、PPO，名字不同，核心逻辑一样：采样、打分、往高分方向挪。

但这里藏着一个巨大的浪费。

当你让模型生成一段文本，然后用一个"裁判模型"（judge）给它打分时，裁判模型其实是个神经网络——它对输入是可微的。也就是说，你不仅能知道"这段文本得了 80 分"，还能知道"如果把第三个词从'但是'换成'然而'，分数会变成 82 分"。

这个梯度信号，在 GCG 越狱攻击里被用得风生水起——攻击者沿着梯度方向修改 token，让模型说出不该说的话。但直到这篇论文之前，没有人把这个信号用于训练本身。

Frost Training 做的就是这件事：把攻击的武器变成训练的工具。

交叉熵游戏：一个被忽视的数学结构

论文定义了一类任务叫"交叉熵游戏"（Cross-Entropy Games）。听起来抽象，但它的核心很简单：裁判的评分函数就是交叉熵。

这类任务比你想象的普遍：

最大似然填空（max-likelihood infilling）：给你一段话的开头和结尾，让你补中间。裁判用交叉熵评估你的补全有多"自然"。
任何用 LLM-as-a-judge 打分的任务：只要裁判是个语言模型，它的评分本质上就是交叉熵的变体。

关键洞察在于：交叉熵对输入 token 的嵌入向量是可微的。这意味着，给定一个采样到的文本 y，你可以用一次反向传播，近似计算出所有可能的单 token 替换的分数变化。

数学上，这是一个一阶泰勒展开：

$$\text{CE}(\tilde{y}z_{

翻译成人话：换一个词的分数变化，可以用梯度点积近似。而且这个近似对所有词表的词同时有效——一次反向传播，就能扫描整个词表。

Frost-GRPO：走过未走的路

算法的名字来自 Robert Frost 的诗《未走的路》（The Road Not Taken）。这个命名精准得令人拍案。

标准 GRPO 的流程： 1. 给模型一个提示，采样 K 个回答 2. 用裁判给每个回答打分 3. 根据分数高低更新模型参数

Frost-GRPO 在步骤 1 和 2 之间插入了一个"探索"步骤： 1. 采样 K 个回答 2. 对每个回答的每个位置，用梯度近似找出最有潜力的替换 token 3. 从这些候选中选出 D 个，用裁判精确打分验证 4. 如果替换后的分数确实更高，就用替换版本替代原始采样 5. 用替换后的组更新模型

这就是"未走的路"——模型自己没采样到的好回答，通过梯度信号被发现了。

四种选路策略的较量

论文做了一个漂亮的消融实验，比较了四种选择候选 token 的策略：

策略	信号来源	best-of-K 提升
Random	无	≈ 0（基线）
TopProb	模型自身概率	小幅
Taylor	裁判梯度	中等
Taylor-Gated	裁判梯度 + 概率门控	最大

Taylor-Gated 策略在梯度排名的基础上，加了一个概率门控（τ=10⁻⁴），过滤掉模型几乎不可能生成的 token。这很关键——梯度可能告诉你"把这个词换成'量子'分数会更高"，但如果模型生成'量子'的概率是 10⁻⁸，这个建议对训练毫无意义。

结果：Taylor-Gated 在每个发现预算 D 下都碾压其他策略，领先幅度从 D=1 时的 +1 nat 到 D=128 时的 +2 nats。

训练结果：更快、更高、更稳

在 Qwen3-14B 上的填空任务中，Frost-GRPO（K=4, D=4）对比标准 GRPO（K=8），两者使用相同数量的裁判前向传播：

Best-of-K 分数：Frost 全程领先，且跨种子方差更小。GRPO 的不同种子运行之间差异巨大，有些跑着跑着就掉队了。

多样性保持：这是最有趣的发现。GRPO 训练到后期，token 熵和分数方差急剧下降——模型学会了"安全"的输出模式，丧失了探索能力。Frost-GRPO 则保持了更高的熵和方差。

定性差异：GRPO 的输出会经历一个"局部最优"阶段——反复重复文本开头的片段，然后才慢慢找到同时匹配首尾的输出。Frost-GRPO 直接跳过这个阶段，更快地生成同时满足两端约束的内容。

计算效率：一次 Frost-GRPO 步（K=4, D=4）的效果，相当于 GRPO 在两倍组大小（K=8）下的表现。用一次裁判反向传播，换来了等效于双倍采样的效果。

为什么这很重要？

这篇论文的价值不只是"又一个训练技巧"。

它揭示了一个被系统性忽视的信号源。在所有 LLM-as-a-judge 的训练场景中——包括 RLHF、DPO、GRPO——裁判模型的可微性一直被忽略。我们把它当作黑盒，只取标量分数，丢掉了梯度信息。

这就像你请了一个老师批改作文，老师不仅打了 85 分，还在旁边写了"第三段如果用反问句会更有力"——但你只看了分数就把评语扔了。

Frost Training 把评语捡回来了。

更深层的影响在于：它挑战了"蒙特卡洛是唯一选择"的范式。当奖励函数可微时，我们不需要完全依赖随机采样来探索。梯度给了我们一个廉价的"望远镜"，让我们看到采样之外的可能性。

局限与展望

论文坦诚地指出了几个未解的问题：

实验只在填空任务上验证，更复杂的 Cross-Entropy Game（如裁判和玩家同时训练）尚未探索
只用了 GCG 近似的第一项，第二项（模型输出概率的正则化项）被忽略了
只在 Qwen3-14B 上测试，更大模型或 MoE 模型的表现未知
策略梯度估计是有偏的（Frost 替换不是从策略分布采样的），虽然每个替换都是验证过的严格改进

但方向是清晰的：可微奖励中的梯度信号是一座金矿，Frost Training 只是挖了第一铲。

---

*论文：Cross-Entropy Games and Frost Training (arXiv: 2605.27701)* *作者：Arthur Renard, Franck Gabriel, Valentin Hartmann, Clément Hongler (Xent Labs)* *注：本文撰写时论文未公开代码仓库*