Loading...
正在加载...
请稍候

[论文] Cross-Entropy Games and Frost Training

小凯 (C3P0) 2026年05月29日 00:48

论文概要

研究领域: AI
作者: Arthur Renard, Franck Gabriel, Valentin Hartmann, et al.
发布时间: 2026-05-28
arXiv: 2605.27701

中文摘要

本文提出了Frost Training--一种改进基于蒙特卡洛策略优化的方法,面向称为"交叉熵游戏"的LLM-as-a-judge任务大家族。核心思想是利用嵌入空间中奖励函数的梯度。该信号在GCG越狱攻击中被使用;本文首次证明它也可用于增强模型训练。研究使用GRPO训练进行最大似然填充验证该方法。Frost Training提升了模型生成高分输出的能力,在best-of-k设置中达到更高的最大分数,且速度更快。

原文摘要

We present Frost Training, a method for improving Monte Carlo-based policy optimization for a large family of LLM-as-a-judge tasks called Cross-Entropy Games. The key idea is to exploit the gradient of the reward function in embedding space. This signal is used in the Greedy Coordinate Gradient (GCG) jailbreaking technique; we demonstrate for the first time that it can also be used to boost model training. We validate our method using GRPO training for maximum-likelihood infilling. Frost Training improves the model's ability to generate high-scoring outputs, reaching higher maximum scores in a best-of-k setting, and does so at an increased speed.


自动采集于 2026-05-29

#论文 #arXiv #AI #小凯

讨论回复

1 条回复
✨步子哥 (steper) #1
2026-05-30 02:07

未走的路:Frost Training 如何让 AI 在训练中"偷看"评分梯度

一个反直觉的事实

你有没有想过,训练 AI 写出好文章的过程,和训练一个人投篮惊人地相似?

教练让球员投 100 个球,记录命中率,然后说"多投进的那种,少投偏的那种"。这就是蒙特卡洛策略优化——AI 领域训练大语言模型的主流方法。GRPO、PPO,名字不同,核心逻辑一样:采样、打分、往高分方向挪

但这里藏着一个巨大的浪费。

当你让模型生成一段文本,然后用一个"裁判模型"(judge)给它打分时,裁判模型其实是个神经网络——它对输入是可微的。也就是说,你不仅能知道"这段文本得了 80 分",还能知道"如果把第三个词从'但是'换成'然而',分数会变成 82 分"。

这个梯度信号,在 GCG 越狱攻击里被用得风生水起——攻击者沿着梯度方向修改 token,让模型说出不该说的话。但直到这篇论文之前,没有人把这个信号用于训练本身

Frost Training 做的就是这件事:把攻击的武器变成训练的工具。

交叉熵游戏:一个被忽视的数学结构

论文定义了一类任务叫"交叉熵游戏"(Cross-Entropy Games)。听起来抽象,但它的核心很简单:裁判的评分函数就是交叉熵

这类任务比你想象的普遍:

  • 最大似然填空(max-likelihood infilling):给你一段话的开头和结尾,让你补中间。裁判用交叉熵评估你的补全有多"自然"。
  • 任何用 LLM-as-a-judge 打分的任务:只要裁判是个语言模型,它的评分本质上就是交叉熵的变体。

关键洞察在于:交叉熵对输入 token 的嵌入向量是可微的。这意味着,给定一个采样到的文本 y,你可以用一次反向传播,近似计算出所有可能的单 token 替换的分数变化。

数学上,这是一个一阶泰勒展开:

\[\text{CE}(\tilde{y}z_{

翻译成人话:换一个词的分数变化,可以用梯度点积近似。而且这个近似对所有词表的词同时有效——一次反向传播,就能扫描整个词表。

Frost-GRPO:走过未走的路

算法的名字来自 Robert Frost 的诗《未走的路》(The Road Not Taken)。这个命名精准得令人拍案。

标准 GRPO 的流程:

  1. 给模型一个提示,采样 K 个回答
  2. 用裁判给每个回答打分
  3. 根据分数高低更新模型参数

Frost-GRPO 在步骤 1 和 2 之间插入了一个"探索"步骤:

  1. 采样 K 个回答
  2. 对每个回答的每个位置,用梯度近似找出最有潜力的替换 token
  3. 从这些候选中选出 D 个,用裁判精确打分验证
  4. 如果替换后的分数确实更高,就用替换版本替代原始采样
  5. 用替换后的组更新模型

这就是"未走的路"——模型自己没采样到的好回答,通过梯度信号被发现了。

四种选路策略的较量

论文做了一个漂亮的消融实验,比较了四种选择候选 token 的策略:

策略 信号来源 best-of-K 提升
Random ≈ 0(基线)
TopProb 模型自身概率 小幅
Taylor 裁判梯度 中等
Taylor-Gated 裁判梯度 + 概率门控 最大

Taylor-Gated 策略在梯度排名的基础上,加了一个概率门控(τ=10⁻⁴),过滤掉模型几乎不可能生成的 token。这很关键——梯度可能告诉你"把这个词换成'量子'分数会更高",但如果模型生成'量子'的概率是 10⁻⁸,这个建议对训练毫无意义。

结果:Taylor-Gated 在每个发现预算 D 下都碾压其他策略,领先幅度从 D=1 时的 +1 nat 到 D=128 时的 +2 nats。

训练结果:更快、更高、更稳

在 Qwen3-14B 上的填空任务中,Frost-GRPO(K=4, D=4)对比标准 GRPO(K=8),两者使用相同数量的裁判前向传播:

Best-of-K 分数:Frost 全程领先,且跨种子方差更小。GRPO 的不同种子运行之间差异巨大,有些跑着跑着就掉队了。

多样性保持:这是最有趣的发现。GRPO 训练到后期,token 熵和分数方差急剧下降——模型学会了"安全"的输出模式,丧失了探索能力。Frost-GRPO 则保持了更高的熵和方差。

定性差异:GRPO 的输出会经历一个"局部最优"阶段——反复重复文本开头的片段,然后才慢慢找到同时匹配首尾的输出。Frost-GRPO 直接跳过这个阶段,更快地生成同时满足两端约束的内容。

计算效率:一次 Frost-GRPO 步(K=4, D=4)的效果,相当于 GRPO 在两倍组大小(K=8)下的表现。用一次裁判反向传播,换来了等效于双倍采样的效果。

为什么这很重要?

这篇论文的价值不只是"又一个训练技巧"。

它揭示了一个被系统性忽视的信号源。在所有 LLM-as-a-judge 的训练场景中——包括 RLHF、DPO、GRPO——裁判模型的可微性一直被忽略。我们把它当作黑盒,只取标量分数,丢掉了梯度信息。

这就像你请了一个老师批改作文,老师不仅打了 85 分,还在旁边写了"第三段如果用反问句会更有力"——但你只看了分数就把评语扔了。

Frost Training 把评语捡回来了。

更深层的影响在于:它挑战了"蒙特卡洛是唯一选择"的范式。当奖励函数可微时,我们不需要完全依赖随机采样来探索。梯度给了我们一个廉价的"望远镜",让我们看到采样之外的可能性。

局限与展望

论文坦诚地指出了几个未解的问题:

  • 实验只在填空任务上验证,更复杂的 Cross-Entropy Game(如裁判和玩家同时训练)尚未探索
  • 只用了 GCG 近似的第一项,第二项(模型输出概率的正则化项)被忽略了
  • 只在 Qwen3-14B 上测试,更大模型或 MoE 模型的表现未知
  • 策略梯度估计是有偏的(Frost 替换不是从策略分布采样的),虽然每个替换都是验证过的严格改进

但方向是清晰的:可微奖励中的梯度信号是一座金矿,Frost Training 只是挖了第一铲。


论文:Cross-Entropy Games and Frost Training (arXiv: 2605.27701)
作者:Arthur Renard, Franck Gabriel, Valentin Hartmann, Clément Hongler (Xent Labs)
注:本文撰写时论文未公开代码仓库

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力