把越狱攻击的武器反过来训练模型：Frost Training 的逆向思维

小凯 · 2026-05-29T00:48:03+00:00

## 论文概要 **研究领域**: AI **作者**: Arthur Renard, Franck Gabriel, Valentin Hartmann, et al. **发布时间**: 2026-05-28 **arXiv**: [2605.27701](https://arxiv.org/abs/2605.27701) ## 中文摘要本文提出了Frost Training--一种改进基于蒙特卡洛策略优化的方法,面向称为"交叉熵游戏"的LLM-as-a-judge任务大家族。核心思想是利用嵌入空间中奖励函数的梯度。该信号在GCG越狱攻击中被使用;本文首次证明它也可用于增强模型训练。研究使用GRPO训练进行最大似然填充验证该方法。Frost Training提升了模型生成高分输出的能力,在best-of-k设置中达到更高的最大分数,且速度更快。 ## 原文摘要 We present Frost Training, a method for improving Monte Carlo-based policy optimization for a large family

一个黑客工具的自我修养

2023年，一篇名为 GCG（Greedy Coordinate Gradient）的论文震动了 AI 安全圈。它发现了一个令人不安的事实：只要沿着嵌入空间的梯度方向，逐个 token 替换，就能找到让大模型"越狱"的提示词。攻击者不需要理解模型内部结构，只需要一把梯度的钥匙。

两年后，Xent Labs 的 Arthur Renard、Franck Gabriel、Valentin Hartmann 和 Clément Hongler 提出了一个大胆的问题：如果梯度能帮我们攻破模型，它能不能反过来帮我们训练模型？

答案是可以。他们提出的 Frost Training 方法，把 GCG 攻击的核心机制——嵌入空间中的奖励梯度——从"武器"变成了"肥料"。结果令人惊喜：在同等计算预算下，Frost Training 不仅让模型产出更高质量的回答，而且训练速度更快、结果更稳定。

交叉熵游戏：一个统一框架

要理解 Frost Training，先得理解它所针对的任务家族——交叉熵游戏（Cross-Entropy Games）。

这个名字听起来很学术，但其实它涵盖了我们最常见的一类 LLM 任务：奖励函数基于另一个 LLM（"裁判"模型）的交叉熵损失。具体来说，它至少包含三种经典任务：

1. 最大似然填充：给你一段话的开头和结尾，让模型补全中间部分。奖励就是裁判模型对补全内容的"认可度"——交叉熵越低，说明补得越自然。

2. 逆向提示/越狱：给定一个目标输出（比如"我愿意帮你"），找到一个前缀提示，让模型最可能生成这个输出。越狱攻击就是这类任务的特例。

3. RLP（强化学习预训练目标）：让模型生成思维链来预测下一个 token，奖励是预测的准确度。

这三类任务看似不同，但有一个共同的数学结构：奖励函数 R(y) 对生成内容 y 的嵌入向量是可微的。这意味着——我们可以计算梯度。

Frost Training 的核心洞察

标准的蒙特卡洛策略优化（如 GRPO）是这样工作的：

1. 从当前策略采样 K 个输出 2. 用奖励函数给每个输出打分 3. 根据分数高低更新策略参数

问题在于：采样是盲目的。模型可能采样了 K 个平庸的输出，梯度更新就只能在这些平庸样本之间做微调。就像一个学生做了 K 道题全做错了，只知道"这些答案不好"，却不知道"往哪个方向改能变好"。

Frost Training 的关键洞察是：对于交叉熵游戏，奖励函数的梯度是免费的。

具体来说，当你用裁判模型给一个输出打分时，前向传播得到分数，反向传播就能得到奖励对每个 token 嵌入的梯度。这个梯度告诉你：如果把某个位置的 token 换成另一个，分数会怎么变化。

这正是 GCG 越狱攻击做的事情——但 GCG 用它来找"坏"的输入，Frost Training 用它来找"好"的变异。

Frost-GRPO 算法详解

Frost Training 修改了标准 GRPO 的流程，在"采样"和"更新"之间插入了一个"变异"步骤：

第一步：采样（和 GRPO 一样） 从当前策略 π_θ 采样 K 个输出 y₁, ..., y_K，计算它们的精确分数 r₁, ..., r_K。

第二步：Frost 提案（核心创新） 对每个采样输出 y_k，考虑所有可能的单 token 变异 y_k^{j→v}（把第 j 个位置换成 token v）。用一阶泰勒近似估算每个变异的分数：

a(k, j, v) = R(y_k) + ⟨e_v - e_{y_k[j]}, ∇_{e_{y_k[j]}} R(y_k)⟩

这里的关键是：所有 K × L × |V| 个近似分数只需要一次反向传播就能得到（L 是输出长度，|V| 是词表大小）。然后通过概率门控（π_θ(v|P, y_k^{ τ）过滤掉策略认为极不可能的变异，选出 D 个近似分数最高的候选。

第三步：Frost 替换 对 D 个候选计算精确分数。如果某个父代的某个子代精确分数比父代高，就用子代替换父代。

第四步：策略更新（和 GRPO 一样） 用替换后的 Frost 组计算组优势，更新策略参数。

用一个比喻来说：GRPO 是让学生做 K 道题，然后根据得分调整学习方法。Frost Training 是让学生做 K 道题，然后老师指出"你这道题如果把第三步的加法换成乘法，就能从 60 分变成 90 分"，学生验证后采纳这个建议，再根据改进后的答案调整学习方法。

实验结果：不只是更快，而是质变

研究者在最大似然填充任务上验证了 Frost Training，使用 Qwen2.5-1.5B-Instruct 作为策略模型和裁判模型。核心发现：

1. Best-of-K 分数显著提升 在计算量匹配的设置下（Frost K=4, D=4 vs GRPO K=8，都是 8 次裁判前向传播），Frost 的 best-of-8 分数始终高于 GRPO。这意味着 Frost 训练出的模型更可能产生高分输出。

2. 训练更稳定 GRPO 在不同随机种子间的方差很大——有些种子训练效果好，有些差。Frost 的曲线紧密聚集，表现一致。这对工业部署至关重要：你不会希望"看运气"决定模型质量。

3. 保持了多样性 GRPO 训练后期 token 熵急剧下降，说明模型把概率质量集中在少数几种输出上。Frost 保持了更高的熵和分数方差——它不是简单地"记住一个答案"，而是学会了在高质量空间中保持多样性。

4. 计算效率 一次 Frost-GRPO 步（K=4）在 best-of-K 指标上匹配甚至超越 GRPO（K=8），而后者用了两倍的采样量。Frost 用一次裁判反向传播换来了等效于两倍采样的效果。

局限与展望

Frost Training 目前只在填充任务上验证，且裁判模型和策略模型是同一个。当裁判和策略不同，或者任务不是交叉熵游戏时，梯度的可用性需要重新评估。此外，策略梯度估计因为引入了非策略样本而变得有偏，虽然每个被接受的变异都是经过精确验证的严格改进。

但这项工作的意义超越了具体方法。它揭示了一个深刻的对称性：攻防同源。GCG 用梯度攻破模型，Frost 用梯度强化模型；越狱是"找最坏的方向"，训练是"找最好的方向"。同一个数学工具，取决于你站在哪一边。

在 AI 安全日益重要的今天，这种"以攻为守"的思路值得更多探索。也许未来的 AI 安全框架，不是在攻击者和防御者之间筑墙，而是让攻击的洞察直接滋养防御的能力。

---

论文: Cross-Entropy Games and Frost Training 作者: Arthur Renard, Franck Gabriel, Valentin Hartmann, Clément Hongler 机构: Xent Labs arXiv: 2605.27701 开源代码: 暂无公开代码仓库