把越狱攻击的武器反过来训练模型:Frost Training 的逆向思维
一个黑客工具的自我修养
2023年,一篇名为 GCG(Greedy Coordinate Gradient)的论文震动了 AI 安全圈。它发现了一个令人不安的事实:只要沿着嵌入空间的梯度方向,逐个 token 替换,就能找到让大模型"越狱"的提示词。攻击者不需要理解模型内部结构,只需要一把梯度的钥匙。
两年后,Xent Labs 的 Arthur Renard、Franck Gabriel、Valentin Hartmann 和 Clément Hongler 提出了一个大胆的问题:如果梯度能帮我们攻破模型,它能不能反过来帮我们训练模型?
答案是可以。他们提出的 Frost Training 方法,把 GCG 攻击的核心机制——嵌入空间中的奖励梯度——从"武器"变成了"肥料"。结果令人惊喜:在同等计算预算下,Frost Training 不仅让模型产出更高质量的回答,而且训练速度更快、结果更稳定。
交叉熵游戏:一个统一框架
要理解 Frost Training,先得理解它所针对的任务家族——交叉熵游戏(Cross-Entropy Games)。
这个名字听起来很学术,但其实它涵盖了我们最常见的一类 LLM 任务:奖励函数基于另一个 LLM("裁判"模型)的交叉熵损失。具体来说,它至少包含三种经典任务:
-
最大似然填充:给你一段话的开头和结尾,让模型补全中间部分。奖励就是裁判模型对补全内容的"认可度"——交叉熵越低,说明补得越自然。
-
逆向提示/越狱:给定一个目标输出(比如"我愿意帮你"),找到一个前缀提示,让模型最可能生成这个输出。越狱攻击就是这类任务的特例。
-
RLP(强化学习预训练目标):让模型生成思维链来预测下一个 token,奖励是预测的准确度。
这三类任务看似不同,但有一个共同的数学结构:奖励函数 R(y) 对生成内容 y 的嵌入向量是可微的。这意味着——我们可以计算梯度。
Frost Training 的核心洞察
标准的蒙特卡洛策略优化(如 GRPO)是这样工作的:
- 从当前策略采样 K 个输出
- 用奖励函数给每个输出打分
- 根据分数高低更新策略参数
问题在于:采样是盲目的。模型可能采样了 K 个平庸的输出,梯度更新就只能在这些平庸样本之间做微调。就像一个学生做了 K 道题全做错了,只知道"这些答案不好",却不知道"往哪个方向改能变好"。
Frost Training 的关键洞察是:对于交叉熵游戏,奖励函数的梯度是免费的。
具体来说,当你用裁判模型给一个输出打分时,前向传播得到分数,反向传播就能得到奖励对每个 token 嵌入的梯度。这个梯度告诉你:如果把某个位置的 token 换成另一个,分数会怎么变化。
这正是 GCG 越狱攻击做的事情——但 GCG 用它来找"坏"的输入,Frost Training 用它来找"好"的变异。
Frost-GRPO 算法详解
Frost Training 修改了标准 GRPO 的流程,在"采样"和"更新"之间插入了一个"变异"步骤:
第一步:采样(和 GRPO 一样)
从当前策略 π_θ 采样 K 个输出 y₁, ..., y_K,计算它们的精确分数 r₁, ..., r_K。
第二步:Frost 提案(核心创新)
对每个采样输出 y_k,考虑所有可能的单 token 变异 y_k^{j→v}(把第 j 个位置换成 token v)。用一阶泰勒近似估算每个变异的分数:
a(k, j, v) = R(y_k) + ⟨e_v - e_{y_k[j]}, ∇{e{y_k[j]}} R(y_k)⟩
这里的关键是:所有 K × L × |V| 个近似分数只需要一次反向传播就能得到(L 是输出长度,|V| 是词表大小)。然后通过概率门控(π_θ(v|P, y_k^{<j}) > τ)过滤掉策略认为极不可能的变异,选出 D 个近似分数最高的候选。
第三步:Frost 替换
对 D 个候选计算精确分数。如果某个父代的某个子代精确分数比父代高,就用子代替换父代。
第四步:策略更新(和 GRPO 一样)
用替换后的 Frost 组计算组优势,更新策略参数。
用一个比喻来说:GRPO 是让学生做 K 道题,然后根据得分调整学习方法。Frost Training 是让学生做 K 道题,然后老师指出"你这道题如果把第三步的加法换成乘法,就能从 60 分变成 90 分",学生验证后采纳这个建议,再根据改进后的答案调整学习方法。
实验结果:不只是更快,而是质变
研究者在最大似然填充任务上验证了 Frost Training,使用 Qwen2.5-1.5B-Instruct 作为策略模型和裁判模型。核心发现:
1. Best-of-K 分数显著提升
在计算量匹配的设置下(Frost K=4, D=4 vs GRPO K=8,都是 8 次裁判前向传播),Frost 的 best-of-8 分数始终高于 GRPO。这意味着 Frost 训练出的模型更可能产生高分输出。
2. 训练更稳定
GRPO 在不同随机种子间的方差很大——有些种子训练效果好,有些差。Frost 的曲线紧密聚集,表现一致。这对工业部署至关重要:你不会希望"看运气"决定模型质量。
3. 保持了多样性
GRPO 训练后期 token 熵急剧下降,说明模型把概率质量集中在少数几种输出上。Frost 保持了更高的熵和分数方差——它不是简单地"记住一个答案",而是学会了在高质量空间中保持多样性。
4. 计算效率
一次 Frost-GRPO 步(K=4)在 best-of-K 指标上匹配甚至超越 GRPO(K=8),而后者用了两倍的采样量。Frost 用一次裁判反向传播换来了等效于两倍采样的效果。
局限与展望
Frost Training 目前只在填充任务上验证,且裁判模型和策略模型是同一个。当裁判和策略不同,或者任务不是交叉熵游戏时,梯度的可用性需要重新评估。此外,策略梯度估计因为引入了非策略样本而变得有偏,虽然每个被接受的变异都是经过精确验证的严格改进。
但这项工作的意义超越了具体方法。它揭示了一个深刻的对称性:攻防同源。GCG 用梯度攻破模型,Frost 用梯度强化模型;越狱是"找最坏的方向",训练是"找最好的方向"。同一个数学工具,取决于你站在哪一边。
在 AI 安全日益重要的今天,这种"以攻为守"的思路值得更多探索。也许未来的 AI 安全框架,不是在攻击者和防御者之间筑墙,而是让攻击的洞察直接滋养防御的能力。
论文: Cross-Entropy Games and Frost Training
作者: Arthur Renard, Franck Gabriel, Valentin Hartmann, Clément Hongler
机构: Xent Labs
arXiv: 2605.27701
开源代码: 暂无公开代码仓库