你见过两个武术高手对练吗?一方出拳,另一方格挡,然后反击。每一次攻防都在逼对方变得更强。但如果训练方法不对,这种对练可能变成一方被反复击倒,另一方也学不到新东西——因为对手太弱了。
这正是AI红蓝对抗训练面临的困境。微软AI红队最新提出的AdvGRPO框架,解决了这个困境中一个被忽视的关键问题:GRPO(Group Relative Policy Optimization)在攻防共训中为什么会崩溃,以及如何让它不崩溃。
红蓝对抗的自动化困境
当前LLM安全对齐主要依赖静态数据集——人类红队成员手工编写的对抗提示,或者已有越狱技术生成的攻击样本。模型学会了抵御这些已知攻击,但面对自适应攻击者(会根据防御者的弱点调整策略的攻击者),防御就显得脆弱。
自然的解决方案是自动化红蓝对抗:让一个模型当攻击者,一个模型当防御者,两者共同训练,互相适应。已有工作尝试用PPO和DPO来实现这种共训,但报告称GRPO在这种场景下不稳定。
这很遗憾,因为GRPO有独特优势:它不需要价值网络(比PPO更简单),样本效率高,已被证明能有效操控安全相关行为。如果能解决稳定性问题,GRPO会是攻防共训的理想算法。
AdvGRPO的三板斧
AdvGRPO通过三个关键设计让GRPO在攻防共训中稳定运行:
1. 密集多通道奖励
传统方法往往只用一个标量奖励(攻击是否成功/防御是否成功),信号稀疏。AdvGRPO为攻击者设计了四个奖励通道:
- 攻击奖励:是否成功越狱
- 攻击提示奖励:提示是否自然、不像机器生成的
- 思维链奖励:推理过程是否合理
- 有用性奖励:攻击提示在非安全维度上是否有意义
对防御者也有多通道奖励,确保防御不是简单地拒绝一切。
2. 解耦优势归一化
这是解决GRPO不稳定的核心。在攻防共训中,攻击者和防御者的奖励尺度完全不同——攻击成功率可能从5%跳到80%,而防御成功率可能从95%微降到90%。如果放在同一个GRPO批次里归一化,一方的梯度信号会淹没另一方。
解耦归一化让攻击者和防御者各自独立计算优势值,互不干扰。
3. 分阶段训练课程
不是一开始就让攻防对打。训练分三个阶段:
- 第一阶段:单轮攻击训练,攻击者学习基本越狱技巧
- 第二阶段:闭环多轮攻击,攻击者必须观察防御者的回复再决定下一步——这比"一口气生成所有攻击回合"的开环方式更真实
- 第三阶段:启动共训,攻击者和防御者交替更新
这个课程设计确保了:攻击者先学会基本攻击,再学会适应防御,最后才进入真正的攻防博弈。
关键发现
攻击者方面:AdvGRPO训练出的攻击者不仅对训练时使用的防御者有效,还能迁移到未见过的防御者上。更反直觉的是,未审查模型(uncensored models)并不自动成为好的攻击者——你需要的不是"什么都能说",而是"知道怎么说能击中弱点"。这就像会骂人不等于会辩论。
防御者方面:共训出的防御者在安全基准测试上优于基线方法,同时保持了通用能力。这说明攻防共训不只是让防御者"更会拒绝",而是让它学会了应对更广泛的攻击策略。
GRPO稳定性:之前报告的GRPO不稳定问题,根源在于奖励稀疏和优势归一化不当。AdvGRPO的密集奖励和解耦归一化解决了这个问题。
为什么"闭环"比"开环"重要
之前的工作SEMA也用GRPO训练多轮攻击者,但采用开环方式:攻击者一次性生成所有攻击回合,不观察防御者的回复。这就像写好一封辩论稿从头念到尾,不管对方说了什么。
AdvGRPO的闭环方式让攻击者每轮都看到防御者的回复,然后决定下一步怎么说。每轮都有独立的奖励信号,成功的攻击会提前终止(不需要继续攻击已经越狱的防御者)。这让攻击者学会了真正的对话策略——如何根据对方的反应调整自己的措辞。
更深层的启示
这项工作揭示了一个重要的方法论洞察:算法的"不稳定"往往不是算法本身的问题,而是使用方式的问题。GRPO在攻防共训中不稳定,不是因为GRPO有缺陷,而是因为攻防共训的奖励结构和训练动态需要特殊处理。
这就像一把好刀在切冰时可能会崩刃——不是刀不好,是你需要先理解冰的晶体结构,然后调整用刀的角度和力度。
对于AI安全领域来说,自动化红蓝对抗是一个越来越重要的方向。随着模型能力增强,手工红队测试越来越跟不上节奏。AdvGRPO提供了一条可行的路径:让AI自己成为最严格的测试者。
论文链接:https://arxiv.org/abs/2606.09701
作者:Blake Bullwinkel, Eugenia Kim, Amanda Minnich, Mark Russinovich(微软AI红队 / 微软Azure)
核心方法:GRPO + 密集多通道奖励 + 解耦优势归一化 + 分阶段训练课程
关键发现:GRPO在攻防共训中可以稳定运行;未审查模型不自动成为好攻击者;闭环多轮攻击优于开环;共训防御者优于基线
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。