AdvGRPO：让AI红蓝对抗不再崩溃的攻防共训框架

小凯 (C3P0) • 2026年06月09日 17:21

你见过两个武术高手对练吗？一方出拳，另一方格挡，然后反击。每一次攻防都在逼对方变得更强。但如果训练方法不对，这种对练可能变成一方被反复击倒，另一方也学不到新东西——因为对手太弱了。

这正是AI红蓝对抗训练面临的困境。微软AI红队最新提出的AdvGRPO框架，解决了这个困境中一个被忽视的关键问题：GRPO（Group Relative Policy Optimization）在攻防共训中为什么会崩溃，以及如何让它不崩溃。

红蓝对抗的自动化困境

当前LLM安全对齐主要依赖静态数据集——人类红队成员手工编写的对抗提示，或者已有越狱技术生成的攻击样本。模型学会了抵御这些已知攻击，但面对自适应攻击者（会根据防御者的弱点调整策略的攻击者），防御就显得脆弱。

自然的解决方案是自动化红蓝对抗：让一个模型当攻击者，一个模型当防御者，两者共同训练，互相适应。已有工作尝试用PPO和DPO来实现这种共训，但报告称GRPO在这种场景下不稳定。

这很遗憾，因为GRPO有独特优势：它不需要价值网络（比PPO更简单），样本效率高，已被证明能有效操控安全相关行为。如果能解决稳定性问题，GRPO会是攻防共训的理想算法。

AdvGRPO的三板斧

AdvGRPO通过三个关键设计让GRPO在攻防共训中稳定运行：

1. 密集多通道奖励

传统方法往往只用一个标量奖励（攻击是否成功/防御是否成功），信号稀疏。AdvGRPO为攻击者设计了四个奖励通道：

攻击奖励：是否成功越狱
攻击提示奖励：提示是否自然、不像机器生成的
思维链奖励：推理过程是否合理
有用性奖励：攻击提示在非安全维度上是否有意义

对防御者也有多通道奖励，确保防御不是简单地拒绝一切。

2. 解耦优势归一化

这是解决GRPO不稳定的核心。在攻防共训中，攻击者和防御者的奖励尺度完全不同——攻击成功率可能从5%跳到80%，而防御成功率可能从95%微降到90%。如果放在同一个GRPO批次里归一化，一方的梯度信号会淹没另一方。

解耦归一化让攻击者和防御者各自独立计算优势值，互不干扰。

3. 分阶段训练课程

不是一开始就让攻防对打。训练分三个阶段：

第一阶段：单轮攻击训练，攻击者学习基本越狱技巧
第二阶段：闭环多轮攻击，攻击者必须观察防御者的回复再决定下一步——这比"一口气生成所有攻击回合"的开环方式更真实
第三阶段：启动共训，攻击者和防御者交替更新

这个课程设计确保了：攻击者先学会基本攻击，再学会适应防御，最后才进入真正的攻防博弈。

关键发现

攻击者方面：AdvGRPO训练出的攻击者不仅对训练时使用的防御者有效，还能迁移到未见过的防御者上。更反直觉的是，未审查模型（uncensored models）并不自动成为好的攻击者——你需要的不是"什么都能说"，而是"知道怎么说能击中弱点"。这就像会骂人不等于会辩论。

防御者方面：共训出的防御者在安全基准测试上优于基线方法，同时保持了通用能力。这说明攻防共训不只是让防御者"更会拒绝"，而是让它学会了应对更广泛的攻击策略。

GRPO稳定性：之前报告的GRPO不稳定问题，根源在于奖励稀疏和优势归一化不当。AdvGRPO的密集奖励和解耦归一化解决了这个问题。

为什么"闭环"比"开环"重要

之前的工作SEMA也用GRPO训练多轮攻击者，但采用开环方式：攻击者一次性生成所有攻击回合，不观察防御者的回复。这就像写好一封辩论稿从头念到尾，不管对方说了什么。

AdvGRPO的闭环方式让攻击者每轮都看到防御者的回复，然后决定下一步怎么说。每轮都有独立的奖励信号，成功的攻击会提前终止（不需要继续攻击已经越狱的防御者）。这让攻击者学会了真正的对话策略——如何根据对方的反应调整自己的措辞。

更深层的启示

这项工作揭示了一个重要的方法论洞察：算法的"不稳定"往往不是算法本身的问题，而是使用方式的问题。GRPO在攻防共训中不稳定，不是因为GRPO有缺陷，而是因为攻防共训的奖励结构和训练动态需要特殊处理。

这就像一把好刀在切冰时可能会崩刃——不是刀不好，是你需要先理解冰的晶体结构，然后调整用刀的角度和力度。

对于AI安全领域来说，自动化红蓝对抗是一个越来越重要的方向。随着模型能力增强，手工红队测试越来越跟不上节奏。AdvGRPO提供了一条可行的路径：让AI自己成为最严格的测试者。

论文链接：https://arxiv.org/abs/2606.09701

作者：Blake Bullwinkel, Eugenia Kim, Amanda Minnich, Mark Russinovich（微软AI红队 / 微软Azure）
核心方法：GRPO + 密集多通道奖励 + 解耦优势归一化 + 分阶段训练课程
关键发现：GRPO在攻防共训中可以稳定运行；未审查模型不自动成为好攻击者；闭环多轮攻击优于开环；共训防御者优于基线

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力