论文:Risk Under Pressure: Compute-Aware Evaluation of Adversarial Robustness in Language Models
作者:Malikeh Ehghaghi, Boglárka Ecsedi, Marsha Chechik, Colin Raffel
机构:多伦多大学、Vector Institute、Hugging Face
论文:arXiv:2606.11409
代码:r-three/risk-under-pressure(待开源)
时间:2026-06-09
一句话总结
现有大模型安全评估用"攻击成功率"(ASR)衡量防御效果,但只看固定查询次数下的成功率——一个第一次就被攻破的模型,和一个十次才被攻破的模型,在现有评估里被评为同样不安全。多伦多大学+Hugging Face这篇论文把古典安全领域的"工作因子"概念引入LLM安全,用FLOPs统一衡量攻击成本,发现现有评估能严重高估防御效果(90%成功率的攻击可以被宣传成0%攻击成功率),并提出两个新指标:C@τ(达到τ%风险需要的计算量)和AE(单位计算量带来的风险)。
问题:现有评估在掩盖什么?
一个思想实验
假设两个模型:
- 模型A:攻击第一次就成功,ASR@10 = 1.0
- 模型B:攻击需要10次才成功,ASR@10 = 1.0
现有评估报告:两个模型都是"100%被攻破"。
但安全视角下,模型B显然更难被攻破——攻击者需要付出10倍计算成本。
现有评估的致命缺陷
| 现有做法 | 问题 |
|---|---|
| "攻击X在Z次查询后达到Y%成功率" | 只回答"多频繁",不回答"多大代价" |
| 固定查询预算下的ASR | 将所有攻击视为同等成本,掩盖真实攻击代价 |
| 排行榜式对比 | 两个模型ASR相同 → 被评为同样不安全,尽管成本差异巨大 |
关键洞察:现有评估用查询次数作为预算单位,但不同攻击的每次查询成本天差地别。模板攻击(JailBroken)一次查询=一次前向传播;白盒梯度攻击(GCG)一次查询=128次前向传播+梯度反向传播+候选评估。
核心方法:计算感知评估框架
核心思想
从古典安全领域引入工作因子(Work Factor):攻击者必须付出的计算努力才能突破系统。
统一度量:FLOPs
| 优势 | 说明 |
|---|---|
| 硬件无关性 | 不受GPU型号、内核优化、批处理策略影响 |
| 跨组件可比 | 梯度步骤、辅助模型调用、目标/评判查询可统一比较 |
| 操作量前驱 | 能量、墙钟时间、GPU小时、每次突破成本等均可由FLOPs导出 |
三种攻击的FLOPs成本核算
| 攻击策略 | 类型 | 每步成本 | 关键特征 |
|---|---|---|---|
| JailBroken (JB) | 模板攻击 | 一次前向 + 评判 | 最廉价,成本最低 |
| PAIR | 迭代优化 | 一次前向 + 评判 + 攻击者LLM | 中等成本,迭代优化 |
| GCG | 白盒梯度 | 128候选评估 + 梯度反向 + 生成 + 评判 | 最昂贵,白盒梯度优化 |
GCG成本细节:
- 128个候选前向传播
- 反向传播系数β=3(标准2:1 + 50%离散操作开销)
- 对大规模模型,128候选成本占主导;对0.5B模型,梯度成本占比更高
新指标:风险-计算曲线
定义1:经验风险
定义2:平均累积FLOPs
核心指标:
| 指标 | 符号 | 含义 | 解读 |
|---|---|---|---|
| 计算到τ%风险 | C@τ | 达到τ风险所需计算量 | 越高越安全 |
| 曲线下面积 | CAURC | 风险-计算曲线下面积 | 综合风险-成本权衡 |
| 平均效率 | AE | CAURC / C_max | 每单位FLOP获得的风险,越低越安全 |
五大颠覆性发现
发现1:SFT比DPO/RLVR更鲁棒——对齐训练的非单调效应
Tulu3-8B训练阶段结果:
| 模型 | GCG C@0.5 | PAIR C@0.5 | JB C@0.5 | JB AE |
|---|---|---|---|---|
| Base | 59.3 | 11.2 | 9.2 | 53.3 |
| SFT | ∞ | ∞ | 52.4 | 8.9 |
| DPO | 521.2 | 79.9 | 40.9 | 10.4 |
| RLVR | 503.6 | 72.4 | 25.7 | 18.9 |
关键洞察:
- SFT阶段最鲁棒:GCG和PAIR均无法达到50%风险阈值(C@0.5=∞)
- DPO/RLVR反而退化:后续对齐阶段降低计算空间鲁棒性
- RLVR的JB攻击AE是SFT的2.1倍,DPO的1.8倍
归因:
- DPO对固定偏好数据过拟合,对抗覆盖有限
- RLVR二元奖励可能意外降低校准拒绝能力
发现2:模型规模对廉价攻击几乎无效
Qwen2.5规模效应:
| 模型 | GCG C@0.5 | 增长倍数 | JB C@0.5 | 增长倍数 | GCG AE | JB AE |
|---|---|---|---|---|---|---|
| 0.5B | 20.0 | 1× | 8.2 | 1× | 25.6 | 59.6 |
| 3B | 173.7 | 8.7× | 13.4 | 1.6× | 3.3 | 36.8 |
| 7B | 399.7 | 20× | 22.8 | 2.8× | 1.3 | 23.0 |
关键洞察:
- GCG成本增长20×(超线性于15×参数增长),JB仅2.8×
- 7B模型JB的AE仍是GCG的18倍——规模优势对廉价攻击几乎无效
- ASR@10几乎不变(JB: 0.99→0.94),但计算成本差异巨大
实践意义:单纯增大模型对防御廉价模板攻击帮助极小,防御者需要针对廉价攻击专门设计。
发现3:迁移攻击大幅降低攻击者成本
Qwen2.5-0.5B → Qwen3-8B迁移:
| 指标 | 直接攻击 | 迁移攻击 |
|---|---|---|
| C@0.5 | ∞ | ∞ |
| AE | 4.9×10⁻³ | 4.9×10⁻³ |
| ASR@10 | 0.15 | 0.15 |
动态特征:风险快速上升后平台化——上限由后缀质量和目标鲁棒性决定,非额外计算。
战略意义:攻击者无需直接与目标交互,可在代理模型上优化后以零额外优化成本部署。这对闭源模型(GPT-4、Claude)尤其危险——攻击者只需在开源代理模型上训练,然后迁移到闭源目标。
发现4:安全RL在某些类别反而更差
Qwen3-4B vs SafeRL:
| 攻击 | Base | SafeRL | 观察 |
|---|---|---|---|
| GCG | C@0.5=∞ | C@0.5=189.0 | Base更鲁棒 |
| PAIR | 31.3 | 44.8 | 低预算Base更鲁棒,高预算SafeRL反超 |
| JB | 21.2 | 24.5 | 曲线几乎重合 |
GCG上SafeRL失效的原因:训练-分布不匹配——SafeRL针对自然语言对抗提示训练,GCG在logit层面发现token序列,常超出学习分布。
启示:安全训练不是万能药,需要匹配攻击类型。
发现5:不同危害类别的计算成本差异达5×
Qwen3-4B-SafeRL按类别分解:
| 类别 | SafeRL改善? | 备注 |
|---|---|---|
| 骚扰与欺凌 | 显著改善 | 数据覆盖充分 |
| 错误信息 | 改善 | 数据覆盖充分 |
| 一般危害 | 改善 | 数据覆盖充分 |
| 非法活动 | 反而更差 | 数据覆盖不足 |
| 化学生物武器 | 改善有限 | 边缘类别 |
| 网络犯罪 | 显著更差 | 数据覆盖不足 |
关键数据:SafeRL的C@0.5跨类别跨度约5×(骚扰 vs 网络犯罪)。
归因:安全微调数据组成不平衡——某些类别获得3倍以上覆盖。
为什么这事重要?
1. 现有评估能严重高估防御效果
论文展示:如果只看ASR@10,一个90%成功率的攻击可以被宣传成0%攻击成功率——因为"10次查询内成功率"不等于"10次查询内达到阈值的成功率"。
现有评估的致命盲区:
- 不看攻击成本
- 不看成本差异
- 不看曲线形状(线性上升 vs 快速平台化)
2. 安全防御需要"成本底线"思维
论文的实践建议:
| 角色 | 建议 |
|---|---|
| 防御设计者 | 目标应为提高对手成本底线,非完美鲁棒性;关注廉价攻击的防护 |
| 评估者 | 必须报告计算感知指标,单点ASR不足 |
| 部署者 | 需按危害类别审计,非仅聚合指标 |
| 攻击研究者 | 迁移优化是降低实际攻击成本的关键策略 |
3. SFT可能比DPO/RLVR更安全——反直觉
主流认知:RLHF/DPO/RLVR是对齐训练的"高级阶段",安全效果更好。
论文发现:SFT阶段可能是最鲁棒的,后续阶段可能退化。DPO对固定偏好过拟合,RLVR二元奖励可能降低校准拒绝能力。
这不是说DPO/RLVR没用,而是说安全不是单调的——每一步后训练都需要用计算感知框架重新评估。
4. 模型规模是"双刃剑"
规模增大对昂贵攻击(GCG)保护显著(20×成本增长),但对廉价攻击(JB)几乎无效(2.8×)。
这意味着:一个7B模型在面对模板攻击时,并不比0.5B模型安全多少。防御者需要在廉价攻击上投入专门设计。
5. 迁移攻击是闭源模型的"阿喀琉斯之踵"
攻击者无需直接与闭源目标交互,只需在开源代理模型上优化,然后迁移。这几乎零额外成本。
对GPT-4、Claude等闭源模型的启示:即使攻击者无法直接查询你,他们也能通过开源代理模型训练出有效的攻击后缀。
局限性与开放问题
| 局限 | 说明 |
|---|---|
| FLOPs代理 | 未完全反映内存带宽、延迟、并行性 |
| 评判可靠性 | 自动评判存在假阳性/阴性、类别偏见 |
| 攻击覆盖 | 未包含联合优化防御的自适应攻击 |
| 成功二元化 | 所有越狱等同对待,未按危害严重性加权 |
| 规模限制 | 未覆盖最大规模闭源前沿模型(GPT-4/Claude) |
| 模态限制 | 仅文本,多模态扩展待研究 |
一句话总结(再说一遍)
现有大模型安全评估用"攻击成功率"打分,但掩盖了攻击成本的巨大差异——一个第一次就被攻破的模型,和一个十次才被攻破的模型,被评为同样不安全。用FLOPs统一衡量攻击成本后,发现SFT比DPO/RLVR更鲁棒、模型规模对廉价攻击几乎无效、迁移攻击让闭源模型面临零成本威胁、安全RL在某些类别反而更差。安全评估不能只看"多频繁",必须看"多大代价"。
"安全不是完美防御,而是让攻击者付出足够高的代价。"
#小凯 #大模型安全 #对抗鲁棒性 #越狱攻击 #AI安全 #HuggingFace #多伦多大学 #计算感知评估 #FLOPs #工作因子
参考论文:
Malikeh Ehghaghi, Boglárka Ecsedi, Marsha Chechik, Colin Raffel. "Risk Under Pressure: Compute-Aware Evaluation of Adversarial Robustness in Language Models." arXiv:2606.11409, 2026.
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。