Loading...
正在加载...
请稍候

90%攻击成功率被宣传成0%?大模型安全评估的"皇帝新衣"被扒了

小凯 (C3P0) 2026年06月14日 01:28

论文:Risk Under Pressure: Compute-Aware Evaluation of Adversarial Robustness in Language Models
作者:Malikeh Ehghaghi, Boglárka Ecsedi, Marsha Chechik, Colin Raffel
机构:多伦多大学、Vector Institute、Hugging Face
论文:arXiv:2606.11409
代码:r-three/risk-under-pressure(待开源)
时间:2026-06-09


一句话总结

现有大模型安全评估用"攻击成功率"(ASR)衡量防御效果,但只看固定查询次数下的成功率——一个第一次就被攻破的模型,和一个十次才被攻破的模型,在现有评估里被评为同样不安全。多伦多大学+Hugging Face这篇论文把古典安全领域的"工作因子"概念引入LLM安全,用FLOPs统一衡量攻击成本,发现现有评估能严重高估防御效果(90%成功率的攻击可以被宣传成0%攻击成功率),并提出两个新指标:C@τ(达到τ%风险需要的计算量)和AE(单位计算量带来的风险)。


问题:现有评估在掩盖什么?

一个思想实验

假设两个模型:

  • 模型A:攻击第一次就成功,ASR@10 = 1.0
  • 模型B:攻击需要10次才成功,ASR@10 = 1.0

现有评估报告:两个模型都是"100%被攻破"。

但安全视角下,模型B显然更难被攻破——攻击者需要付出10倍计算成本。

现有评估的致命缺陷

现有做法 问题
"攻击X在Z次查询后达到Y%成功率" 只回答"多频繁",不回答"多大代价"
固定查询预算下的ASR 将所有攻击视为同等成本,掩盖真实攻击代价
排行榜式对比 两个模型ASR相同 → 被评为同样不安全,尽管成本差异巨大

关键洞察:现有评估用查询次数作为预算单位,但不同攻击的每次查询成本天差地别。模板攻击(JailBroken)一次查询=一次前向传播;白盒梯度攻击(GCG)一次查询=128次前向传播+梯度反向传播+候选评估。


核心方法:计算感知评估框架

核心思想

从古典安全领域引入工作因子(Work Factor):攻击者必须付出的计算努力才能突破系统。

统一度量:FLOPs

优势 说明
硬件无关性 不受GPU型号、内核优化、批处理策略影响
跨组件可比 梯度步骤、辅助模型调用、目标/评判查询可统一比较
操作量前驱 能量、墙钟时间、GPU小时、每次突破成本等均可由FLOPs导出

三种攻击的FLOPs成本核算

攻击策略 类型 每步成本 关键特征
JailBroken (JB) 模板攻击 一次前向 + 评判 最廉价,成本最低
PAIR 迭代优化 一次前向 + 评判 + 攻击者LLM 中等成本,迭代优化
GCG 白盒梯度 128候选评估 + 梯度反向 + 生成 + 评判 最昂贵,白盒梯度优化

GCG成本细节

  • 128个候选前向传播
  • 反向传播系数β=3(标准2:1 + 50%离散操作开销)
  • 对大规模模型,128候选成本占主导;对0.5B模型,梯度成本占比更高

新指标:风险-计算曲线

定义1:经验风险

\[\hat{R}(M, \pi, \lambda) = \frac{1}{N}\sum_{i=1}^N \mathbb{1}[\text{试验 } i \text{ 在 } \lambda \text{ 步内成功}]\]

定义2:平均累积FLOPs

\[\bar{C}(M, \pi, \lambda) = \frac{1}{N}\sum_{i=1}^N \sum_{t=1}^{\min(\lambda, t_i^*)} c_\pi(M, t)\]

核心指标

指标 符号 含义 解读
计算到τ%风险 C@τ 达到τ风险所需计算量 越高越安全
曲线下面积 CAURC 风险-计算曲线下面积 综合风险-成本权衡
平均效率 AE CAURC / C_max 每单位FLOP获得的风险,越低越安全

五大颠覆性发现

发现1:SFT比DPO/RLVR更鲁棒——对齐训练的非单调效应

Tulu3-8B训练阶段结果

模型 GCG C@0.5 PAIR C@0.5 JB C@0.5 JB AE
Base 59.3 11.2 9.2 53.3
SFT 52.4 8.9
DPO 521.2 79.9 40.9 10.4
RLVR 503.6 72.4 25.7 18.9

关键洞察

  • SFT阶段最鲁棒:GCG和PAIR均无法达到50%风险阈值(C@0.5=∞)
  • DPO/RLVR反而退化:后续对齐阶段降低计算空间鲁棒性
  • RLVR的JB攻击AE是SFT的2.1倍,DPO的1.8倍

归因

  • DPO对固定偏好数据过拟合,对抗覆盖有限
  • RLVR二元奖励可能意外降低校准拒绝能力

发现2:模型规模对廉价攻击几乎无效

Qwen2.5规模效应

模型 GCG C@0.5 增长倍数 JB C@0.5 增长倍数 GCG AE JB AE
0.5B 20.0 8.2 25.6 59.6
3B 173.7 8.7× 13.4 1.6× 3.3 36.8
7B 399.7 20× 22.8 2.8× 1.3 23.0

关键洞察

  • GCG成本增长20×(超线性于15×参数增长),JB仅2.8×
  • 7B模型JB的AE仍是GCG的18倍——规模优势对廉价攻击几乎无效
  • ASR@10几乎不变(JB: 0.99→0.94),但计算成本差异巨大

实践意义:单纯增大模型对防御廉价模板攻击帮助极小,防御者需要针对廉价攻击专门设计

发现3:迁移攻击大幅降低攻击者成本

Qwen2.5-0.5B → Qwen3-8B迁移

指标 直接攻击 迁移攻击
C@0.5
AE 4.9×10⁻³ 4.9×10⁻³
ASR@10 0.15 0.15

动态特征:风险快速上升后平台化——上限由后缀质量和目标鲁棒性决定,非额外计算。

战略意义:攻击者无需直接与目标交互,可在代理模型上优化后以零额外优化成本部署。这对闭源模型(GPT-4、Claude)尤其危险——攻击者只需在开源代理模型上训练,然后迁移到闭源目标。

发现4:安全RL在某些类别反而更差

Qwen3-4B vs SafeRL

攻击 Base SafeRL 观察
GCG C@0.5=∞ C@0.5=189.0 Base更鲁棒
PAIR 31.3 44.8 低预算Base更鲁棒,高预算SafeRL反超
JB 21.2 24.5 曲线几乎重合

GCG上SafeRL失效的原因:训练-分布不匹配——SafeRL针对自然语言对抗提示训练,GCG在logit层面发现token序列,常超出学习分布。

启示:安全训练不是万能药,需要匹配攻击类型。

发现5:不同危害类别的计算成本差异达5×

Qwen3-4B-SafeRL按类别分解

类别 SafeRL改善? 备注
骚扰与欺凌 显著改善 数据覆盖充分
错误信息 改善 数据覆盖充分
一般危害 改善 数据覆盖充分
非法活动 反而更差 数据覆盖不足
化学生物武器 改善有限 边缘类别
网络犯罪 显著更差 数据覆盖不足

关键数据:SafeRL的C@0.5跨类别跨度约(骚扰 vs 网络犯罪)。

归因:安全微调数据组成不平衡——某些类别获得3倍以上覆盖。


为什么这事重要?

1. 现有评估能严重高估防御效果

论文展示:如果只看ASR@10,一个90%成功率的攻击可以被宣传成0%攻击成功率——因为"10次查询内成功率"不等于"10次查询内达到阈值的成功率"。

现有评估的致命盲区

  • 不看攻击成本
  • 不看成本差异
  • 不看曲线形状(线性上升 vs 快速平台化)

2. 安全防御需要"成本底线"思维

论文的实践建议:

角色 建议
防御设计者 目标应为提高对手成本底线,非完美鲁棒性;关注廉价攻击的防护
评估者 必须报告计算感知指标,单点ASR不足
部署者 需按危害类别审计,非仅聚合指标
攻击研究者 迁移优化是降低实际攻击成本的关键策略

3. SFT可能比DPO/RLVR更安全——反直觉

主流认知:RLHF/DPO/RLVR是对齐训练的"高级阶段",安全效果更好。

论文发现:SFT阶段可能是最鲁棒的,后续阶段可能退化。DPO对固定偏好过拟合,RLVR二元奖励可能降低校准拒绝能力。

这不是说DPO/RLVR没用,而是说安全不是单调的——每一步后训练都需要用计算感知框架重新评估。

4. 模型规模是"双刃剑"

规模增大对昂贵攻击(GCG)保护显著(20×成本增长),但对廉价攻击(JB)几乎无效(2.8×)。

这意味着:一个7B模型在面对模板攻击时,并不比0.5B模型安全多少。防御者需要在廉价攻击上投入专门设计。

5. 迁移攻击是闭源模型的"阿喀琉斯之踵"

攻击者无需直接与闭源目标交互,只需在开源代理模型上优化,然后迁移。这几乎零额外成本

对GPT-4、Claude等闭源模型的启示:即使攻击者无法直接查询你,他们也能通过开源代理模型训练出有效的攻击后缀。


局限性与开放问题

局限 说明
FLOPs代理 未完全反映内存带宽、延迟、并行性
评判可靠性 自动评判存在假阳性/阴性、类别偏见
攻击覆盖 未包含联合优化防御的自适应攻击
成功二元化 所有越狱等同对待,未按危害严重性加权
规模限制 未覆盖最大规模闭源前沿模型(GPT-4/Claude)
模态限制 仅文本,多模态扩展待研究

一句话总结(再说一遍)

现有大模型安全评估用"攻击成功率"打分,但掩盖了攻击成本的巨大差异——一个第一次就被攻破的模型,和一个十次才被攻破的模型,被评为同样不安全。用FLOPs统一衡量攻击成本后,发现SFT比DPO/RLVR更鲁棒、模型规模对廉价攻击几乎无效、迁移攻击让闭源模型面临零成本威胁、安全RL在某些类别反而更差。安全评估不能只看"多频繁",必须看"多大代价"。

"安全不是完美防御,而是让攻击者付出足够高的代价。"


#小凯 #大模型安全 #对抗鲁棒性 #越狱攻击 #AI安全 #HuggingFace #多伦多大学 #计算感知评估 #FLOPs #工作因子

参考论文:
Malikeh Ehghaghi, Boglárka Ecsedi, Marsha Chechik, Colin Raffel. "Risk Under Pressure: Compute-Aware Evaluation of Adversarial Robustness in Language Models." arXiv:2606.11409, 2026.

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录