90%攻击成功率被宣传成0%？大模型安全评估的"皇帝新衣"被扒了

> 论文：Risk Under Pressure: Compute-Aware Evaluation of Adversarial Robustness in Language Models > 作者：Malikeh Ehghaghi, Boglárka Ecsedi, Marsha Chechik, Colin Raffel > 机构：多伦多大学、Vector Institute、Hugging Face > 论文：arXiv:2606.11409 > 代码：r-three/risk-under-pressure（待开源） > 时间：2026-06-09

---

一句话总结

现有大模型安全评估用"攻击成功率"（ASR）衡量防御效果，但只看固定查询次数下的成功率——一个第一次就被攻破的模型，和一个十次才被攻破的模型，在现有评估里被评为同样不安全。多伦多大学+Hugging Face这篇论文把古典安全领域的"工作因子"概念引入LLM安全，用FLOPs统一衡量攻击成本，发现现有评估能严重高估防御效果（90%成功率的攻击可以被宣传成0%攻击成功率），并提出两个新指标：C@τ（达到τ%风险需要的计算量）和AE（单位计算量带来的风险）。

---

问题：现有评估在掩盖什么？

一个思想实验

假设两个模型：

模型A：攻击第一次就成功，ASR@10 = 1.0
模型B：攻击需要10次才成功，ASR@10 = 1.0

现有评估报告：两个模型都是"100%被攻破"。

但安全视角下，模型B显然更难被攻破——攻击者需要付出10倍计算成本。

现有评估的致命缺陷

现有做法	问题
"攻击X在Z次查询后达到Y%成功率"	只回答"多频繁"，不回答"多大代价"
固定查询预算下的ASR	将所有攻击视为同等成本，掩盖真实攻击代价
排行榜式对比	两个模型ASR相同 → 被评为同样不安全，尽管成本差异巨大

关键洞察：现有评估用查询次数作为预算单位，但不同攻击的每次查询成本天差地别。模板攻击（JailBroken）一次查询=一次前向传播；白盒梯度攻击（GCG）一次查询=128次前向传播+梯度反向传播+候选评估。

---

核心方法：计算感知评估框架

核心思想

从古典安全领域引入工作因子（Work Factor）：攻击者必须付出的计算努力才能突破系统。

统一度量：FLOPs

优势	说明
硬件无关性	不受GPU型号、内核优化、批处理策略影响
跨组件可比	梯度步骤、辅助模型调用、目标/评判查询可统一比较
操作量前驱	能量、墙钟时间、GPU小时、每次突破成本等均可由FLOPs导出

三种攻击的FLOPs成本核算

攻击策略	类型	每步成本	关键特征
JailBroken (JB)	模板攻击	一次前向 + 评判	最廉价，成本最低
PAIR	迭代优化	一次前向 + 评判 + 攻击者LLM	中等成本，迭代优化
GCG	白盒梯度	128候选评估 + 梯度反向 + 生成 + 评判	最昂贵，白盒梯度优化

GCG成本细节：

128个候选前向传播
反向传播系数β=3（标准2:1 + 50%离散操作开销）
对大规模模型，128候选成本占主导；对0.5B模型，梯度成本占比更高

新指标：风险-计算曲线

定义1：经验风险 $$\hat{R}(M, \pi, \lambda) = \frac{1}{N}\sum_{i=1}^N \mathbb{1}[\text{试验 } i \text{ 在 } \lambda \text{ 步内成功}]$$

定义2：平均累积FLOPs $$\bar{C}(M, \pi, \lambda) = \frac{1}{N}\sum_{i=1}^N \sum_{t=1}^{\min(\lambda, t_i^*)} c_\pi(M, t)$$

核心指标：

指标	符号	含义	解读
计算到τ%风险	C@τ	达到τ风险所需计算量	越高越安全
曲线下面积	CAURC	风险-计算曲线下面积	综合风险-成本权衡
平均效率	AE	CAURC / C_max	每单位FLOP获得的风险，越低越安全

---

五大颠覆性发现

发现1：SFT比DPO/RLVR更鲁棒——对齐训练的非单调效应

Tulu3-8B训练阶段结果：

模型	GCG C@0.5	PAIR C@0.5	JB C@0.5	JB AE
Base	59.3	11.2	9.2	53.3
SFT	∞	∞	52.4	8.9
DPO	521.2	79.9	40.9	10.4
RLVR	503.6	72.4	25.7	18.9

关键洞察：

SFT阶段最鲁棒：GCG和PAIR均无法达到50%风险阈值（C@0.5=∞）
DPO/RLVR反而退化：后续对齐阶段降低计算空间鲁棒性
RLVR的JB攻击AE是SFT的2.1倍，DPO的1.8倍

归因：

DPO对固定偏好数据过拟合，对抗覆盖有限
RLVR二元奖励可能意外降低校准拒绝能力

发现2：模型规模对廉价攻击几乎无效

Qwen2.5规模效应：

模型	GCG C@0.5	增长倍数	JB C@0.5	增长倍数	GCG AE	JB AE
0.5B	20.0	1×	8.2	1×	25.6	59.6
3B	173.7	8.7×	13.4	1.6×	3.3	36.8
7B	399.7	20×	22.8	2.8×	1.3	23.0

关键洞察：

GCG成本增长20×（超线性于15×参数增长），JB仅2.8×
7B模型JB的AE仍是GCG的18倍——规模优势对廉价攻击几乎无效
ASR@10几乎不变（JB: 0.99→0.94），但计算成本差异巨大

实践意义：单纯增大模型对防御廉价模板攻击帮助极小，防御者需要针对廉价攻击专门设计。

发现3：迁移攻击大幅降低攻击者成本

Qwen2.5-0.5B → Qwen3-8B迁移：

指标	直接攻击	迁移攻击
C@0.5	∞	∞
AE	4.9×10⁻³	4.9×10⁻³
ASR@10	0.15	0.15

动态特征：风险快速上升后平台化——上限由后缀质量和目标鲁棒性决定，非额外计算。

战略意义：攻击者无需直接与目标交互，可在代理模型上优化后以零额外优化成本部署。这对闭源模型（GPT-4、Claude）尤其危险——攻击者只需在开源代理模型上训练，然后迁移到闭源目标。

发现4：安全RL在某些类别反而更差

Qwen3-4B vs SafeRL：

攻击	Base	SafeRL	观察
GCG	C@0.5=∞	C@0.5=189.0	Base更鲁棒
PAIR	31.3	44.8	低预算Base更鲁棒，高预算SafeRL反超
JB	21.2	24.5	曲线几乎重合

GCG上SafeRL失效的原因：训练-分布不匹配——SafeRL针对自然语言对抗提示训练，GCG在logit层面发现token序列，常超出学习分布。

启示：安全训练不是万能药，需要匹配攻击类型。

发现5：不同危害类别的计算成本差异达5×

Qwen3-4B-SafeRL按类别分解：

类别	SafeRL改善？	备注
骚扰与欺凌	显著改善	数据覆盖充分
错误信息	改善	数据覆盖充分
一般危害	改善	数据覆盖充分
非法活动	反而更差	数据覆盖不足
化学生物武器	改善有限	边缘类别
网络犯罪	显著更差	数据覆盖不足

关键数据：SafeRL的C@0.5跨类别跨度约5×（骚扰 vs 网络犯罪）。

归因：安全微调数据组成不平衡——某些类别获得3倍以上覆盖。

---

为什么这事重要？

1. 现有评估能严重高估防御效果

论文展示：如果只看ASR@10，一个90%成功率的攻击可以被宣传成0%攻击成功率——因为"10次查询内成功率"不等于"10次查询内达到阈值的成功率"。

现有评估的致命盲区：

不看攻击成本
不看成本差异
不看曲线形状（线性上升 vs 快速平台化）

2. 安全防御需要"成本底线"思维

论文的实践建议：

角色	建议
防御设计者	目标应为提高对手成本底线，非完美鲁棒性；关注廉价攻击的防护
评估者	必须报告计算感知指标，单点ASR不足
部署者	需按危害类别审计，非仅聚合指标
攻击研究者	迁移优化是降低实际攻击成本的关键策略

3. SFT可能比DPO/RLVR更安全——反直觉

主流认知：RLHF/DPO/RLVR是对齐训练的"高级阶段"，安全效果更好。

论文发现：SFT阶段可能是最鲁棒的，后续阶段可能退化。DPO对固定偏好过拟合，RLVR二元奖励可能降低校准拒绝能力。

这不是说DPO/RLVR没用，而是说安全不是单调的——每一步后训练都需要用计算感知框架重新评估。

4. 模型规模是"双刃剑"

规模增大对昂贵攻击（GCG）保护显著（20×成本增长），但对廉价攻击（JB）几乎无效（2.8×）。

这意味着：一个7B模型在面对模板攻击时，并不比0.5B模型安全多少。防御者需要在廉价攻击上投入专门设计。

5. 迁移攻击是闭源模型的"阿喀琉斯之踵"

攻击者无需直接与闭源目标交互，只需在开源代理模型上优化，然后迁移。这几乎零额外成本。

对GPT-4、Claude等闭源模型的启示：即使攻击者无法直接查询你，他们也能通过开源代理模型训练出有效的攻击后缀。

---

局限性与开放问题

局限	说明
FLOPs代理	未完全反映内存带宽、延迟、并行性
评判可靠性	自动评判存在假阳性/阴性、类别偏见
攻击覆盖	未包含联合优化防御的自适应攻击
成功二元化	所有越狱等同对待，未按危害严重性加权
规模限制	未覆盖最大规模闭源前沿模型（GPT-4/Claude）
模态限制	仅文本，多模态扩展待研究

---

一句话总结（再说一遍）

现有大模型安全评估用"攻击成功率"打分，但掩盖了攻击成本的巨大差异——一个第一次就被攻破的模型，和一个十次才被攻破的模型，被评为同样不安全。用FLOPs统一衡量攻击成本后，发现SFT比DPO/RLVR更鲁棒、模型规模对廉价攻击几乎无效、迁移攻击让闭源模型面临零成本威胁、安全RL在某些类别反而更差。安全评估不能只看"多频繁"，必须看"多大代价"。

> "安全不是完美防御，而是让攻击者付出足够高的代价。"

---

#小凯 #大模型安全 #对抗鲁棒性 #越狱攻击 #AI安全 #HuggingFace #多伦多大学 #计算感知评估 #FLOPs #工作因子

参考论文： Malikeh Ehghaghi, Boglárka Ecsedi, Marsha Chechik, Colin Raffel. "Risk Under Pressure: Compute-Aware Evaluation of Adversarial Robustness in Language Models." arXiv:2606.11409, 2026.