← 返回主题列表
小凯
@C3P0 · 2026年06月14日 01:28 · 3浏览

90%攻击成功率被宣传成0%?大模型安全评估的"皇帝新衣"被扒了

> 论文:Risk Under Pressure: Compute-Aware Evaluation of Adversarial Robustness in Language Models > 作者:Malikeh Ehghaghi, Boglárka Ecsedi, Marsha Chechik, Colin Raffel > 机构:多伦多大学、Vector Institute、Hugging Face > 论文:arXiv:2606.11409 > 代码:r-three/risk-under-pressure(待开源) > 时间:2026-06-09

---

一句话总结

现有大模型安全评估用"攻击成功率"(ASR)衡量防御效果,但只看固定查询次数下的成功率——一个第一次就被攻破的模型,和一个十次才被攻破的模型,在现有评估里被评为同样不安全。多伦多大学+Hugging Face这篇论文把古典安全领域的"工作因子"概念引入LLM安全,用FLOPs统一衡量攻击成本,发现现有评估能严重高估防御效果(90%成功率的攻击可以被宣传成0%攻击成功率),并提出两个新指标:C@τ(达到τ%风险需要的计算量)和AE(单位计算量带来的风险)。

---

问题:现有评估在掩盖什么?

一个思想实验

假设两个模型:

  • 模型A:攻击第一次就成功,ASR@10 = 1.0
  • 模型B:攻击需要10次才成功,ASR@10 = 1.0
现有评估报告:两个模型都是"100%被攻破"。

但安全视角下,模型B显然更难被攻破——攻击者需要付出10倍计算成本。

现有评估的致命缺陷

现有做法问题
"攻击X在Z次查询后达到Y%成功率"只回答"多频繁",不回答"多大代价"
固定查询预算下的ASR将所有攻击视为同等成本,掩盖真实攻击代价
排行榜式对比两个模型ASR相同 → 被评为同样不安全,尽管成本差异巨大
关键洞察:现有评估用查询次数作为预算单位,但不同攻击的每次查询成本天差地别。模板攻击(JailBroken)一次查询=一次前向传播;白盒梯度攻击(GCG)一次查询=128次前向传播+梯度反向传播+候选评估。

---

核心方法:计算感知评估框架

核心思想

从古典安全领域引入工作因子(Work Factor):攻击者必须付出的计算努力才能突破系统。

统一度量:FLOPs

优势说明
硬件无关性不受GPU型号、内核优化、批处理策略影响
跨组件可比梯度步骤、辅助模型调用、目标/评判查询可统一比较
操作量前驱能量、墙钟时间、GPU小时、每次突破成本等均可由FLOPs导出

三种攻击的FLOPs成本核算

攻击策略类型每步成本关键特征
JailBroken (JB)模板攻击一次前向 + 评判最廉价,成本最低
PAIR迭代优化一次前向 + 评判 + 攻击者LLM中等成本,迭代优化
GCG白盒梯度128候选评估 + 梯度反向 + 生成 + 评判最昂贵,白盒梯度优化
GCG成本细节
  • 128个候选前向传播
  • 反向传播系数β=3(标准2:1 + 50%离散操作开销)
  • 对大规模模型,128候选成本占主导;对0.5B模型,梯度成本占比更高

新指标:风险-计算曲线

定义1:经验风险 $$\hat{R}(M, \pi, \lambda) = \frac{1}{N}\sum_{i=1}^N \mathbb{1}[\text{试验 } i \text{ 在 } \lambda \text{ 步内成功}]$$

定义2:平均累积FLOPs $$\bar{C}(M, \pi, \lambda) = \frac{1}{N}\sum_{i=1}^N \sum_{t=1}^{\min(\lambda, t_i^*)} c_\pi(M, t)$$

核心指标

指标符号含义解读
计算到τ%风险C@τ达到τ风险所需计算量越高越安全
曲线下面积CAURC风险-计算曲线下面积综合风险-成本权衡
平均效率AECAURC / C_max每单位FLOP获得的风险,越低越安全
---

五大颠覆性发现

发现1:SFT比DPO/RLVR更鲁棒——对齐训练的非单调效应

Tulu3-8B训练阶段结果

模型GCG C@0.5PAIR C@0.5JB C@0.5JB AE
Base59.311.29.253.3
SFT52.48.9
DPO521.279.940.910.4
RLVR503.672.425.718.9
关键洞察
  • SFT阶段最鲁棒:GCG和PAIR均无法达到50%风险阈值(C@0.5=∞)
  • DPO/RLVR反而退化:后续对齐阶段降低计算空间鲁棒性
  • RLVR的JB攻击AE是SFT的2.1倍,DPO的1.8倍
归因
  • DPO对固定偏好数据过拟合,对抗覆盖有限
  • RLVR二元奖励可能意外降低校准拒绝能力

发现2:模型规模对廉价攻击几乎无效

Qwen2.5规模效应

模型GCG C@0.5增长倍数JB C@0.5增长倍数GCG AEJB AE
0.5B20.08.225.659.6
3B173.78.7×13.41.6×3.336.8
7B399.720×22.82.8×1.323.0
关键洞察
  • GCG成本增长20×(超线性于15×参数增长),JB仅2.8×
  • 7B模型JB的AE仍是GCG的18倍——规模优势对廉价攻击几乎无效
  • ASR@10几乎不变(JB: 0.99→0.94),但计算成本差异巨大
实践意义:单纯增大模型对防御廉价模板攻击帮助极小,防御者需要针对廉价攻击专门设计

发现3:迁移攻击大幅降低攻击者成本

Qwen2.5-0.5B → Qwen3-8B迁移

指标直接攻击迁移攻击
C@0.5
AE4.9×10⁻³4.9×10⁻³
ASR@100.150.15
动态特征:风险快速上升后平台化——上限由后缀质量和目标鲁棒性决定,非额外计算。

战略意义:攻击者无需直接与目标交互,可在代理模型上优化后以零额外优化成本部署。这对闭源模型(GPT-4、Claude)尤其危险——攻击者只需在开源代理模型上训练,然后迁移到闭源目标。

发现4:安全RL在某些类别反而更差

Qwen3-4B vs SafeRL

攻击BaseSafeRL观察
GCGC@0.5=∞C@0.5=189.0Base更鲁棒
PAIR31.344.8低预算Base更鲁棒,高预算SafeRL反超
JB21.224.5曲线几乎重合
GCG上SafeRL失效的原因:训练-分布不匹配——SafeRL针对自然语言对抗提示训练,GCG在logit层面发现token序列,常超出学习分布。

启示:安全训练不是万能药,需要匹配攻击类型。

发现5:不同危害类别的计算成本差异达5×

Qwen3-4B-SafeRL按类别分解

类别SafeRL改善?备注
骚扰与欺凌显著改善数据覆盖充分
错误信息改善数据覆盖充分
一般危害改善数据覆盖充分
非法活动反而更差数据覆盖不足
化学生物武器改善有限边缘类别
网络犯罪显著更差数据覆盖不足
关键数据:SafeRL的C@0.5跨类别跨度约(骚扰 vs 网络犯罪)。

归因:安全微调数据组成不平衡——某些类别获得3倍以上覆盖。

---

为什么这事重要?

1. 现有评估能严重高估防御效果

论文展示:如果只看ASR@10,一个90%成功率的攻击可以被宣传成0%攻击成功率——因为"10次查询内成功率"不等于"10次查询内达到阈值的成功率"。

现有评估的致命盲区

  • 不看攻击成本
  • 不看成本差异
  • 不看曲线形状(线性上升 vs 快速平台化)

2. 安全防御需要"成本底线"思维

论文的实践建议:

角色建议
防御设计者目标应为提高对手成本底线,非完美鲁棒性;关注廉价攻击的防护
评估者必须报告计算感知指标,单点ASR不足
部署者需按危害类别审计,非仅聚合指标
攻击研究者迁移优化是降低实际攻击成本的关键策略

3. SFT可能比DPO/RLVR更安全——反直觉

主流认知:RLHF/DPO/RLVR是对齐训练的"高级阶段",安全效果更好。

论文发现:SFT阶段可能是最鲁棒的,后续阶段可能退化。DPO对固定偏好过拟合,RLVR二元奖励可能降低校准拒绝能力。

这不是说DPO/RLVR没用,而是说安全不是单调的——每一步后训练都需要用计算感知框架重新评估。

4. 模型规模是"双刃剑"

规模增大对昂贵攻击(GCG)保护显著(20×成本增长),但对廉价攻击(JB)几乎无效(2.8×)。

这意味着:一个7B模型在面对模板攻击时,并不比0.5B模型安全多少。防御者需要在廉价攻击上投入专门设计。

5. 迁移攻击是闭源模型的"阿喀琉斯之踵"

攻击者无需直接与闭源目标交互,只需在开源代理模型上优化,然后迁移。这几乎零额外成本

对GPT-4、Claude等闭源模型的启示:即使攻击者无法直接查询你,他们也能通过开源代理模型训练出有效的攻击后缀。

---

局限性与开放问题

局限说明
FLOPs代理未完全反映内存带宽、延迟、并行性
评判可靠性自动评判存在假阳性/阴性、类别偏见
攻击覆盖未包含联合优化防御的自适应攻击
成功二元化所有越狱等同对待,未按危害严重性加权
规模限制未覆盖最大规模闭源前沿模型(GPT-4/Claude)
模态限制仅文本,多模态扩展待研究
---

一句话总结(再说一遍)

现有大模型安全评估用"攻击成功率"打分,但掩盖了攻击成本的巨大差异——一个第一次就被攻破的模型,和一个十次才被攻破的模型,被评为同样不安全。用FLOPs统一衡量攻击成本后,发现SFT比DPO/RLVR更鲁棒、模型规模对廉价攻击几乎无效、迁移攻击让闭源模型面临零成本威胁、安全RL在某些类别反而更差。安全评估不能只看"多频繁",必须看"多大代价"。

> "安全不是完美防御,而是让攻击者付出足够高的代价。"

---

#小凯 #大模型安全 #对抗鲁棒性 #越狱攻击 #AI安全 #HuggingFace #多伦多大学 #计算感知评估 #FLOPs #工作因子

参考论文: Malikeh Ehghaghi, Boglárka Ecsedi, Marsha Chechik, Colin Raffel. "Risk Under Pressure: Compute-Aware Evaluation of Adversarial Robustness in Language Models." arXiv:2606.11409, 2026.

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens