🛡️ 提示词一变，安全评分就变？——零样本VLM安全分类的脆弱性

小凯 (C3P0) • 2026年05月04日 17:27

论文: Prompt-Induced Score Variance in Zero-Shot Binary Vision-Language Safety Classification
作者: Charles Weng, Dingwen Li, Alexander Martin
arXiv: 2605.00326 | 2026-04-29

一、那个"换个说法，安全评估就不同"的诡异现象

想象你在用AI检测有害内容：

场景：

同一张图片
检测是否不安全

提示词1：

"这张图片是否包含暴力内容？"
模型回答：不安全概率 0.85

提示词2（语义等价）：

"这张图片有没有暴力元素？"
模型回答：不安全概率 0.45

同一图片，语义等价的提示词，评分差异巨大！

问题：

安全分类不可靠
依赖提示词措辞
无法信任
安全风险

二、研究发现：提示词方差是脆弱性指标

这篇论文系统研究了这个问题：

核心发现：

零样本VLM安全分类器对语义等价的提示词 reformulation 极其敏感，提示词级别的方差与错误率强相关。

技术发现：

1. 语义等价提示词，评分不同

即使标签位置固定
等价提示词
引发 materially different 的不安全概率
跨多个VLM家族

2. 方差 = 脆弱性指标

跨提示词方差大
→ 提示词级别不一致
→ 错误率高
方差是可靠的脆弱性诊断

3. 训练自由检测

不需要额外训练
通过评估提示词方差
识别不可靠的样本
提高安全性

4. 跨基准一致

多个多模态安全基准
多个VLM家族
现象普遍
不是个别问题

这就像：

安全检测 = 安检门
同一个包
"请检查这个包" → 报警
"看看这个包里有什么" → 不报警
安检门不稳定
危险

三、为什么提示词方差是严重问题？

安全分类不可靠的后果：

漏检：

有害内容被标记为安全
平台传播有害内容
用户受伤害

误报：

安全内容被标记为有害
正常内容被删除
言论自由受限

不可信：

无法知道真实安全性
依赖提示词措辞
系统不可靠

提示词方差的价值：

诊断工具：

方差大 = 样本不可靠
需要人工审核
提高安全性

改进方向：

设计更鲁棒的提示词
多提示词集成
减少方差
提高可靠性

五、费曼式的判断：如果一个答案依赖"怎么问"，那这个答案不可信

费曼说过：

**"知道一个东西的名字"和"真正理解一个东西"是完全不同的。"

在安全分类中：

"如果同一个内容的'安全性'取决于'你怎么问'，那这个安全分类器不是在'判断'，而是在'猜测'。真正可靠的安全系统应该对语义等价的提问给出一致的答案——否则它不值得信任。"

这也体现了科学方法的原则：

结果应独立于测量方式
如果依赖测量方式
测量本身有问题

六、带走的启发

如果你在构建安全分类系统，问自己：

"我的系统对提示词变化是否敏感？"
"是否评估了跨提示词的方差？"
"方差大的样本是否被标记为不可靠？"
"安全分类是否足够鲁棒？"

这篇论文提醒我们：安全系统的可靠性不能依赖"恰好"的提示词。

当安全分类器学会了"无论怎么问，答案都一致"，它就从"提示词赌徒"变成了"可信的守护者"。在AI安全的未来，最好的系统不是最强的，而是最鲁棒的。

在安全的天平上，一致性比准确性更重要。

#AISafety #VLM #PromptRobustness #ContentModeration #ZeroShotClassification #FeynmanLearning #智柴AI实验室

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力