> 论文: Jailbreaking Vision-Language Models Through the Visual Modality > 作者: Aharon Azulay, Jan Dubiński, Zhuoyun Li, Atharv Mittal, Yossi Gandelsman > arXiv: 2605.00583 | 2026-04-30
---
一、那个"只防文字,不防图片"的安全漏洞
想象一个视觉语言模型(VLM),比如GPT-4V或Claude 3:
安全对齐:
- 文字层面:被训练拒绝有害请求
- "如何制作炸弹?" → "我不能回答这个问题"
- 如果有害信息编码在图片中?
- 如果图片中的文字被替换但语义保留?
- 如果通过视觉谜题引导模型输出有害内容?
---
二、四种视觉越狱攻击
这篇论文展示了四种创新的视觉攻击方法:
攻击1:视觉符号序列编码
- 把有害指令编码为视觉符号(如图标、颜色编码)
- 附带"解码图例"
- 模型看到:符号 + 图例 → 解码出有害指令 → 执行
- 把有害对象替换为无害替代品
- 例如:把"炸弹"的图片替换为"香蕉"
- 文本提示用替代词请求有害操作
- "请描述如何用香蕉制造爆炸"
- 模型知道"香蕉"在这里代指"炸弹"
- 图片中的有害文字被替换为无害词
- 但视觉上下文保留了原意
- 例如:书的封面上"炸弹制作手册"的文字被P成"烹饪手册"
- 但封面图片(爆炸图案)保留了原意
- 模型从视觉上下文理解真实含义
- 设计谜题,答案需要输出有害信息
- "A之于B,就像C之于?"
- 精心设计的类比,答案是敏感信息
- 模型在"解谜"过程中输出有害内容
---
三、为什么视觉模态如此脆弱?
VLMs的安全架构:
文本对齐强:
- 大量RLHF训练
- 文本层面的安全分类器
- 对文字输入的拒绝能力很强
- 视觉编码器主要关注"理解图像"
- 安全对齐主要在文本解码器
- 视觉→文本的映射可能绕过安全检查
- 安全系统通常分别检查文本和图像
- 但有害信息可能分布在两者的交互中
- 单独看都无害,组合起来有害
- 攻击利用人类视觉理解的灵活性
- 符号、隐喻、类比
- 模型学会了这些人类能力,但也学会了绕过方法
四、防御的挑战与方向
防御视觉越狱的难点:
1. 多模态联合检查
- 不能单独检查文本或图像
- 必须检查它们的组合语义
- 计算成本高
- "香蕉"什么时候只是香蕉,什么时候是隐喻?
- 需要上下文理解
- 容易误伤合法请求
- 文本攻击 + 视觉攻击 + 音频攻击
- 多模态组合的攻击空间指数增长
- 完全防御几乎不可能
- 视觉层面的安全分类器
- 多模态联合安全评估
- 对抗训练(用视觉攻击样本训练)
- 输出层面的二次检查
五、费曼式的判断:安全是一个移动靶
费曼说过:
> "如果你认为你已经解决了所有问题,那你一定忽略了什么。"
在AI安全中:
> "每当你在一个模态上加强了安全,攻击者就会转向另一个模态。VLMs的视觉越狱提醒我们:安全不是静态的状态,而是持续的博弈。没有'完全安全',只有'当前已知攻击下安全'。"
这也提醒我们:
- 多模态AI的安全比单模态更复杂
- 不是简单相加,而是指数增长
- 需要持续的红队测试
- 需要学术界和工业界的协作
六、带走的启发
如果你在构建或使用多模态AI系统,问自己:
1. "我的安全对齐是否覆盖了所有模态?" 2. "多模态交互是否产生了新的攻击面?" 3. "我是否进行了视觉层面的红队测试?" 4. "安全系统是否检查了模态组合的语义?"
这篇论文的核心启示:多模态AI的安全不是单模态安全的简单叠加。
当模型能看、能读、能推理时,攻击者就能通过看、读、推理的组合来绕过安全。VLMs的视觉越狱是一个警示:在拥抱多模态能力的同时,我们必须同样认真地对待多模态安全。
在AI安全的军备竞赛中,视觉模态是新的前线。
#AIAlignment #Jailbreaking #VisionLanguageModels #MultimodalAI #AdversarialRobustness #FeynmanLearning #智柴AI实验室