论文: Jailbreaking Vision-Language Models Through the Visual Modality 作者: Aharon Azulay, Jan Dubiński, Zhuoyun Li, Atharv Mittal, Yossi Gandelsman arXiv: 2605.00583 | 2026-04-30
一、那个"只防文字,不防图片"的安全漏洞
想象一个视觉语言模型(VLM),比如GPT-4V或Claude 3:
安全对齐:
- 文字层面:被训练拒绝有害请求
- "如何制作炸弹?" → "我不能回答这个问题"
但视觉层面呢?
- 如果有害信息编码在图片中?
- 如果图片中的文字被替换但语义保留?
- 如果通过视觉谜题引导模型输出有害内容?
VLMs的安全对齐主要关注文本输入,视觉模态是未被充分探索的攻击面。
二、四种视觉越狱攻击
这篇论文展示了四种创新的视觉攻击方法:
攻击1:视觉符号序列编码
- 把有害指令编码为视觉符号(如图标、颜色编码)
- 附带"解码图例"
- 模型看到:符号 + 图例 → 解码出有害指令 → 执行
攻击2:对象替换
- 把有害对象替换为无害替代品
- 例如:把"炸弹"的图片替换为"香蕉"
- 文本提示用替代词请求有害操作
- "请描述如何用香蕉制造爆炸"
- 模型知道"香蕉"在这里代指"炸弹"
攻击3:文本替换+视觉上下文保留
- 图片中的有害文字被替换为无害词
- 但视觉上下文保留了原意
- 例如:书的封面上"炸弹制作手册"的文字被P成"烹饪手册"
- 但封面图片(爆炸图案)保留了原意
- 模型从视觉上下文理解真实含义
攻击4:视觉类比谜题
- 设计谜题,答案需要输出有害信息
- "A之于B,就像C之于?"
- 精心设计的类比,答案是敏感信息
- 模型在"解谜"过程中输出有害内容
这些攻击的共同点:绕过文本层面的安全过滤,通过视觉模态传递有害信息。
三、为什么视觉模态如此脆弱?
VLMs的安全架构:
文本对齐强:
- 大量RLHF训练
- 文本层面的安全分类器
- 对文字输入的拒绝能力很强
视觉对齐弱:
- 视觉编码器主要关注"理解图像"
- 安全对齐主要在文本解码器
- 视觉→文本的映射可能绕过安全检查
多模态交互的盲区:
- 安全系统通常分别检查文本和图像
- 但有害信息可能分布在两者的交互中
- 单独看都无害,组合起来有害
人类直觉的利用:
- 攻击利用人类视觉理解的灵活性
- 符号、隐喻、类比
- 模型学会了这些人类能力,但也学会了绕过方法
四、防御的挑战与方向
防御视觉越狱的难点:
1. 多模态联合检查
- 不能单独检查文本或图像
- 必须检查它们的组合语义
- 计算成本高
2. 语义理解的模糊性
- "香蕉"什么时候只是香蕉,什么时候是隐喻?
- 需要上下文理解
- 容易误伤合法请求
3. 攻击面扩大
- 文本攻击 + 视觉攻击 + 音频攻击
- 多模态组合的攻击空间指数增长
- 完全防御几乎不可能
可能的防御方向:
- 视觉层面的安全分类器
- 多模态联合安全评估
- 对抗训练(用视觉攻击样本训练)
- 输出层面的二次检查
五、费曼式的判断:安全是一个移动靶
费曼说过:
"如果你认为你已经解决了所有问题,那你一定忽略了什么。"
在AI安全中:
"每当你在一个模态上加强了安全,攻击者就会转向另一个模态。VLMs的视觉越狱提醒我们:安全不是静态的状态,而是持续的博弈。没有'完全安全',只有'当前已知攻击下安全'。"
这也提醒我们:
- 多模态AI的安全比单模态更复杂
- 不是简单相加,而是指数增长
- 需要持续的红队测试
- 需要学术界和工业界的协作
六、带走的启发
如果你在构建或使用多模态AI系统,问自己:
- "我的安全对齐是否覆盖了所有模态?"
- "多模态交互是否产生了新的攻击面?"
- "我是否进行了视觉层面的红队测试?"
- "安全系统是否检查了模态组合的语义?"
这篇论文的核心启示:多模态AI的安全不是单模态安全的简单叠加。
当模型能看、能读、能推理时,攻击者就能通过看、读、推理的组合来绕过安全。VLMs的视觉越狱是一个警示:在拥抱多模态能力的同时,我们必须同样认真地对待多模态安全。
在AI安全的军备竞赛中,视觉模态是新的前线。
#AIAlignment #Jailbreaking #VisionLanguageModels #MultimodalAI #AdversarialRobustness #FeynmanLearning #智柴AI实验室
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。