🔓 视觉越狱：当VLMs的"眼睛"成为攻击入口

> 论文: Jailbreaking Vision-Language Models Through the Visual Modality > 作者: Aharon Azulay, Jan Dubiński, Zhuoyun Li, Atharv Mittal, Yossi Gandelsman > arXiv: 2605.00583 | 2026-04-30

---

一、那个"只防文字，不防图片"的安全漏洞

想象一个视觉语言模型（VLM），比如GPT-4V或Claude 3：

安全对齐：

文字层面：被训练拒绝有害请求
"如何制作炸弹？" → "我不能回答这个问题"

但视觉层面呢？

如果有害信息编码在图片中？
如果图片中的文字被替换但语义保留？
如果通过视觉谜题引导模型输出有害内容？

VLMs的安全对齐主要关注文本输入，视觉模态是未被充分探索的攻击面。

---

二、四种视觉越狱攻击

这篇论文展示了四种创新的视觉攻击方法：

攻击1：视觉符号序列编码

把有害指令编码为视觉符号（如图标、颜色编码）
附带"解码图例"
模型看到：符号 + 图例 → 解码出有害指令 → 执行

攻击2：对象替换

把有害对象替换为无害替代品
例如：把"炸弹"的图片替换为"香蕉"
文本提示用替代词请求有害操作
"请描述如何用香蕉制造爆炸"
模型知道"香蕉"在这里代指"炸弹"

攻击3：文本替换+视觉上下文保留

图片中的有害文字被替换为无害词
但视觉上下文保留了原意
例如：书的封面上"炸弹制作手册"的文字被P成"烹饪手册"
但封面图片（爆炸图案）保留了原意
模型从视觉上下文理解真实含义

攻击4：视觉类比谜题

设计谜题，答案需要输出有害信息
"A之于B，就像C之于？"
精心设计的类比，答案是敏感信息
模型在"解谜"过程中输出有害内容

这些攻击的共同点：绕过文本层面的安全过滤，通过视觉模态传递有害信息。

---

三、为什么视觉模态如此脆弱？

VLMs的安全架构：

文本对齐强：

大量RLHF训练
文本层面的安全分类器
对文字输入的拒绝能力很强

视觉对齐弱：

视觉编码器主要关注"理解图像"
安全对齐主要在文本解码器
视觉→文本的映射可能绕过安全检查

多模态交互的盲区：

安全系统通常分别检查文本和图像
但有害信息可能分布在两者的交互中
单独看都无害，组合起来有害

人类直觉的利用：

攻击利用人类视觉理解的灵活性
符号、隐喻、类比
模型学会了这些人类能力，但也学会了绕过方法

---

四、防御的挑战与方向

防御视觉越狱的难点：

1. 多模态联合检查

不能单独检查文本或图像
必须检查它们的组合语义
计算成本高

2. 语义理解的模糊性

"香蕉"什么时候只是香蕉，什么时候是隐喻？
需要上下文理解
容易误伤合法请求

3. 攻击面扩大

文本攻击 + 视觉攻击 + 音频攻击
多模态组合的攻击空间指数增长
完全防御几乎不可能

可能的防御方向：

视觉层面的安全分类器
多模态联合安全评估
对抗训练（用视觉攻击样本训练）
输出层面的二次检查

---

五、费曼式的判断：安全是一个移动靶

费曼说过：

> "如果你认为你已经解决了所有问题，那你一定忽略了什么。"

在AI安全中：

> "每当你在一个模态上加强了安全，攻击者就会转向另一个模态。VLMs的视觉越狱提醒我们：安全不是静态的状态，而是持续的博弈。没有'完全安全'，只有'当前已知攻击下安全'。"

这也提醒我们：

多模态AI的安全比单模态更复杂
不是简单相加，而是指数增长
需要持续的红队测试
需要学术界和工业界的协作

---

六、带走的启发

如果你在构建或使用多模态AI系统，问自己：

1. "我的安全对齐是否覆盖了所有模态？" 2. "多模态交互是否产生了新的攻击面？" 3. "我是否进行了视觉层面的红队测试？" 4. "安全系统是否检查了模态组合的语义？"

这篇论文的核心启示：多模态AI的安全不是单模态安全的简单叠加。

当模型能看、能读、能推理时，攻击者就能通过看、读、推理的组合来绕过安全。VLMs的视觉越狱是一个警示：在拥抱多模态能力的同时，我们必须同样认真地对待多模态安全。

在AI安全的军备竞赛中，视觉模态是新的前线。

#AIAlignment #Jailbreaking #VisionLanguageModels #MultimodalAI #AdversarialRobustness #FeynmanLearning #智柴AI实验室