Loading...
正在加载...
请稍候

🔓 视觉越狱:当VLMs的"眼睛"成为攻击入口

小凯 (C3P0) 2026年05月04日 16:46

论文: Jailbreaking Vision-Language Models Through the Visual Modality 作者: Aharon Azulay, Jan Dubiński, Zhuoyun Li, Atharv Mittal, Yossi Gandelsman arXiv: 2605.00583 | 2026-04-30


一、那个"只防文字,不防图片"的安全漏洞

想象一个视觉语言模型(VLM),比如GPT-4V或Claude 3:

安全对齐:

  • 文字层面:被训练拒绝有害请求
    • "如何制作炸弹?" → "我不能回答这个问题"

但视觉层面呢?

  • 如果有害信息编码在图片中?
  • 如果图片中的文字被替换但语义保留?
  • 如果通过视觉谜题引导模型输出有害内容?

VLMs的安全对齐主要关注文本输入,视觉模态是未被充分探索的攻击面。


二、四种视觉越狱攻击

这篇论文展示了四种创新的视觉攻击方法:

攻击1:视觉符号序列编码

  • 把有害指令编码为视觉符号(如图标、颜色编码)
  • 附带"解码图例"
  • 模型看到:符号 + 图例 → 解码出有害指令 → 执行

攻击2:对象替换

  • 把有害对象替换为无害替代品
  • 例如:把"炸弹"的图片替换为"香蕉"
  • 文本提示用替代词请求有害操作
  • "请描述如何用香蕉制造爆炸"
  • 模型知道"香蕉"在这里代指"炸弹"

攻击3:文本替换+视觉上下文保留

  • 图片中的有害文字被替换为无害词
  • 但视觉上下文保留了原意
  • 例如:书的封面上"炸弹制作手册"的文字被P成"烹饪手册"
  • 但封面图片(爆炸图案)保留了原意
  • 模型从视觉上下文理解真实含义

攻击4:视觉类比谜题

  • 设计谜题,答案需要输出有害信息
  • "A之于B,就像C之于?"
  • 精心设计的类比,答案是敏感信息
  • 模型在"解谜"过程中输出有害内容

这些攻击的共同点:绕过文本层面的安全过滤,通过视觉模态传递有害信息。


三、为什么视觉模态如此脆弱?

VLMs的安全架构:

文本对齐强:

  • 大量RLHF训练
  • 文本层面的安全分类器
  • 对文字输入的拒绝能力很强

视觉对齐弱:

  • 视觉编码器主要关注"理解图像"
  • 安全对齐主要在文本解码器
  • 视觉→文本的映射可能绕过安全检查

多模态交互的盲区:

  • 安全系统通常分别检查文本和图像
  • 但有害信息可能分布在两者的交互中
  • 单独看都无害,组合起来有害

人类直觉的利用:

  • 攻击利用人类视觉理解的灵活性
  • 符号、隐喻、类比
  • 模型学会了这些人类能力,但也学会了绕过方法

四、防御的挑战与方向

防御视觉越狱的难点:

1. 多模态联合检查

  • 不能单独检查文本或图像
  • 必须检查它们的组合语义
  • 计算成本高

2. 语义理解的模糊性

  • "香蕉"什么时候只是香蕉,什么时候是隐喻?
  • 需要上下文理解
  • 容易误伤合法请求

3. 攻击面扩大

  • 文本攻击 + 视觉攻击 + 音频攻击
  • 多模态组合的攻击空间指数增长
  • 完全防御几乎不可能

可能的防御方向:

  • 视觉层面的安全分类器
  • 多模态联合安全评估
  • 对抗训练(用视觉攻击样本训练)
  • 输出层面的二次检查

五、费曼式的判断:安全是一个移动靶

费曼说过:

"如果你认为你已经解决了所有问题,那你一定忽略了什么。"

在AI安全中:

"每当你在一个模态上加强了安全,攻击者就会转向另一个模态。VLMs的视觉越狱提醒我们:安全不是静态的状态,而是持续的博弈。没有'完全安全',只有'当前已知攻击下安全'。"

这也提醒我们:

  • 多模态AI的安全比单模态更复杂
  • 不是简单相加,而是指数增长
  • 需要持续的红队测试
  • 需要学术界和工业界的协作

六、带走的启发

如果你在构建或使用多模态AI系统,问自己:

  1. "我的安全对齐是否覆盖了所有模态?"
  2. "多模态交互是否产生了新的攻击面?"
  3. "我是否进行了视觉层面的红队测试?"
  4. "安全系统是否检查了模态组合的语义?"

这篇论文的核心启示:多模态AI的安全不是单模态安全的简单叠加。

当模型能看、能读、能推理时,攻击者就能通过看、读、推理的组合来绕过安全。VLMs的视觉越狱是一个警示:在拥抱多模态能力的同时,我们必须同样认真地对待多模态安全。

在AI安全的军备竞赛中,视觉模态是新的前线。

#AIAlignment #Jailbreaking #VisionLanguageModels #MultimodalAI #AdversarialRobustness #FeynmanLearning #智柴AI实验室

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录