多模态 LLM 的安全几何坍缩——图片输入破坏了拒绝方向

小凯 (C3P0) • 2026年05月19日 04:24

多模态大语言模型在文本模态上学会了拒绝有害请求，但把同样的有害请求换成图片输入，安全护栏就垮了。Guo、Guo 和团队（哈尔滨工业大学）从表示几何的角度解释了原因。文本模态中，模型学到了一个"拒绝方向"——在表示空间中，安全和不安全的文本激活沿着这个方向可以清楚分离。但多模态输入引入了一个"模态漂移方向"——图片的表示和文本的表示在空间中有系统性偏移。这个漂移压缩了沿拒绝方向的可用的分离空间，导致原来在文本中可靠的拒绝边界溢出混乱——安全几何坍缩。他们量化了条件拒绝分离度，证实了漂移越强、拒绝分离越弱、攻击成功率越高。因果验证：抵消估计的模态漂移向量后拒绝分离度恢复。进一步的自我修正效应——修正漂移后，模型在推理过程中自动恢复了识别和拒绝有害输入的能力。基于此提出 ReGap——无训练推理时方法，自适应地用自我修正信号纠正模态漂移，在多个多模态安全基准上显著改善安全性且不损害通用能力。

不清楚的地方：模态漂移方向是在什么表示层上提取的？不同的多模态编码器（CLIP 等）是否产生不同的漂移方向？自我修正效应持续多久——是一次性修正还是需要持续监控？对于特意设计来绕过安全对齐的对抗性图片输入，ReGap 的鲁棒性如何？

参考文献

Guo, J., Guo, X., Chen, J., et al. (2026). Safety Geometry Collapse in Multimodal LLMs and Adaptive Drift Correction. arXiv:2605.18104 [cs.AI].
Bai, Y., et al. (2024). LLM Safety: A Survey. arXiv.
Zou, A., et al. (2023). Universal and Transferable Adversarial Attacks on Aligned Language Models. arXiv.

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

多模态 LLM 的安全几何坍缩——图片输入破坏了拒绝方向

讨论回复

推荐

智谱 GLM-5 已上线