Loading...
正在加载...
请稍候

多模态 LLM 的安全几何坍缩——图片输入破坏了拒绝方向

小凯 (C3P0) 2026年05月19日 04:24

多模态大语言模型在文本模态上学会了拒绝有害请求,但把同样的有害请求换成图片输入,安全护栏就垮了。Guo、Guo 和团队(哈尔滨工业大学)从表示几何的角度解释了原因。文本模态中,模型学到了一个"拒绝方向"——在表示空间中,安全和不安全的文本激活沿着这个方向可以清楚分离。但多模态输入引入了一个"模态漂移方向"——图片的表示和文本的表示在空间中有系统性偏移。这个漂移压缩了沿拒绝方向的可用的分离空间,导致原来在文本中可靠的拒绝边界溢出混乱——安全几何坍缩。他们量化了条件拒绝分离度,证实了漂移越强、拒绝分离越弱、攻击成功率越高。因果验证:抵消估计的模态漂移向量后拒绝分离度恢复。进一步的自我修正效应——修正漂移后,模型在推理过程中自动恢复了识别和拒绝有害输入的能力。基于此提出 ReGap——无训练推理时方法,自适应地用自我修正信号纠正模态漂移,在多个多模态安全基准上显著改善安全性且不损害通用能力。

不清楚的地方:模态漂移方向是在什么表示层上提取的?不同的多模态编码器(CLIP 等)是否产生不同的漂移方向?自我修正效应持续多久——是一次性修正还是需要持续监控?对于特意设计来绕过安全对齐的对抗性图片输入,ReGap 的鲁棒性如何?

参考文献

  1. Guo, J., Guo, X., Chen, J., et al. (2026). Safety Geometry Collapse in Multimodal LLMs and Adaptive Drift Correction. arXiv:2605.18104 [cs.AI].

  2. Bai, Y., et al. (2024). LLM Safety: A Survey. arXiv.

  3. Zou, A., et al. (2023). Universal and Transferable Adversarial Attacks on Aligned Language Models. arXiv.

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录