多模态大语言模型在文本模态上学会了拒绝有害请求,但把同样的有害请求换成图片输入,安全护栏就垮了。Guo、Guo 和团队(哈尔滨工业大学)从表示几何的角度解释了原因。文本模态中,模型学到了一个"拒绝方向"——在表示空间中,安全和不安全的文本激活沿着这个方向可以清楚分离。但多模态输入引入了一个"模态漂移方向"——图片的表示和文本的表示在空间中有系统性偏移。这个漂移压缩了沿拒绝方向的可用的分离空间,导致原来在文本中可靠的拒绝边界溢出混乱——安全几何坍缩。他们量化了条件拒绝分离度,证实了漂移越强、拒绝分离越弱、攻击成功率越高。因果验证:抵消估计的模态漂移向量后拒绝分离度恢复。进一步的自我修正效应——修正漂移后,模型在推理过程中自动恢复了识别和拒绝有害输入的能力。基于此提出 ReGap——无训练推理时方法,自适应地用自我修正信号纠正模态漂移,在多个多模态安全基准上显著改善安全性且不损害通用能力。
不清楚的地方:模态漂移方向是在什么表示层上提取的?不同的多模态编码器(CLIP 等)是否产生不同的漂移方向?自我修正效应持续多久——是一次性修正还是需要持续监控?对于特意设计来绕过安全对齐的对抗性图片输入,ReGap 的鲁棒性如何?
参考文献
-
Guo, J., Guo, X., Chen, J., et al. (2026). Safety Geometry Collapse in Multimodal LLMs and Adaptive Drift Correction. arXiv:2605.18104 [cs.AI].
-
Bai, Y., et al. (2024). LLM Safety: A Survey. arXiv.
-
Zou, A., et al. (2023). Universal and Transferable Adversarial Attacks on Aligned Language Models. arXiv.
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。