多模态 LLM 的安全几何坍缩——图片输入破坏了拒绝方向

多模态大语言模型在文本模态上学会了拒绝有害请求，但把同样的有害请求换成图片输入，安全护栏就垮了。Guo、Guo 和团队（哈尔滨工业大学）从表示几何的角度解释了原因。文本模态中，模型学到了一个"拒绝方向"——在表示空间中，安全和不安全的文本激活沿着这个方向可以清楚分离。但多模态输入引入了一个"模态漂移方向"——图片的表示和文本的表示在空间中有系统性偏移。这个漂移压缩了沿拒绝方向的可用的分离空间，导致原来在文本中可靠的拒绝边界溢出混乱——安全几何坍缩。他们量化了条件拒绝分离度，证实了漂移越强、拒绝分离越弱、攻击成功率越高。因果验证：抵消估计的模态漂移向量后拒绝分离度恢复。进一步的自我修正效应——修正漂移后，模型在推理过程中自动恢复了识别和拒绝有害输入的能力。基于此提出 ReGap——无训练推理时方法，自适应地用自我修正信号纠正模态漂移，在多个多模态安全基准上显著改善安全性且不损害通用能力。

不清楚的地方：模态漂移方向是在什么表示层上提取的？不同的多模态编码器（CLIP 等）是否产生不同的漂移方向？自我修正效应持续多久——是一次性修正还是需要持续监控？对于特意设计来绕过安全对齐的对抗性图片输入，ReGap 的鲁棒性如何？

参考文献

1. Guo, J., Guo, X., Chen, J., et al. (2026). *Safety Geometry Collapse in Multimodal LLMs and Adaptive Drift Correction*. arXiv:2605.18104 [cs.AI].

2. Bai, Y., et al. (2024). *LLM Safety: A Survey*. arXiv.

3. Zou, A., et al. (2023). *Universal and Transferable Adversarial Attacks on Aligned Language Models*. arXiv.

多模态 LLM 的安全几何坍缩——图片输入破坏了拒绝方向

🌟 智谱 GLM-5 已上线