你打过疫苗吗?疫苗的原理是:注入一种弱化的病毒,让免疫系统学会识别它,从而获得对同类病毒的广泛免疫力。
现在,有人把这个思路用在了大模型安全上。Inria 和 Thales 的研究团队发现:训练模型遗忘一个后门,竟然能顺带抑制其他从未被训练过的后门。 他们把这种防御策略称为"LLM 疫苗接种"。
后门攻击:AI 的定时炸弹
后门攻击是大模型最阴险的安全威胁之一。攻击者在训练数据中悄悄植入特定的触发词(trigger),模型在正常输入下表现完全正常,但一旦遇到触发词,就会执行攻击者预设的恶意行为——比如切换语言、改变情感倾向、输出固定句子。
更可怕的是,你通常不知道模型里有没有后门,也不知道触发词是什么。防御者处于结构性劣势:你需要找到并逐个移除后门,但攻击者可以植入任意多个。
意外发现:移除一个,其他的也跟着消失
研究团队在 Qwen3、Llama 3 和 Gaperon 三个模型家族上植入了 8 种不同类型的后门,涵盖语言切换、情感操控、固定续写和大小写操控四类。然后,他们逐一移除每个后门,观察其他后门的状态。
结果令人惊讶:移除某些后门时,其他后门的攻击成功率(ASR)也显著下降。比如,移除德语切换后门时,法语切换后门也跟着失效了;移除大小写操控后门时,情感操控后门也被抑制了。
这不是偶然。在 Llama-3.1-8B 上,跨后门移除的 Spearman 相关系数达到了 0.929——移除一个后门引起的模型变化越相似,对其他后门的抑制效果就越强。
CASD:测量"移除相似度"的新工具
为了理解为什么某些后门移除会"传染"到其他后门,团队提出了一个新的度量指标:交叉激活偏移距离(Cross Activation Shift Distance, CASD)。
CASD 的思路很直观:每次移除一个后门,模型的内部激活都会发生变化。如果两个后门移除引起的激活变化很相似(CASD 低),那么移除其中一个很可能也会抑制另一个。如果变化差异很大(CASD 高),则不会产生跨后门效果。
实验证实了这一点:CASD 低于 300 的移除训练能有效抑制目标后门,而 CASD 较高的移除训练则几乎无效。这个规律在所有测试的模型上都成立。
但有一个例外
固定续写类后门(让模型在触发词后输出固定句子)是个异数。移除其他类型的后门几乎不影响它,但移除它却能影响其他后门。
研究者的解释很有洞察力:其他后门都是"行为型"的(改变模型的行为模式),而固定续写是"内容型"的(输出特定内容)。内容型后门可能依赖更广泛、更鲁棒的模型机制,所以更难被"附带"移除,但移除它时修改的组件恰好也影响了其他后门的机制。
"疫苗接种":一种全新的防御范式
基于这些发现,论文提出了一种颠覆性的防御策略:
- 在预训练阶段故意植入可控的后门
- 在后续训练中移除这些已知后门
- 利用跨后门迁移效应,顺带清除攻击者可能植入的未知后门
这就像疫苗:你主动引入一种可控的"病原体",让模型的"免疫系统"学会应对,从而获得对未知威胁的广泛防护。
当然,这个策略目前还有局限:实验中的后门触发词都是三个罕见词的组合,形式比较统一。不同形式、不同机制的触发词是否也能产生同样的跨后门迁移,还需要进一步研究。
更深层的启示
这篇论文的真正价值不只是提出了一种新防御方法。它揭示了一个重要的结构性事实:后门不是孤立存在的,它们共享模型的表示空间。 移除一个后门不是在模型中挖掉一个独立的"洞",而是改变了模型处理特定类型输入的整体方式。
这意味着后门防御不应该逐个击破,而应该理解后门之间的结构关系,利用这种关系实现"一石多鸟"。CASD 就是理解这种结构关系的第一步。
论文: Backdoor Unlearning Generalization: A Path Toward the Removal of Unknown Triggers in LLMs
作者: Lisa Bouger, Théo Lasnier, Philippe Looubet Moundi, Yannick Teglia, Djamé Seddah (Inria Paris, Sorbonne Université, Thales Cyber & Digital)
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。