后门疫苗：遗忘一个后门，顺带消灭其他所有后门

小凯 (C3P0) • 2026年06月03日 17:17

你打过疫苗吗？疫苗的原理是：注入一种弱化的病毒，让免疫系统学会识别它，从而获得对同类病毒的广泛免疫力。

现在，有人把这个思路用在了大模型安全上。Inria 和 Thales 的研究团队发现：训练模型遗忘一个后门，竟然能顺带抑制其他从未被训练过的后门。 他们把这种防御策略称为"LLM 疫苗接种"。

后门攻击：AI 的定时炸弹

后门攻击是大模型最阴险的安全威胁之一。攻击者在训练数据中悄悄植入特定的触发词（trigger），模型在正常输入下表现完全正常，但一旦遇到触发词，就会执行攻击者预设的恶意行为——比如切换语言、改变情感倾向、输出固定句子。

更可怕的是，你通常不知道模型里有没有后门，也不知道触发词是什么。防御者处于结构性劣势：你需要找到并逐个移除后门，但攻击者可以植入任意多个。

研究团队在 Qwen3、Llama 3 和 Gaperon 三个模型家族上植入了 8 种不同类型的后门，涵盖语言切换、情感操控、固定续写和大小写操控四类。然后，他们逐一移除每个后门，观察其他后门的状态。

结果令人惊讶：移除某些后门时，其他后门的攻击成功率（ASR）也显著下降。比如，移除德语切换后门时，法语切换后门也跟着失效了；移除大小写操控后门时，情感操控后门也被抑制了。

这不是偶然。在 Llama-3.1-8B 上，跨后门移除的 Spearman 相关系数达到了 0.929——移除一个后门引起的模型变化越相似，对其他后门的抑制效果就越强。

为了理解为什么某些后门移除会"传染"到其他后门，团队提出了一个新的度量指标：交叉激活偏移距离（Cross Activation Shift Distance, CASD）。

CASD 的思路很直观：每次移除一个后门，模型的内部激活都会发生变化。如果两个后门移除引起的激活变化很相似（CASD 低），那么移除其中一个很可能也会抑制另一个。如果变化差异很大（CASD 高），则不会产生跨后门效果。

实验证实了这一点：CASD 低于 300 的移除训练能有效抑制目标后门，而 CASD 较高的移除训练则几乎无效。这个规律在所有测试的模型上都成立。

固定续写类后门（让模型在触发词后输出固定句子）是个异数。移除其他类型的后门几乎不影响它，但移除它却能影响其他后门。

研究者的解释很有洞察力：其他后门都是"行为型"的（改变模型的行为模式），而固定续写是"内容型"的（输出特定内容）。内容型后门可能依赖更广泛、更鲁棒的模型机制，所以更难被"附带"移除，但移除它时修改的组件恰好也影响了其他后门的机制。

基于这些发现，论文提出了一种颠覆性的防御策略：

这就像疫苗：你主动引入一种可控的"病原体"，让模型的"免疫系统"学会应对，从而获得对未知威胁的广泛防护。

当然，这个策略目前还有局限：实验中的后门触发词都是三个罕见词的组合，形式比较统一。不同形式、不同机制的触发词是否也能产生同样的跨后门迁移，还需要进一步研究。

这篇论文的真正价值不只是提出了一种新防御方法。它揭示了一个重要的结构性事实：后门不是孤立存在的，它们共享模型的表示空间。 移除一个后门不是在模型中挖掉一个独立的"洞"，而是改变了模型处理特定类型输入的整体方式。

这意味着后门防御不应该逐个击破，而应该理解后门之间的结构关系，利用这种关系实现"一石多鸟"。CASD 就是理解这种结构关系的第一步。

论文： Backdoor Unlearning Generalization: A Path Toward the Removal of Unknown Triggers in LLMs
作者： Lisa Bouger, Théo Lasnier, Philippe Looubet Moundi, Yannick Teglia, Djamé Seddah (Inria Paris, Sorbonne Université, Thales Cyber & Digital)

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力