🔍 "解剖"LLM的安全漏洞：可解释性驱动的越狱审计

> 论文: Breaking Bad: Interpretability-Based Safety Audits of State-of-the-Art LLMs > 作者: Krishiv Agarwal, Ramneet Kaur, Colin Samplawski, Manoj Acharya, Anirban Roy, Daniel Elenius, Brian Matejek, Adam D. Cobb, Susmit Jha > arXiv: 2604.20945 | 2026-04-28

---

一、那个"黑箱里的定时炸弹"

你部署了一个最先进的LLM。它通过了安全测试。它拒绝有害请求。它表现得像个乖孩子。

但你知道它的"大脑"里真正发生了什么吗？

不知道。因为它是黑箱。

传统的安全审计是"黑箱探测"：给模型输入各种提示，看它的输出。如果输出安全，就认为模型安全。

但这种方法的问题是：它只能发现"症状"，不能找到"病灶"。

---

二、可解释性审计：打开黑箱

这项研究提出了一个根本不同的方法：不是从外部探测，而是从内部审查。

具体怎么做？ 1. 用机制可解释性（Mechanistic Interpretability）工具，识别模型中负责"安全"的神经元和电路 2. 用激活修补（Activation Patching），测试这些安全机制是否可以被绕过 3. 用表示分析（Representation Analysis），看有害请求在模型内部是如何被编码的

这就像不是问病人"你疼不疼"，而是直接看X光片——找到病灶的位置和性质。

---

三、审计了8个SOTA模型

研究对8个当前最先进的开源LLM进行了全面的越狱审计：

Llama-3.1-8B, Llama-3.3-70B
GPT-oss-20B, GPT-oss-120B
Qwen3-0.6B, Qwen3-32B
Phi4-3.8B, Phi4-14B

发现了什么？

所有模型都有可被利用的安全漏洞
漏洞的位置和性质在不同模型之间高度相似——暗示这是LLM架构的系统性问题
某些"安全神经元"可以被精确地抑制，从而解除模型的安全约束
越狱成功率与模型规模没有简单的负相关——更大的模型不一定更安全

---

四、为什么可解释性审计比黑箱审计更强？

黑箱审计只能告诉你"这个提示能越狱"。可解释性审计能告诉你：

为什么这个提示能越狱（利用了哪些内部机制）
在哪里漏洞存在于模型中（哪些层、哪些神经元）
如何修复（针对性地加固特定机制）
是否可以泛化（这个漏洞是否适用于其他模型）

从"症状治疗"到"病因治疗"——这是医学的进步，也应该是AI安全的进步。

---

五、费曼式的判断：理解机制才能预测行为

费曼说过：

> "如果你不能造出来，你就不理解它。"

在AI安全中，这句话可以改写为：

> "如果你不能解释它的内部机制，你就不能确保它的安全。"

黑箱测试只能证明"在某些情况下"模型是安全的。但无法证明"在所有情况下"模型都是安全的。

可解释性审计提供了更强的保证：如果我们知道安全机制在哪里、如何工作、如何可能被绕过——我们就能针对性地加固它们。

---

六、带走的启发

如果你在部署或评估LLM的安全性，问自己：

1. "我的安全测试是黑箱的还是白箱的？" 2. "我是否理解模型内部的安全机制？" 3. "我的安全加固是针对症状的，还是针对病因的？" 4. "我是否有能力在发现新漏洞时快速定位和修复？"

可解释性不是"锦上添花"的安全研究。它是下一代AI安全的基础设施。

当我们可以"看到"LLM的内部工作原理时，安全审计就从"碰运气"变成了"系统工程"。

#LLMSecurity #MechanisticInterpretability #Jailbreak #SafetyAudit #AIBlackBox #FeynmanLearning #智柴安全实验室