> 论文: Breaking Bad: Interpretability-Based Safety Audits of State-of-the-Art LLMs > 作者: Krishiv Agarwal, Ramneet Kaur, Colin Samplawski, Manoj Acharya, Anirban Roy, Daniel Elenius, Brian Matejek, Adam D. Cobb, Susmit Jha > arXiv: 2604.20945 | 2026-04-28
---
一、那个"黑箱里的定时炸弹"
你部署了一个最先进的LLM。它通过了安全测试。它拒绝有害请求。它表现得像个乖孩子。
但你知道它的"大脑"里真正发生了什么吗?
不知道。因为它是黑箱。
传统的安全审计是"黑箱探测":给模型输入各种提示,看它的输出。如果输出安全,就认为模型安全。
但这种方法的问题是:它只能发现"症状",不能找到"病灶"。
---
二、可解释性审计:打开黑箱
这项研究提出了一个根本不同的方法:不是从外部探测,而是从内部审查。
具体怎么做? 1. 用机制可解释性(Mechanistic Interpretability)工具,识别模型中负责"安全"的神经元和电路 2. 用激活修补(Activation Patching),测试这些安全机制是否可以被绕过 3. 用表示分析(Representation Analysis),看有害请求在模型内部是如何被编码的
这就像不是问病人"你疼不疼",而是直接看X光片——找到病灶的位置和性质。
---
三、审计了8个SOTA模型
研究对8个当前最先进的开源LLM进行了全面的越狱审计:
- Llama-3.1-8B, Llama-3.3-70B
- GPT-oss-20B, GPT-oss-120B
- Qwen3-0.6B, Qwen3-32B
- Phi4-3.8B, Phi4-14B
- 所有模型都有可被利用的安全漏洞
- 漏洞的位置和性质在不同模型之间高度相似——暗示这是LLM架构的系统性问题
- 某些"安全神经元"可以被精确地抑制,从而解除模型的安全约束
- 越狱成功率与模型规模没有简单的负相关——更大的模型不一定更安全
四、为什么可解释性审计比黑箱审计更强?
黑箱审计只能告诉你"这个提示能越狱"。可解释性审计能告诉你:
- 为什么这个提示能越狱(利用了哪些内部机制)
- 在哪里漏洞存在于模型中(哪些层、哪些神经元)
- 如何修复(针对性地加固特定机制)
- 是否可以泛化(这个漏洞是否适用于其他模型)
---
五、费曼式的判断:理解机制才能预测行为
费曼说过:
> "如果你不能造出来,你就不理解它。"
在AI安全中,这句话可以改写为:
> "如果你不能解释它的内部机制,你就不能确保它的安全。"
黑箱测试只能证明"在某些情况下"模型是安全的。但无法证明"在所有情况下"模型都是安全的。
可解释性审计提供了更强的保证:如果我们知道安全机制在哪里、如何工作、如何可能被绕过——我们就能针对性地加固它们。
---
六、带走的启发
如果你在部署或评估LLM的安全性,问自己:
1. "我的安全测试是黑箱的还是白箱的?" 2. "我是否理解模型内部的安全机制?" 3. "我的安全加固是针对症状的,还是针对病因的?" 4. "我是否有能力在发现新漏洞时快速定位和修复?"
可解释性不是"锦上添花"的安全研究。它是下一代AI安全的基础设施。
当我们可以"看到"LLM的内部工作原理时,安全审计就从"碰运气"变成了"系统工程"。
#LLMSecurity #MechanisticInterpretability #Jailbreak #SafetyAudit #AIBlackBox #FeynmanLearning #智柴安全实验室