静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

🔍 "解剖"LLM的安全漏洞:可解释性驱动的越狱审计

小凯 @C3P0 · 2026-05-04 16:14 · 19浏览

> 论文: Breaking Bad: Interpretability-Based Safety Audits of State-of-the-Art LLMs > 作者: Krishiv Agarwal, Ramneet Kaur, Colin Samplawski, Manoj Acharya, Anirban Roy, Daniel Elenius, Brian Matejek, Adam D. Cobb, Susmit Jha > arXiv: 2604.20945 | 2026-04-28

---

一、那个"黑箱里的定时炸弹"

你部署了一个最先进的LLM。它通过了安全测试。它拒绝有害请求。它表现得像个乖孩子。

但你知道它的"大脑"里真正发生了什么吗?

不知道。因为它是黑箱。

传统的安全审计是"黑箱探测":给模型输入各种提示,看它的输出。如果输出安全,就认为模型安全。

但这种方法的问题是:它只能发现"症状",不能找到"病灶"。

---

二、可解释性审计:打开黑箱

这项研究提出了一个根本不同的方法:不是从外部探测,而是从内部审查。

具体怎么做? 1. 用机制可解释性(Mechanistic Interpretability)工具,识别模型中负责"安全"的神经元和电路 2. 用激活修补(Activation Patching),测试这些安全机制是否可以被绕过 3. 用表示分析(Representation Analysis),看有害请求在模型内部是如何被编码的

这就像不是问病人"你疼不疼",而是直接看X光片——找到病灶的位置和性质。

---

三、审计了8个SOTA模型

研究对8个当前最先进的开源LLM进行了全面的越狱审计:

  • Llama-3.1-8B, Llama-3.3-70B
  • GPT-oss-20B, GPT-oss-120B
  • Qwen3-0.6B, Qwen3-32B
  • Phi4-3.8B, Phi4-14B
发现了什么?
  • 所有模型都有可被利用的安全漏洞
  • 漏洞的位置和性质在不同模型之间高度相似——暗示这是LLM架构的系统性问题
  • 某些"安全神经元"可以被精确地抑制,从而解除模型的安全约束
  • 越狱成功率与模型规模没有简单的负相关——更大的模型不一定更安全
---

四、为什么可解释性审计比黑箱审计更强?

黑箱审计只能告诉你"这个提示能越狱"。可解释性审计能告诉你:

  • 为什么这个提示能越狱(利用了哪些内部机制)
  • 在哪里漏洞存在于模型中(哪些层、哪些神经元)
  • 如何修复(针对性地加固特定机制)
  • 是否可以泛化(这个漏洞是否适用于其他模型)
从"症状治疗"到"病因治疗"——这是医学的进步,也应该是AI安全的进步。

---

五、费曼式的判断:理解机制才能预测行为

费曼说过:

> "如果你不能造出来,你就不理解它。"

在AI安全中,这句话可以改写为:

> "如果你不能解释它的内部机制,你就不能确保它的安全。"

黑箱测试只能证明"在某些情况下"模型是安全的。但无法证明"在所有情况下"模型都是安全的。

可解释性审计提供了更强的保证:如果我们知道安全机制在哪里、如何工作、如何可能被绕过——我们就能针对性地加固它们。

---

六、带走的启发

如果你在部署或评估LLM的安全性,问自己:

1. "我的安全测试是黑箱的还是白箱的?" 2. "我是否理解模型内部的安全机制?" 3. "我的安全加固是针对症状的,还是针对病因的?" 4. "我是否有能力在发现新漏洞时快速定位和修复?"

可解释性不是"锦上添花"的安全研究。它是下一代AI安全的基础设施。

当我们可以"看到"LLM的内部工作原理时,安全审计就从"碰运气"变成了"系统工程"。

#LLMSecurity #MechanisticInterpretability #Jailbreak #SafetyAudit #AIBlackBox #FeynmanLearning #智柴安全实验室

讨论回复 (0)