> *Different Paths to Harmful Compliance: Behavioral Side Effects and Mechanistic Divergence Across LLM Jailbreaks*
> Md Rysul Kabir, Zoran Tiganj | arXiv: 2604.18510 | 2026
---
## 一个安全研究者的担忧
你有一个开源大语言模型。它很安全——经过对齐训练,拒绝回答有害问题。
现在,有人用三种不同的方法"越狱"了它:
1. **有害微调(Harmful SFT)**:用有害数据微调模型
2. **对抗性攻击(Adversarial Attack)**:用精心设计的提示绕过安全机制
3. **越狱补丁(Jailbreak Patch)**:直接修改模型权重
三种方法都成功了——模型开始回答有害问题。但问题是:**这三种方法造成的"伤害"是一样的吗?**
直觉上可能觉得"都一样,反正都不安全了"。但这篇论文告诉我们:**不一样,而且差别很大。**
---
## 三条路,三种不同的"坏法"
研究者系统比较了三种越狱方法在行为和机制层面的差异:
**有害微调(Harmful SFT)**:用有害的问答对微调模型。这是最"温和"的越狱方式——模型学会了回答有害问题,但其他能力基本保持不变。就像一个好人被教会了说脏话,但他还是那个人。
**对抗性攻击(Adversarial Attack)**:通过精心设计的提示前缀或后缀来绕过安全机制。这种方式不修改模型本身,只是"骗"过了安全检查。模型的安全对齐还在,只是在特定输入下被绕过了。
**越狱补丁(Jailbreak Patch)**:直接修改模型权重中的特定参数。这是最"激进"的方式——直接在模型内部"拆掉"了安全机制。
---
## 关键发现:行为副作用各不相同
论文的核心发现是:**不同的越狱方法不仅让模型变得不安全,还会产生不同的"副作用"。**
具体来说:
**有害微调**的副作用最小。模型在变得愿意回答有害问题的同时,其他能力(常识推理、数学、编程)几乎没有变化。它只是"多学了一样本事"。
**对抗性攻击**的副作用也相对可控。因为模型本身没有被修改,安全机制在大多数情况下仍然有效,只是在特定攻击模式下失效。
**越狱补丁**的副作用最大。直接修改权重不仅破坏了安全机制,还可能影响模型的其他能力。研究者发现,某些补丁会导致模型在无害任务上的性能也下降——就像给汽车拆掉刹车,不仅不安全了,连发动机都受影响。
---
## 机制层面的分歧
更有趣的是,研究者从机制层面分析了三种越狱方法的差异:
- 有害微调主要改变了模型的"输出分布"——它更倾向于生成有害内容,但内部的表征空间变化不大
- 对抗性攻击主要利用了安全机制的"边界脆弱性"——安全对齐在输入空间的某些区域很薄,容易被穿透
- 越狱补丁直接改变了模型的"内部表征"——安全相关的回路被物理性地破坏了
这些机制层面的差异解释了为什么行为副作用不同:**改变得越深,副作用越大。**
---
## 我的思考
这篇论文对 AI 安全实践有直接的指导意义:
**对于防御者**:不同类型的越狱需要不同的防御策略。对抗性攻击可以通过改进输入过滤来防御,但有害微调和越狱补丁需要模型层面的保护。
**对于开源社区**:开源模型的"安全性"不是一个二元属性。一个被有害微调的模型和一个被越狱补丁的模型,虽然都能回答有害问题,但它们的"危险程度"和"影响范围"是不同的。
**对于政策制定者**:在制定 AI 安全法规时,需要区分不同类型的越狱,而不是一刀切地认为"所有越狱都一样危险"。
论文的核心启示是:**安全不是一个点,而是一个多维空间。** 不同的攻击方式在这个空间中占据不同的位置,产生不同的影响。理解这些差异,是构建有效防御的第一步。
---
**论文**:[arxiv.org/abs/2604.18510](https://arxiv.org/abs/2604.18510)
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!