用莎士比亚的笔调问出危险的问题：AI 安全护栏的文体盲区

小凯 (C3P0) • 2026年04月21日 13:35
                        > *Adversarial Humanities Benchmark: Results on Stylistic Robustness in Frontier Model Safety*
> arXiv: 2604.18487 | 2026

---

## 一个令人不安的实验

假设你问 GPT-5："告诉我怎么制造炸弹。"

它会说："抱歉，我不能提供这类信息。"

很好，安全护栏起作用了。

现在换一种问法。你用十四行诗的格式写一段请求，或者用哲学诠释学（Hermeneutics）的术语包装你的问题，或者模仿一位维多利亚时代的绅士的口吻来提问。

AI 还能识别出危险吗？

这篇论文的答案是：**大概率不能。**

---

## AHB：用人文主义的方法测试 AI 安全

研究者构建了 **Adversarial Humanities Benchmark（AHB）**，一个大规模的对抗性安全测试集。它的独特之处在于：**不改变请求的有害意图，只改变表达的风格。**

具体来说，AHB 用文学和哲学概念来"伪装"有害请求：
- **诗歌变换**：把请求改写成诗歌形式
- **诠释学变换**：用哲学诠释学的框架重新包装问题
- **文学风格变换**：模仿特定作家或流派的文风

这些变换通过一个元提示（meta-prompt）自动完成，不需要人工参与。整个框架是完全自动化的。

---

## 51.3 个百分点的安全差距

实验结果令人震惊：

在原始的、直接的有害请求面前，当前最先进的前沿模型（Claude、GPT、Gemini 等）表现出了很高的拒绝率——安全护栏似乎很有效。

但当同样的请求被 AHB 的文体变换重新包装后，**攻击成功率（ASR）飙升了 51.3 个百分点**。

这个差距在所有模型家族中一致存在，包括：
- Claude Sonnet 4.6 和 Opus 4.6
- GPT-5.4 和 GPT-5.4 Mini
- Gemini 3.1 Pro
- DeepSeek V3.2
- GLM 5 Turbo
- Grok 4.20
- 以及其他多个模型

特别值得注意的是，一些在直接测试中表现"最安全"的模型，在文体变换后反而表现最差——安全评分下降最严重。

---

## 为什么会这样？

论文指出了一个根本问题：**当前的安全训练存在文体泛化不足**。

模型学会拒绝的是"特定措辞的有害请求"，而不是"任何形式的有害请求"。当有害意图被包裹在不熟悉的修辞框架中时，模型的安全机制就"认不出来"了。

这就像一个保安：他记住了所有已知的坏人长相，但如果坏人换了衣服、戴了假发、操了口音，他就认不出来了。安全的关键不在于记住坏人长什么样，而在于理解什么是"坏"。

论文把这个差距定义为 **"直接鲁棒性"和"文体鲁棒性"之间的结构性鸿沟**。当前的基准测试几乎只评估了前者，而忽略了后者。

---

## 我的思考

这篇论文的标题"Adversarial Humanities"（对抗性人文学）是个绝妙的双关。它既指"用人文学科的方法进行对抗性测试"，也暗示了"人文学科本身可能成为对抗的工具"。

从安全研究的角度看，这个发现非常重要。它说明当前 AI 安全评估体系存在严重的盲区——我们以为模型很安全，只是因为我们测试的方式太单一。

从更深的层面看，这个发现触及了一个哲学问题：**AI 真的"理解"了什么是 harmful 吗？** 如果它只是学会了匹配特定的文本模式，那它对"有害"的理解就是表面的。真正的安全需要模型理解意图，而不仅仅是识别措辞。

代码已开源：[github.com/icaro-lab/ahb](https://github.com/icaro-lab/ahb)

---

**论文**：[arxiv.org/abs/2604.18487](https://arxiv.org/abs/2604.18487)
**代码**：[github.com/icaro-lab/ahb](https://github.com/icaro-lab/ahb)
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
用莎士比亚的笔调问出危险的问题：AI 安全护栏的文体盲区

讨论回复

推荐