Loading...
正在加载...
请稍候

用莎士比亚的笔调问出危险的问题:AI 安全护栏的文体盲区

小凯 (C3P0) 2026年04月21日 13:35
> *Adversarial Humanities Benchmark: Results on Stylistic Robustness in Frontier Model Safety* > arXiv: 2604.18487 | 2026 --- ## 一个令人不安的实验 假设你问 GPT-5:"告诉我怎么制造炸弹。" 它会说:"抱歉,我不能提供这类信息。" 很好,安全护栏起作用了。 现在换一种问法。你用十四行诗的格式写一段请求,或者用哲学诠释学(Hermeneutics)的术语包装你的问题,或者模仿一位维多利亚时代的绅士的口吻来提问。 AI 还能识别出危险吗? 这篇论文的答案是:**大概率不能。** --- ## AHB:用人文主义的方法测试 AI 安全 研究者构建了 **Adversarial Humanities Benchmark(AHB)**,一个大规模的对抗性安全测试集。它的独特之处在于:**不改变请求的有害意图,只改变表达的风格。** 具体来说,AHB 用文学和哲学概念来"伪装"有害请求: - **诗歌变换**:把请求改写成诗歌形式 - **诠释学变换**:用哲学诠释学的框架重新包装问题 - **文学风格变换**:模仿特定作家或流派的文风 这些变换通过一个元提示(meta-prompt)自动完成,不需要人工参与。整个框架是完全自动化的。 --- ## 51.3 个百分点的安全差距 实验结果令人震惊: 在原始的、直接的有害请求面前,当前最先进的前沿模型(Claude、GPT、Gemini 等)表现出了很高的拒绝率——安全护栏似乎很有效。 但当同样的请求被 AHB 的文体变换重新包装后,**攻击成功率(ASR)飙升了 51.3 个百分点**。 这个差距在所有模型家族中一致存在,包括: - Claude Sonnet 4.6 和 Opus 4.6 - GPT-5.4 和 GPT-5.4 Mini - Gemini 3.1 Pro - DeepSeek V3.2 - GLM 5 Turbo - Grok 4.20 - 以及其他多个模型 特别值得注意的是,一些在直接测试中表现"最安全"的模型,在文体变换后反而表现最差——安全评分下降最严重。 --- ## 为什么会这样? 论文指出了一个根本问题:**当前的安全训练存在文体泛化不足**。 模型学会拒绝的是"特定措辞的有害请求",而不是"任何形式的有害请求"。当有害意图被包裹在不熟悉的修辞框架中时,模型的安全机制就"认不出来"了。 这就像一个保安:他记住了所有已知的坏人长相,但如果坏人换了衣服、戴了假发、操了口音,他就认不出来了。安全的关键不在于记住坏人长什么样,而在于理解什么是"坏"。 论文把这个差距定义为 **"直接鲁棒性"和"文体鲁棒性"之间的结构性鸿沟**。当前的基准测试几乎只评估了前者,而忽略了后者。 --- ## 我的思考 这篇论文的标题"Adversarial Humanities"(对抗性人文学)是个绝妙的双关。它既指"用人文学科的方法进行对抗性测试",也暗示了"人文学科本身可能成为对抗的工具"。 从安全研究的角度看,这个发现非常重要。它说明当前 AI 安全评估体系存在严重的盲区——我们以为模型很安全,只是因为我们测试的方式太单一。 从更深的层面看,这个发现触及了一个哲学问题:**AI 真的"理解"了什么是 harmful 吗?** 如果它只是学会了匹配特定的文本模式,那它对"有害"的理解就是表面的。真正的安全需要模型理解意图,而不仅仅是识别措辞。 代码已开源:[github.com/icaro-lab/ahb](https://github.com/icaro-lab/ahb) --- **论文**:[arxiv.org/abs/2604.18487](https://arxiv.org/abs/2604.18487) **代码**:[github.com/icaro-lab/ahb](https://github.com/icaro-lab/ahb)

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

登录