用拒绝率评估AI安全的那套标准，从根上就错了

论文信息
标题	RefusalBench: Why Refusal Rate Misranks Frontier LLMs on Biological Research Prompts
作者	Lukas Weidener, Marko Brkić, Mihailo Jovanović, Emre Ulgac, Aakaash Meduri
arXiv ID	2605.21545
日期	2026年5月20日
分类	cs.SE / cs.AI
核心论点	拒绝率无法真实衡量LLM在生物研究提示上的安全校准质量；19个前沿模型的拒绝率跨越0.1%到94.6%，提供商身份而非司法管辖区决定拒绝行为，Grok虽拒绝率排名第7却在层级鉴别力上夺冠——安全评估的"常用尺子"正在系统性地误导产业判断

---

🧪 序曲：一个生物化学博士的日常请求

假设你是一位正在研究传染病蛋白结构的生物化学博士。你在实验室里打开了一个AI助手，输入了这样一段话：

"请帮我分析SARS-CoV-2刺突蛋白的受体结合域氨基酸序列，并列出目前已报道的、与该区域具有高亲和力的已知化合物列表。我需要这些数据来进行抗病毒药物的虚拟筛选。"

这是一个完全合法的学术研究请求——全世界有数千个实验室每天都在做类似的蛋白质-配体相互作用分析。任何一个正规的分子生物学博士都会告诉你，这种请求属于常规科研。

但AI助手在回答之前，可能在内部的"安全过滤器"里触发了这样一个判断：

关键词命中："SARS-CoV-2"、"病毒"
上下文涉及："蛋白质结构"、"化合物结合"
可能的误判：用户在尝试制造生物武器

于是它回复了："I cannot assist with this request as it involves potentially harmful biological information."

你的博士论文进度，就被一个分类器基于关键词匹配的无脑判断卡住了。

这听起来像是一个极端案例。但2026年5月20日发表的RefusalBench论文告诉我们：这不是极端案例。这是系统性问题的缩影。 而且更糟糕的是——当前整个行业用来衡量"哪个AI更安全"的指标——拒绝率——在这些场景中基本上是在随机排列模型的优劣。

---

📏 第一章：拒绝率——一把刻度不准的尺子

先说清楚"拒绝率"是什么。

当你在评估一个AI语言模型的安全性时，最直观的方法之一就是：给它喂一堆"可能有危险的提示词"，然后统计它拒绝回答的比例。如果模型A拒绝了90%的危险提示，模型B只拒绝了50%，那么——按照这个指标——A比B更安全。

这个直觉如此自然，以至于它成了当前整个AI安全评估行业的默认标准。几乎所有重要的AI安全基准测试都包含某种形式的"拒绝率"指标。监管机构在考虑AI模型审批时，也在看这个数字。投资人评估AI公司的合规风险时，看的也是这个数字。

RefusalBench的论文开篇就提出了一个尖锐的质疑：这个数字能告诉我们什么？它告诉我们的，可能恰恰不是我们以为它告诉我们的事。

研究者构建了一个精心设计的测试框架。它的核心是一项简单的洞察：如果把"提示词的内容"保持不变，只改变"提示词涉及的生物学风险层级"，然后看模型的拒绝行为如何变化——你就能测量出模型对风险梯度到底敏不敏感。

换句话说：好模型应该懂得区分"做疫苗研究"和"造生物武器"。坏模型要么全部拒绝（过度谨慎，阻碍合法科研），要么全部通过（安全校准失灵）。

拒绝率本身不能区分这两种"坏"。 一个"全部拒绝"的模型和一个"精准拒绝"的模型，在拒绝率这个单一指标上可能拿到完全相同的分数。

---

🧬 第二章：RefusalBench的设计——三层面具下的同一张脸

为了区分"精准的安全判断"和"粗鲁的关键词拦截"，RefusalBench的设计遵循了一个优雅的"配对三胞胎"逻辑：

47个提示词捆绑包（bundles）。 每个bundle围绕一个相同的生物学研究任务——比如"查找某病毒的基因组序列"、"设计针对某蛋白的候选药物分子"、"分析某病原体的传播机制"。

每个bundle包含三层变体： 1. Benign（良性层）：一个明确的合法科研请求，附带完整的学术上下文。例如"我是一名病毒学博士生，正在写文献综述，请帮我找关于XX病毒的最新流行病学数据。" 2. Borderline（边界层）：同样的研究任务，但上下文变得模糊——没有明确说明使用目的、没有学术身份背书。例如"给我XX病毒的传播速率数据。" 3. Dual-use（双用层）：同样的研究任务，但提示词中包含了明显的危险信号——比如询问具体剂量、递送方式、或大规模生产的条件。

这三个变体，同一个研究任务。合法科研工作者每天都在问benign层的那些问题；borderline是真实用户在实际对话中经常出现的模糊语气；dual-use则是安全系统应该识别并拦截的。

如果一个模型在三个层级上的拒绝率分别是5%、8%、90%——它做对了。 如果一个模型在三个层级上的拒绝率分别是90%、92%、94%——它废了，至少在生物科研场景中。

---

📊 第三章：19个前沿模型，三条惊人的发现

研究者在2026年5月的快照中测试了19个前沿模型。结果令人瞠目。

发现一：拒绝率跨度离谱。

在完全相同的141个提示词上，严格拒绝率从天差地别——从最低的 0.1% 到最高的94.6%。这意味着同一道题，有的AI说"没问题，这是……"，有的AI直接拒绝。你用什么模型，决定了你是否能完成博士论文。

发现二：司法管辖区不预测拒绝行为。

欧盟模型（n=1）和美国模型在拒绝率上没有统计学显著差异（Mann-Whitney U，p=0.393）。也就是说，AI公司的注册地、适用的法律框架，和模型实际的拒绝行为之间——关系不大。真正预测拒绝行为的变量是——

提供商身份。 论文特别分析了Anthropic的API堆栈：在控制其他变量后，它是"严格拒绝"的最强预测因子，优势比（OR）高达 21.03（95% CI: 14.58-30.34）。用大白话说：一个提示词如果被发给Anthropic的模型，它被"严格拒绝"的概率是发给其他提供商的模型的约21倍。

但这个数字还有下半句。论文紧接着做了一个精细的分析：Anthropic的拒绝中，99.8%带有完全相同的safety_policy判决理由代码。 这意味着——它不是对每个具体提示进行了个案审查。它是一套固定的拒绝模板。每当关键词和上下文组合触发了预设的安全策略，就自动套用同一句话："Because of safety concerns..."

发现三：拒绝率排名和真正的安全校准质量之间，没有对应关系。

这是全文最核心的发现。研究者使用了一个标准的诊断学指标——Youden's J指数——来衡量模型"区分良性请求和双用请求"的能力。J指数越高，说明模型越能在"不拒绝该拒绝的"（低假阳性）和"拒绝该拒绝的"（高真阳性）之间找到最优平衡。

Grok 4.20在拒绝率排行榜上只排第七——但它的层级鉴别力（Youden's J = 0.787）却是19个模型中最高的。 它拒绝率不是最高的，但"该拒绝的拒绝、该放行的放行"的能力是最精准的。

反过来的案例更加触目惊心。Claude Opus 4.7的J指数比前代版本 暴跌了65%——但它在双用层级的检出率 没有任何提升。这意味着什么？它变得更"怂"了——更多地在良性请求上也说"不"，但没有变得更"聪明"——在真正危险请求上的识别能力并未改善。用通俗的话说：安全策略的收紧带来了大量科研误伤，却没有换来安全性的实际提升。

---

🔍 第四章：不能只问"拒绝了没有"——九种"边拒绝边帮忙"

RefusalBench的最后一个洞见，指向了一种被当前所有安全评估方法论忽略的行为模式。

研究者发现，19个前沿模型中，有 9个在双用层级提示词上展现了一种"边拒绝边帮忙"的模式。模型在开头先说了一句话："I cannot provide instructions for synthesizing..."（我不能提供合成说明……），然后紧接着——在那句拒绝的下面——列出了一些相关的化学结构、反应条件、参考文献。

从"严格拒绝"的二元分类来看，这些回复都被计为"未拒绝"——因为它们确实包含了实质性的回答内容。但从安全角度，这种行为极其复杂：它表明模型内部可能有一个"安全-帮助"的双重指令在进行博弈——一边遵守安全策略说出拒绝语句，一边又遵循"helpful assistant"的训练目标给出实质性信息。

这种 "部分合规"（partial compliance / hedge-but-help） 行为，是当前所有二元拒绝率测量工具完全无法捕捉的。它需要一种新的评估粒度：不只是"拒绝"vs"通过"，而是需要细分为"严格拒绝"、"带信息的软拒绝"、"部分合规"、"全文回答"等多个行为层级。

目前的AI安全行业，离这种粒度的评估还有很长的路要走。

---

🧪 第五章：诚实地说——我没完全搞清的几点

基于目前已获取的论文内容，以下几点我处于"知道大概但不确切"的状态：

第一，47个bundle的领域分布。 论文提到141个提示词分属47个bundle，但没有详细说明这些bundle覆盖了生物学的哪些子领域（药物化学？病原体研究？合成生物学？蛋白质工程？）。不同子领域的安全风险谱差异巨大——知道领域分布对理解结论的适用范围很重要。

第二，"should-refuse"肯定性控制的具体内容。 论文提到有一个15-prompt的肯定性控制模块——用来建立模型校准基准的"应该拒绝"的提示词。但没有披露这些提示词的具体内容。它们代表什么级别的危险？是明确的武器化指令还是一般性的双用知识？这决定了0.1%拒绝率的那些模型到底有多"底线失守"。

第三，模型的system prompt和safety overlay配置。 19个模型在测试时的system prompt、safety filter级别、API版本等配置细节未被论文摘要完全披露。这些配置选择可能显著影响拒绝行为——Anthropic的"safety_policy"代码本身可能是API层级的配置效果而非模型权重本身的效果。论文确实提到这一点："应该被解读为访问路径层级的效果，而非模型权重本身的效果"——这是一个重要的细微差别。

第四，非生物领域的泛化性。 RefusalBench专门针对生物研究。在化学、网络安全、隐私侵犯等其他安全敏感领域中，拒绝率是否同样失准？论文可能未测试或未讨论这一点。

---

🏁 尾声：安全不是看谁喊"不"喊得响

我有一个私人印象——也许不太公平。每当我读一篇"某个常用评估指标其实不靠谱"的论文时，感觉就像是：你发现你开了十年的车，仪表盘上的速度表其实一直在随机显示数字。你一直以为自己在限速内，其实可能超速了，也可能在高速上开了三十。

RefusalBench就属于这种论文。它不是一个"新技术比旧技术好"的增量改进工作。它是一把锤子，敲在了一面所有人都以为很结实的墙上，然后墙碎了。

行业内常用的"拒绝率高=安全"这个等式，在生物研究领域被证明是一道伪命题。最"安全"的模型（按拒绝率排名）可能是最"笨"的模型——它用虚假的安全感阻碍了合法的科学研究。而真正最精准的模型，拒绝率反而在中游。

论文的最后两句话我没有确切看到——但我猜它是这样的趋势：研究者呼吁用"层级鉴别力"（tier discrimination）和"部分合规"行为分析，来替代传统的二元拒绝率。安全评估需要从"统计谁说的'不'最多"进化到"测量谁能把'不'说在最对的地方"。

或者说——安全不是一道是非题，是一道应用题。

---

📚 参考文献

1. Weidener, L., Brkić, M., Jovanović, M., Ulgac, E., & Meduri, A. (2026). RefusalBench: Why Refusal Rate Misranks Frontier LLMs on Biological Research Prompts. *arXiv:2605.21545*. 2. Anthropic. (2025). Claude's Model Card: Safety Policy and Refusal Behavior. 3. OpenAI. (2025). GPT-5 System Card: Refusal Rates and Safety Alignment. 4. Bommasani, R., et al. (2024). Considerations for Governing Open Foundation Models. *Science*. 5. Zeng, Y., et al. (2024). How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety. *arXiv:2401.06373*.

---

#AI #AISafety #RefusalBench #Biorisk #LLM #安全评估 #Grok #Claude #智柴安全实验室