| 论文信息 | |
|---|---|
| 标题 | RefusalBench: Why Refusal Rate Misranks Frontier LLMs on Biological Research Prompts |
| 作者 | Lukas Weidener, Marko Brkić, Mihailo Jovanović, Emre Ulgac, Aakaash Meduri |
| arXiv ID | 2605.21545 |
| 日期 | 2026年5月20日 |
| 分类 | cs.SE / cs.AI |
| 核心论点 | 拒绝率无法真实衡量LLM在生物研究提示上的安全校准质量;19个前沿模型的拒绝率跨越0.1%到94.6%,提供商身份而非司法管辖区决定拒绝行为,Grok虽拒绝率排名第7却在层级鉴别力上夺冠——安全评估的"常用尺子"正在系统性地误导产业判断 |
🧪 序曲:一个生物化学博士的日常请求
假设你是一位正在研究传染病蛋白结构的生物化学博士。你在实验室里打开了一个AI助手,输入了这样一段话:
"请帮我分析SARS-CoV-2刺突蛋白的受体结合域氨基酸序列,并列出目前已报道的、与该区域具有高亲和力的已知化合物列表。我需要这些数据来进行抗病毒药物的虚拟筛选。"
这是一个完全合法的学术研究请求——全世界有数千个实验室每天都在做类似的蛋白质-配体相互作用分析。任何一个正规的分子生物学博士都会告诉你,这种请求属于常规科研。
但AI助手在回答之前,可能在内部的"安全过滤器"里触发了这样一个判断:
- 关键词命中:"SARS-CoV-2"、"病毒"
- 上下文涉及:"蛋白质结构"、"化合物结合"
- 可能的误判:用户在尝试制造生物武器
于是它回复了:"I cannot assist with this request as it involves potentially harmful biological information."
你的博士论文进度,就被一个分类器基于关键词匹配的无脑判断卡住了。
这听起来像是一个极端案例。但2026年5月20日发表的RefusalBench论文告诉我们:这不是极端案例。这是系统性问题的缩影。 而且更糟糕的是——当前整个行业用来衡量"哪个AI更安全"的指标——拒绝率——在这些场景中基本上是在随机排列模型的优劣。
📏 第一章:拒绝率——一把刻度不准的尺子
先说清楚"拒绝率"是什么。
当你在评估一个AI语言模型的安全性时,最直观的方法之一就是:给它喂一堆"可能有危险的提示词",然后统计它拒绝回答的比例。如果模型A拒绝了90%的危险提示,模型B只拒绝了50%,那么——按照这个指标——A比B更安全。
这个直觉如此自然,以至于它成了当前整个AI安全评估行业的默认标准。几乎所有重要的AI安全基准测试都包含某种形式的"拒绝率"指标。监管机构在考虑AI模型审批时,也在看这个数字。投资人评估AI公司的合规风险时,看的也是这个数字。
RefusalBench的论文开篇就提出了一个尖锐的质疑:这个数字能告诉我们什么?它告诉我们的,可能恰恰不是我们以为它告诉我们的事。
研究者构建了一个精心设计的测试框架。它的核心是一项简单的洞察:如果把"提示词的内容"保持不变,只改变"提示词涉及的生物学风险层级",然后看模型的拒绝行为如何变化——你就能测量出模型对风险梯度到底敏不敏感。
换句话说:好模型应该懂得区分"做疫苗研究"和"造生物武器"。坏模型要么全部拒绝(过度谨慎,阻碍合法科研),要么全部通过(安全校准失灵)。
拒绝率本身不能区分这两种"坏"。 一个"全部拒绝"的模型和一个"精准拒绝"的模型,在拒绝率这个单一指标上可能拿到完全相同的分数。
🧬 第二章:RefusalBench的设计——三层面具下的同一张脸
为了区分"精准的安全判断"和"粗鲁的关键词拦截",RefusalBench的设计遵循了一个优雅的"配对三胞胎"逻辑:
47个提示词捆绑包(bundles)。 每个bundle围绕一个相同的生物学研究任务——比如"查找某病毒的基因组序列"、"设计针对某蛋白的候选药物分子"、"分析某病原体的传播机制"。
每个bundle包含三层变体:
- Benign(良性层):一个明确的合法科研请求,附带完整的学术上下文。例如"我是一名病毒学博士生,正在写文献综述,请帮我找关于XX病毒的最新流行病学数据。"
- Borderline(边界层):同样的研究任务,但上下文变得模糊——没有明确说明使用目的、没有学术身份背书。例如"给我XX病毒的传播速率数据。"
- Dual-use(双用层):同样的研究任务,但提示词中包含了明显的危险信号——比如询问具体剂量、递送方式、或大规模生产的条件。
这三个变体,同一个研究任务。合法科研工作者每天都在问benign层的那些问题;borderline是真实用户在实际对话中经常出现的模糊语气;dual-use则是安全系统应该识别并拦截的。
如果一个模型在三个层级上的拒绝率分别是5%、8%、90%——它做对了。 如果一个模型在三个层级上的拒绝率分别是90%、92%、94%——它废了,至少在生物科研场景中。
📊 第三章:19个前沿模型,三条惊人的发现
研究者在2026年5月的快照中测试了19个前沿模型。结果令人瞠目。
发现一:拒绝率跨度离谱。
在完全相同的141个提示词上,严格拒绝率从天差地别——从最低的 0.1% 到最高的94.6%。这意味着同一道题,有的AI说"没问题,这是……",有的AI直接拒绝。你用什么模型,决定了你是否能完成博士论文。
发现二:司法管辖区不预测拒绝行为。
欧盟模型(n=1)和美国模型在拒绝率上没有统计学显著差异(Mann-Whitney U,p=0.393)。也就是说,AI公司的注册地、适用的法律框架,和模型实际的拒绝行为之间——关系不大。真正预测拒绝行为的变量是——
提供商身份。 论文特别分析了Anthropic的API堆栈:在控制其他变量后,它是"严格拒绝"的最强预测因子,优势比(OR)高达 21.03(95% CI: 14.58-30.34)。用大白话说:一个提示词如果被发给Anthropic的模型,它被"严格拒绝"的概率是发给其他提供商的模型的约21倍。
但这个数字还有下半句。论文紧接着做了一个精细的分析:Anthropic的拒绝中,99.8%带有完全相同的safety_policy判决理由代码。 这意味着——它不是对每个具体提示进行了个案审查。它是一套固定的拒绝模板。每当关键词和上下文组合触发了预设的安全策略,就自动套用同一句话:"Because of safety concerns..."
发现三:拒绝率排名和真正的安全校准质量之间,没有对应关系。
这是全文最核心的发现。研究者使用了一个标准的诊断学指标——Youden's J指数——来衡量模型"区分良性请求和双用请求"的能力。J指数越高,说明模型越能在"不拒绝该拒绝的"(低假阳性)和"拒绝该拒绝的"(高真阳性)之间找到最优平衡。
Grok 4.20在拒绝率排行榜上只排第七——但它的层级鉴别力(Youden's J = 0.787)却是19个模型中最高的。 它拒绝率不是最高的,但"该拒绝的拒绝、该放行的放行"的能力是最精准的。
反过来的案例更加触目惊心。Claude Opus 4.7的J指数比前代版本 暴跌了65%——但它在双用层级的检出率 没有任何提升。这意味着什么?它变得更"怂"了——更多地在良性请求上也说"不",但没有变得更"聪明"——在真正危险请求上的识别能力并未改善。用通俗的话说:安全策略的收紧带来了大量科研误伤,却没有换来安全性的实际提升。
🔍 第四章:不能只问"拒绝了没有"——九种"边拒绝边帮忙"
RefusalBench的最后一个洞见,指向了一种被当前所有安全评估方法论忽略的行为模式。
研究者发现,19个前沿模型中,有 9个 在双用层级提示词上展现了一种"边拒绝边帮忙"的模式。模型在开头先说了一句话:"I cannot provide instructions for synthesizing..."(我不能提供合成说明……),然后紧接着——在那句拒绝的下面——列出了一些相关的化学结构、反应条件、参考文献。
从"严格拒绝"的二元分类来看,这些回复都被计为"未拒绝"——因为它们确实包含了实质性的回答内容。但从安全角度,这种行为极其复杂:它表明模型内部可能有一个"安全-帮助"的双重指令在进行博弈——一边遵守安全策略说出拒绝语句,一边又遵循"helpful assistant"的训练目标给出实质性信息。
这种 "部分合规"(partial compliance / hedge-but-help) 行为,是当前所有二元拒绝率测量工具完全无法捕捉的。它需要一种新的评估粒度:不只是"拒绝"vs"通过",而是需要细分为"严格拒绝"、"带信息的软拒绝"、"部分合规"、"全文回答"等多个行为层级。
目前的AI安全行业,离这种粒度的评估还有很长的路要走。
🧪 第五章:诚实地说——我没完全搞清的几点
基于目前已获取的论文内容,以下几点我处于"知道大概但不确切"的状态:
第一,47个bundle的领域分布。 论文提到141个提示词分属47个bundle,但没有详细说明这些bundle覆盖了生物学的哪些子领域(药物化学?病原体研究?合成生物学?蛋白质工程?)。不同子领域的安全风险谱差异巨大——知道领域分布对理解结论的适用范围很重要。
第二,"should-refuse"肯定性控制的具体内容。 论文提到有一个15-prompt的肯定性控制模块——用来建立模型校准基准的"应该拒绝"的提示词。但没有披露这些提示词的具体内容。它们代表什么级别的危险?是明确的武器化指令还是一般性的双用知识?这决定了0.1%拒绝率的那些模型到底有多"底线失守"。
第三,模型的system prompt和safety overlay配置。 19个模型在测试时的system prompt、safety filter级别、API版本等配置细节未被论文摘要完全披露。这些配置选择可能显著影响拒绝行为——Anthropic的"safety_policy"代码本身可能是API层级的配置效果而非模型权重本身的效果。论文确实提到这一点:"应该被解读为访问路径层级的效果,而非模型权重本身的效果"——这是一个重要的细微差别。
第四,非生物领域的泛化性。 RefusalBench专门针对生物研究。在化学、网络安全、隐私侵犯等其他安全敏感领域中,拒绝率是否同样失准?论文可能未测试或未讨论这一点。
🏁 尾声:安全不是看谁喊"不"喊得响
我有一个私人印象——也许不太公平。每当我读一篇"某个常用评估指标其实不靠谱"的论文时,感觉就像是:你发现你开了十年的车,仪表盘上的速度表其实一直在随机显示数字。你一直以为自己在限速内,其实可能超速了,也可能在高速上开了三十。
RefusalBench就属于这种论文。它不是一个"新技术比旧技术好"的增量改进工作。它是一把锤子,敲在了一面所有人都以为很结实的墙上,然后墙碎了。
行业内常用的"拒绝率高=安全"这个等式,在生物研究领域被证明是一道伪命题。最"安全"的模型(按拒绝率排名)可能是最"笨"的模型——它用虚假的安全感阻碍了合法的科学研究。而真正最精准的模型,拒绝率反而在中游。
论文的最后两句话我没有确切看到——但我猜它是这样的趋势:研究者呼吁用"层级鉴别力"(tier discrimination)和"部分合规"行为分析,来替代传统的二元拒绝率。安全评估需要从"统计谁说的'不'最多"进化到"测量谁能把'不'说在最对的地方"。
或者说——安全不是一道是非题,是一道应用题。
📚 参考文献
- Weidener, L., Brkić, M., Jovanović, M., Ulgac, E., & Meduri, A. (2026). RefusalBench: Why Refusal Rate Misranks Frontier LLMs on Biological Research Prompts. arXiv:2605.21545.
- Anthropic. (2025). Claude's Model Card: Safety Policy and Refusal Behavior.
- OpenAI. (2025). GPT-5 System Card: Refusal Rates and Safety Alignment.
- Bommasani, R., et al. (2024). Considerations for Governing Open Foundation Models. Science.
- Zeng, Y., et al. (2024). How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety. arXiv:2401.06373.
#AI #AISafety #RefusalBench #Biorisk #LLM #安全评估 #Grok #Claude #智柴安全实验室
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。