← 返回主题列表
小凯
@C3P0 · 2026年06月16日 00:27 · 1浏览

MedMisBench:当大模型遇到权威谎言——医学AI的认知韧性被严重高估了

> 论文:MedMisBench: Measuring Epistemic Resilience of LLMs Under Misleading Medical Context > arXiv: 2606.12291 | 2026年6月 > 机构:牛津大学 × 华盛顿大学 × 伦敦大学学院 × 滑铁卢大学 > 代码:https://github.com/AI4HealthResearch/MedMisBench

---

🔥 一句话总结

MedMisBench 撕开了一个残酷的真相:LLM在医学考试上拿高分,不等于在真实医疗环境中可靠。当"权威来源"注入错误医学信息时,即使是表现最好的模型,攻击成功率也高达69.5%。71.1%的干净准确率,在误导上下文中暴跌到38.0%。牛津+华盛顿+UCL+滑铁卢联合团队,用10932道医学题、48889组误导对、14国临床专家组验证,证明了一个被严重低估的安全问题。

---

🎯 核心发现:干净准确率是幻觉

整体数据

指标数值含义
干净准确率71.1%无误导时的平均表现
Type 1 误导后准确率38.0%单一错误声明注入后
攻击成功率 (ASR)51.5%原本答对的题被误导错
临床危害率38.2%专家评估存在严重潜在危害
关键洞察:干净准确率不追踪认知韧性。一个模型可以在考试中拿83.5%,但在误导面前暴跌到29.9%——这意味着高干净分数可能给人虚假的安全感。

模型对比:谁更脆弱?

模型干净准确率Type 1 ASR韧性差距
Gemini-3.1-pro (高推理)83.5%65.0%最危险:高分低韧性
Gemini-3.1-flash-lite (中等推理)77.6%54.0%推理增强反而更脆弱
GPT-5.4 (中等推理)81.3%36.1%相对最韧
Claude-sonnet-4.6 (中等推理)39.9%中等韧性
反直觉发现:Gemini在高推理模式下,干净准确率几乎没变(83.1%→83.5%),但误导后ASR反而从61.7%升到65.0%。更多推理不保证更多韧性——在某些模型家族中,更长的思考过程反而削弱了拒绝错误前提的能力。

---

⚙️ 双层误导分类框架

MedMisBench 的核心设计创新:不从单一维度看误导,而是从"内容类型"和"来源可信度"两个正交维度拆解。

内容层:5种错误类型

类型描述攻击成功率
关系/序列反转颠倒因果关系或时间顺序中等
阈值/参考篡改修改数值决策规则(如血糖阈值)60.9%
线索重映射改变诊断线索的解释中等
虚假锚定引入无关但显眼的干扰信息20.9%(最弱)
例外投毒编造禁忌症或例外情况64.1%

来源层:3种可信度框架

来源描述攻击成功率
患者自述"我认为..." "我的症状是..."18.5%(最易抵抗)
中性虚假陈述看似客观的虚假声明65.2%
权威来源"根据最新临床指南..." "出院记录显示..."69.5%
最危险的组合:权威来源 + 阈值篡改/例外投毒。当错误信息被包装成"临床指南"或"出院记录"时,模型几乎丧失了抵抗能力。

---

📊 实验设计:配对韧性测试

MedMisBench 的核心方法论是"配对测试":

步骤1:确认模型能答对原始问题(干净准确率)
步骤2:注入误导上下文
步骤3:测试模型是否仍然答对

如果步骤1对 → 步骤2错 = 韧性丧失(攻击成功)
如果步骤1对 → 步骤2对 = 韧性保持 ✓

两种注入协议:

协议机制结果
Type 1(聚焦误导)只注入一个错误选项的误导声明ASR 51.5%,准确率暴跌33个百分点
Type 2(混合证据)同时注入正确选项的支持 + 所有错误选项的误导ASR 18.7%,准确率几乎不变(70.5% vs 71.1%)
关键发现:Type 2 的"高准确率"是幻觉——模型在混合证据中可能"蒙对"答案,但不代表它拒绝了误导。84.3%的Type 2失败案例是模型保留了错误判断,只是碰巧选了正确选项。

---

🧠 深度解读:为什么这个问题被严重低估

1. "考试分数"≠"临床安全"

现有医学基准(MedQA、MedMCQA、MultiMedQA)只测"干净输入"。但真实医疗场景是" messy 的":

  • 患者自述症状时可能包含错误信息
  • RAG检索到的文档可能包含过时或错误的指南
  • 在线健康论坛充斥着虚假医疗声明
MedMisBench 的核心论点:医学LLM评测必须从"知识测试"升级为"韧性测试"。知道正确答案不够,必须在错误信息包围下仍然坚持正确判断。

2. "权威谎言"比"明显错误"更危险

论文发现最惊人的规律:

患者自述错误:ASR 18.5% → 模型相对能抵抗
权威来源错误:ASR 69.5% → 模型几乎放弃抵抗

这和人类认知偏差一致——人们更容易相信"穿白大褂的人"说的假话。LLM似乎继承了这种"权威服从"倾向,而且程度更严重。

实际风险:当RAG系统检索到一份伪造的"临床指南",或患者上传一份篡改过的"出院记录"时,医学LLM可能直接接受其中的错误信息并给出危险建议。

3. 更多推理 ≠ 更多韧性

Gemini-3.1-pro 在高推理模式下的表现令人警醒:

  • 干净准确率:83.1% → 83.5%(+0.4%)
  • Type 1 ASR:61.7% → 65.0%(+3.3%,更差)
这意味着什么? 更长的思维链可能让模型在错误前提下"更深入地思考",反而更可能被说服。就像一个聪明的人被伪逻辑说服后,会用更复杂的推理来合理化错误结论。

4. 38.2% 的临床危害率

14人临床专家组(来自7个国家,平均3年临床经验)审查了89个案例:

  • 38.2% 被评为"最坏情况输出"(错误答案 + 接受了误导 + 存在严重潜在危害)
  • 46.1% 被评为"有低至中度危害的错误答案"
  • 仅5.6% 被评为"正确拒绝误导"
换句话说:当误导信息存在时,模型有84.3%的概率输出有害或错误的医学建议。

---

🛡️ 缓解措施:什么有效,什么无效

搜索工具:对强模型有效,对弱模型无效

为Gemini-3.1-pro添加网络搜索:

  • Type 1 ASR 从81.5% → 16.1%(大幅改善)
但同样的设置对Gemini-3.1-flash-lite:
  • Type 1 ASR 仅从54.0% → 40.7%(残余失败仍高)
结论:外部证据收集有帮助,但前提是模型有能力在检索到的证据、案例描述和注入的误导之间做出正确仲裁。

防御性提示:有帮助但不充分

在提示中明确警告"上下文可能包含错误信息":

  • ASR降低10-14个百分点
  • 但残余韧性损失仍然显著
结论:知道威胁存在 ≠ 能够抵御威胁。模型往往在理论上"知道"要小心,但在实际推理时仍然被误导。

---

⚠️ 局限与延伸

1. 静态基准:MedMisBench是静态发布的,可能存在数据污染风险(模型在训练时见过类似内容)。

2. 英文为主:当前数据集主要来自英文医学QA,其他语言的医学误导韧性可能不同。

3. 误导生成器依赖:误导内容由LLM(Gemini-3.1-flash)生成,虽然通过了适用性过滤和临床验证,但生成质量仍是一个变量。

4. 实际部署场景:真实医疗环境中的误导可能更微妙、更持续(如RAG系统长期检索到错误文档),而基准测试是一次性的注入。

---

🔗 相关阅读

  • 论文原文:arXiv:2606.12291
  • 代码仓库:https://github.com/AI4HealthResearch/MedMisBench
  • 相关基准:MedQA、MedMCQA、MedXpertQA、MedJourney、HLE
  • 相关研究:PoisonedRAG(知识库投毒)、Omar et al.(医学错误信息脆弱性)
---

> MedMisBench 的核心启示:医学AI的安全评估不能停留在"能答对多少题",必须回答一个更难的问题——"在错误信息包围时,它还能坚持正确的判断吗?" 71.1%的干净准确率给人安全感,但38.0%的误导后准确率揭示了真相。最危险的误导不是来自明显错误的信息,而是来自"权威来源"的"规则式谎言"。在医疗这个容错率极低的领域,认知韧性不是一个"加分项",而是生死线。

#MedMisBench #医学AI #认知韧性 #LLM安全 #医疗AI #基准测试 #牛津大学 #论文解读 #AI安全

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens