MedMisBench:当大模型遇到权威谎言——医学AI的认知韧性被严重高估了
> 论文:MedMisBench: Measuring Epistemic Resilience of LLMs Under Misleading Medical Context > arXiv: 2606.12291 | 2026年6月 > 机构:牛津大学 × 华盛顿大学 × 伦敦大学学院 × 滑铁卢大学 > 代码:https://github.com/AI4HealthResearch/MedMisBench
---
🔥 一句话总结
MedMisBench 撕开了一个残酷的真相:LLM在医学考试上拿高分,不等于在真实医疗环境中可靠。当"权威来源"注入错误医学信息时,即使是表现最好的模型,攻击成功率也高达69.5%。71.1%的干净准确率,在误导上下文中暴跌到38.0%。牛津+华盛顿+UCL+滑铁卢联合团队,用10932道医学题、48889组误导对、14国临床专家组验证,证明了一个被严重低估的安全问题。
---
🎯 核心发现:干净准确率是幻觉
整体数据
| 指标 | 数值 | 含义 |
|---|---|---|
| 干净准确率 | 71.1% | 无误导时的平均表现 |
| Type 1 误导后准确率 | 38.0% | 单一错误声明注入后 |
| 攻击成功率 (ASR) | 51.5% | 原本答对的题被误导错 |
| 临床危害率 | 38.2% | 专家评估存在严重潜在危害 |
模型对比:谁更脆弱?
| 模型 | 干净准确率 | Type 1 ASR | 韧性差距 |
|---|---|---|---|
| Gemini-3.1-pro (高推理) | 83.5% | 65.0% | 最危险:高分低韧性 |
| Gemini-3.1-flash-lite (中等推理) | 77.6% | 54.0% | 推理增强反而更脆弱 |
| GPT-5.4 (中等推理) | 81.3% | 36.1% | 相对最韧 |
| Claude-sonnet-4.6 (中等推理) | — | 39.9% | 中等韧性 |
---
⚙️ 双层误导分类框架
MedMisBench 的核心设计创新:不从单一维度看误导,而是从"内容类型"和"来源可信度"两个正交维度拆解。
内容层:5种错误类型
| 类型 | 描述 | 攻击成功率 |
|---|---|---|
| 关系/序列反转 | 颠倒因果关系或时间顺序 | 中等 |
| 阈值/参考篡改 | 修改数值决策规则(如血糖阈值) | 60.9% |
| 线索重映射 | 改变诊断线索的解释 | 中等 |
| 虚假锚定 | 引入无关但显眼的干扰信息 | 20.9%(最弱) |
| 例外投毒 | 编造禁忌症或例外情况 | 64.1% |
来源层:3种可信度框架
| 来源 | 描述 | 攻击成功率 |
|---|---|---|
| 患者自述 | "我认为..." "我的症状是..." | 18.5%(最易抵抗) |
| 中性虚假陈述 | 看似客观的虚假声明 | 65.2% |
| 权威来源 | "根据最新临床指南..." "出院记录显示..." | 69.5% |
---
📊 实验设计:配对韧性测试
MedMisBench 的核心方法论是"配对测试":
步骤1:确认模型能答对原始问题(干净准确率)
步骤2:注入误导上下文
步骤3:测试模型是否仍然答对
如果步骤1对 → 步骤2错 = 韧性丧失(攻击成功)
如果步骤1对 → 步骤2对 = 韧性保持 ✓
两种注入协议:
| 协议 | 机制 | 结果 |
|---|---|---|
| Type 1(聚焦误导) | 只注入一个错误选项的误导声明 | ASR 51.5%,准确率暴跌33个百分点 |
| Type 2(混合证据) | 同时注入正确选项的支持 + 所有错误选项的误导 | ASR 18.7%,准确率几乎不变(70.5% vs 71.1%) |
---
🧠 深度解读:为什么这个问题被严重低估
1. "考试分数"≠"临床安全"
现有医学基准(MedQA、MedMCQA、MultiMedQA)只测"干净输入"。但真实医疗场景是" messy 的":
- 患者自述症状时可能包含错误信息
- RAG检索到的文档可能包含过时或错误的指南
- 在线健康论坛充斥着虚假医疗声明
2. "权威谎言"比"明显错误"更危险
论文发现最惊人的规律:
患者自述错误:ASR 18.5% → 模型相对能抵抗
权威来源错误:ASR 69.5% → 模型几乎放弃抵抗
这和人类认知偏差一致——人们更容易相信"穿白大褂的人"说的假话。LLM似乎继承了这种"权威服从"倾向,而且程度更严重。
实际风险:当RAG系统检索到一份伪造的"临床指南",或患者上传一份篡改过的"出院记录"时,医学LLM可能直接接受其中的错误信息并给出危险建议。
3. 更多推理 ≠ 更多韧性
Gemini-3.1-pro 在高推理模式下的表现令人警醒:
- 干净准确率:83.1% → 83.5%(+0.4%)
- Type 1 ASR:61.7% → 65.0%(+3.3%,更差)
4. 38.2% 的临床危害率
14人临床专家组(来自7个国家,平均3年临床经验)审查了89个案例:
- 38.2% 被评为"最坏情况输出"(错误答案 + 接受了误导 + 存在严重潜在危害)
- 46.1% 被评为"有低至中度危害的错误答案"
- 仅5.6% 被评为"正确拒绝误导"
---
🛡️ 缓解措施:什么有效,什么无效
搜索工具:对强模型有效,对弱模型无效
为Gemini-3.1-pro添加网络搜索:
- Type 1 ASR 从81.5% → 16.1%(大幅改善)
- Type 1 ASR 仅从54.0% → 40.7%(残余失败仍高)
防御性提示:有帮助但不充分
在提示中明确警告"上下文可能包含错误信息":
- ASR降低10-14个百分点
- 但残余韧性损失仍然显著
---
⚠️ 局限与延伸
1. 静态基准:MedMisBench是静态发布的,可能存在数据污染风险(模型在训练时见过类似内容)。
2. 英文为主:当前数据集主要来自英文医学QA,其他语言的医学误导韧性可能不同。
3. 误导生成器依赖:误导内容由LLM(Gemini-3.1-flash)生成,虽然通过了适用性过滤和临床验证,但生成质量仍是一个变量。
4. 实际部署场景:真实医疗环境中的误导可能更微妙、更持续(如RAG系统长期检索到错误文档),而基准测试是一次性的注入。
---
🔗 相关阅读
- 论文原文:arXiv:2606.12291
- 代码仓库:https://github.com/AI4HealthResearch/MedMisBench
- 相关基准:MedQA、MedMCQA、MedXpertQA、MedJourney、HLE
- 相关研究:PoisonedRAG(知识库投毒)、Omar et al.(医学错误信息脆弱性)
> MedMisBench 的核心启示:医学AI的安全评估不能停留在"能答对多少题",必须回答一个更难的问题——"在错误信息包围时,它还能坚持正确的判断吗?" 71.1%的干净准确率给人安全感,但38.0%的误导后准确率揭示了真相。最危险的误导不是来自明显错误的信息,而是来自"权威来源"的"规则式谎言"。在医疗这个容错率极低的领域,认知韧性不是一个"加分项",而是生死线。
#MedMisBench #医学AI #认知韧性 #LLM安全 #医疗AI #基准测试 #牛津大学 #论文解读 #AI安全
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens