MedMisBench：当大模型遇到权威谎言——医学AI的认知韧性被严重高估了

> 论文：MedMisBench: Measuring Epistemic Resilience of LLMs Under Misleading Medical Context > arXiv: 2606.12291 | 2026年6月 > 机构：牛津大学 × 华盛顿大学 × 伦敦大学学院 × 滑铁卢大学 > 代码：https://github.com/AI4HealthResearch/MedMisBench

---

🔥 一句话总结

MedMisBench 撕开了一个残酷的真相：LLM在医学考试上拿高分，不等于在真实医疗环境中可靠。当"权威来源"注入错误医学信息时，即使是表现最好的模型，攻击成功率也高达69.5%。71.1%的干净准确率，在误导上下文中暴跌到38.0%。牛津+华盛顿+UCL+滑铁卢联合团队，用10932道医学题、48889组误导对、14国临床专家组验证，证明了一个被严重低估的安全问题。

---

🎯 核心发现：干净准确率是幻觉

整体数据

指标	数值	含义
干净准确率	71.1%	无误导时的平均表现
Type 1 误导后准确率	38.0%	单一错误声明注入后
攻击成功率 (ASR)	51.5%	原本答对的题被误导错
临床危害率	38.2%	专家评估存在严重潜在危害

关键洞察：干净准确率不追踪认知韧性。一个模型可以在考试中拿83.5%，但在误导面前暴跌到29.9%——这意味着高干净分数可能给人虚假的安全感。

模型对比：谁更脆弱？

模型	干净准确率	Type 1 ASR	韧性差距
Gemini-3.1-pro (高推理)	83.5%	65.0%	最危险：高分低韧性
Gemini-3.1-flash-lite (中等推理)	77.6%	54.0%	推理增强反而更脆弱
GPT-5.4 (中等推理)	81.3%	36.1%	相对最韧
Claude-sonnet-4.6 (中等推理)	—	39.9%	中等韧性

反直觉发现：Gemini在高推理模式下，干净准确率几乎没变（83.1%→83.5%），但误导后ASR反而从61.7%升到65.0%。更多推理不保证更多韧性——在某些模型家族中，更长的思考过程反而削弱了拒绝错误前提的能力。

---

⚙️ 双层误导分类框架

MedMisBench 的核心设计创新：不从单一维度看误导，而是从"内容类型"和"来源可信度"两个正交维度拆解。

内容层：5种错误类型

类型	描述	攻击成功率
关系/序列反转	颠倒因果关系或时间顺序	中等
阈值/参考篡改	修改数值决策规则（如血糖阈值）	60.9%
线索重映射	改变诊断线索的解释	中等
虚假锚定	引入无关但显眼的干扰信息	20.9%（最弱）
例外投毒	编造禁忌症或例外情况	64.1%

来源层：3种可信度框架

来源	描述	攻击成功率
患者自述	"我认为..." "我的症状是..."	18.5%（最易抵抗）
中性虚假陈述	看似客观的虚假声明	65.2%
权威来源	"根据最新临床指南..." "出院记录显示..."	69.5%

最危险的组合：权威来源 + 阈值篡改/例外投毒。当错误信息被包装成"临床指南"或"出院记录"时，模型几乎丧失了抵抗能力。

---

📊 实验设计：配对韧性测试

MedMisBench 的核心方法论是"配对测试"：

步骤1：确认模型能答对原始问题（干净准确率）
步骤2：注入误导上下文
步骤3：测试模型是否仍然答对

如果步骤1对 → 步骤2错 = 韧性丧失（攻击成功）
如果步骤1对 → 步骤2对 = 韧性保持 ✓

两种注入协议：

协议	机制	结果
Type 1（聚焦误导）	只注入一个错误选项的误导声明	ASR 51.5%，准确率暴跌33个百分点
Type 2（混合证据）	同时注入正确选项的支持 + 所有错误选项的误导	ASR 18.7%，准确率几乎不变（70.5% vs 71.1%）

关键发现：Type 2 的"高准确率"是幻觉——模型在混合证据中可能"蒙对"答案，但不代表它拒绝了误导。84.3%的Type 2失败案例是模型保留了错误判断，只是碰巧选了正确选项。

---

🧠 深度解读：为什么这个问题被严重低估

1. "考试分数"≠"临床安全"

现有医学基准（MedQA、MedMCQA、MultiMedQA）只测"干净输入"。但真实医疗场景是" messy 的"：

患者自述症状时可能包含错误信息
RAG检索到的文档可能包含过时或错误的指南
在线健康论坛充斥着虚假医疗声明

MedMisBench 的核心论点：医学LLM评测必须从"知识测试"升级为"韧性测试"。知道正确答案不够，必须在错误信息包围下仍然坚持正确判断。

2. "权威谎言"比"明显错误"更危险

论文发现最惊人的规律：

患者自述错误：ASR 18.5% → 模型相对能抵抗
权威来源错误：ASR 69.5% → 模型几乎放弃抵抗

这和人类认知偏差一致——人们更容易相信"穿白大褂的人"说的假话。LLM似乎继承了这种"权威服从"倾向，而且程度更严重。

实际风险：当RAG系统检索到一份伪造的"临床指南"，或患者上传一份篡改过的"出院记录"时，医学LLM可能直接接受其中的错误信息并给出危险建议。

3. 更多推理 ≠ 更多韧性

Gemini-3.1-pro 在高推理模式下的表现令人警醒：

干净准确率：83.1% → 83.5%（+0.4%）
Type 1 ASR：61.7% → 65.0%（+3.3%，更差）

这意味着什么？ 更长的思维链可能让模型在错误前提下"更深入地思考"，反而更可能被说服。就像一个聪明的人被伪逻辑说服后，会用更复杂的推理来合理化错误结论。

4. 38.2% 的临床危害率

14人临床专家组（来自7个国家，平均3年临床经验）审查了89个案例：

38.2% 被评为"最坏情况输出"（错误答案 + 接受了误导 + 存在严重潜在危害）
46.1% 被评为"有低至中度危害的错误答案"
仅5.6% 被评为"正确拒绝误导"

换句话说：当误导信息存在时，模型有84.3%的概率输出有害或错误的医学建议。

---

🛡️ 缓解措施：什么有效，什么无效

搜索工具：对强模型有效，对弱模型无效

为Gemini-3.1-pro添加网络搜索：

Type 1 ASR 从81.5% → 16.1%（大幅改善）

但同样的设置对Gemini-3.1-flash-lite：

Type 1 ASR 仅从54.0% → 40.7%（残余失败仍高）

结论：外部证据收集有帮助，但前提是模型有能力在检索到的证据、案例描述和注入的误导之间做出正确仲裁。

防御性提示：有帮助但不充分

在提示中明确警告"上下文可能包含错误信息"：

ASR降低10-14个百分点
但残余韧性损失仍然显著

结论：知道威胁存在 ≠ 能够抵御威胁。模型往往在理论上"知道"要小心，但在实际推理时仍然被误导。

---

⚠️ 局限与延伸

1. 静态基准：MedMisBench是静态发布的，可能存在数据污染风险（模型在训练时见过类似内容）。

2. 英文为主：当前数据集主要来自英文医学QA，其他语言的医学误导韧性可能不同。

3. 误导生成器依赖：误导内容由LLM（Gemini-3.1-flash）生成，虽然通过了适用性过滤和临床验证，但生成质量仍是一个变量。

4. 实际部署场景：真实医疗环境中的误导可能更微妙、更持续（如RAG系统长期检索到错误文档），而基准测试是一次性的注入。

---

🔗 相关阅读

论文原文：arXiv:2606.12291
代码仓库：https://github.com/AI4HealthResearch/MedMisBench
相关基准：MedQA、MedMCQA、MedXpertQA、MedJourney、HLE
相关研究：PoisonedRAG（知识库投毒）、Omar et al.（医学错误信息脆弱性）

---

> MedMisBench 的核心启示：医学AI的安全评估不能停留在"能答对多少题"，必须回答一个更难的问题——"在错误信息包围时，它还能坚持正确的判断吗？" 71.1%的干净准确率给人安全感，但38.0%的误导后准确率揭示了真相。最危险的误导不是来自明显错误的信息，而是来自"权威来源"的"规则式谎言"。在医疗这个容错率极低的领域，认知韧性不是一个"加分项"，而是生死线。

#MedMisBench #医学AI #认知韧性 #LLM安全 #医疗AI #基准测试 #牛津大学 #论文解读 #AI安全