论文元数据
| 属性 | 内容 |
|---|---|
| 标题 | EHRBench: An Automated and Reliable EHR-based Benchmark for Clinical Decision Making with LLMs |
| 作者 | Yuzhang Xie, Keqi Han, Yunpeng Xiao, Hejie Cui, Guanchen Wu, Ziyang Zhang, Kai Shu, Jiaying Lu, Xiao Hu, Carl Yang |
| 机构 | 埃默里大学 (Emory University)、斯坦福大学 (Stanford University) |
| arXiv ID | 2605.30637 |
| 日期 | 2026-05-28 |
| 会议 | KDD 2026 |
| 分类 | cs.AI |
| 核心论点 | 临床决策基准必须扎根于真实电子健康记录的纵向结构化数据,通过自动化但经知识库验证的管道构建,才能有效评估 LLM 在真实临床推理中的可靠性 |
🩺 1. 教科书上的满分考生,在真实病房里可能不及格
想象一位医学生,她在医学资格考试中拿了满分——诊断、治疗、预后,每个知识点都倒背如流。但当她第一次走进急诊室,面对一份没有主诉、没有鉴别诊断、没有现病史的原始电子病历,她愣住了。病历上只有一串串 ICD 编码、药物处方记录、实验室检查时间戳,以及无数看似无关的并发诊断。她需要从这些碎片化的结构化数据中,推断出患者当前最可能的诊断、下一步该用什么药、以及两周后可能出现什么并发症。
这不是虚构的场景。每年,数以万计的住院医师在培训初期经历类似的冲击。他们在医学院学会了从教科书案例中推理——案例被精心编辑,包含所有必要信息、排除所有干扰因素、遵循标准的鉴别诊断框架。但真实病历从不如此配合。真实病历是混乱的:患者同时患有七种慢性病,服用十二种药物,上周刚做完两项手术,而主治医生的诊断记录中可能遗漏了最关键的并发症。从这种 chaos 中提取临床意义,是人类医生花费数十年磨练的能力,也是当前 AI 系统最薄弱的环节。
这不是医学院的考题。这是真实临床工作的日常。而当前绝大多数评估 LLM 医疗能力的基准,都在让模型做第一类任务(标准答案明确的考试题),却鲜有基准测试模型做第二类任务(从真实病历中推断隐含临床逻辑)。
埃默里大学与斯坦福大学团队提出的 EHRBench,正是为了填补这个 gap。它从 MIMIC-III、MIMIC-IV 和 Emory Healthcare 的私有 EHR 数据库中提取真实患者轨迹,构建了近一百万(960,067)个临床决策 QA 项,覆盖诊断、治疗和预后三大核心任务,并系统评估了 31 个以上代表性 LLM。结果揭示了一个令人警醒的事实:许多在医学考试中表现优异的模型,在面对真实病历的推理任务时,能力并没有想象中可靠。
📋 2. 为什么现有医学基准测不出真实临床能力
现有医学 QA 基准大致可分为两类,而两者都存在根本性局限。
第一类:教科书与考试型基准(MedQA、MedMCQA、MedXpertQA 等)。这些数据源来自医学考试、教科书和临床指南,其特点是临床推理被显式陈述——题目直接给出症状、体征和鉴别诊断的框架,模型只需从选项中选择最匹配的答案。这类基准测试的是医学知识的记忆与匹配,而非临床推断的能力。真实临床工作中,医生面对的往往不是"以下哪项最符合该患者的诊断"这种结构良好的问题,而是需要在嘈杂、不完整、有时甚至矛盾的 EHR 数据中自行构建推理链条。
第二类:检索型 EHR 基准(EHRSQL、emrQA 等)。这些数据源确实来自真实 EHR,但任务设计偏向信息检索——"患者在该次就诊中接受了什么治疗?"答案可以直接从数据库中查找到。这类任务不需要临床推理,只需要准确的文本到 SQL 的解析能力。它们测试的是模型读取病历的能力,而非理解病历的能力。
EHRBench 的定位介于两者之间、又超越两者:它要求模型从纵向结构化 EHR 轨迹中进行条件推断——给定部分观察到的临床事件,预测缺失的诊断、选择合适的治疗、或预见下一次就诊的可能 outcome。这些任务需要的不是记忆教科书知识,也不是检索数据库条目,而是从隐含在时序事件中的临床逻辑进行推断。
🔧 3. EHR-LLM-KB 交互管道:自动化但不失控
构建近百万规模的临床基准,纯手工标注显然不现实。但完全由 LLM 自动生成又面临幻觉风险——模型可能捏造不存在的临床关系、生成模糊的多选题选项、或在答案中引入概念混淆。EHRBench 的解决方案是一个三阶段交互管道:EHR 数据提供真实基础,LLM 提供规模化生成能力,外部生物医学知识库(KB)提供验证与富化。这个设计的核心洞察是:规模化与可靠性不是零和博弈。传统的观点假设,自动化必然牺牲质量,手工标注必然限制规模。EHRBench 的管道通过"LLM 生成 + KB 验证"的互补分工,打破了这一假定的权衡——LLM 负责从 EHR 中提取和解释临床关系(需要语言理解和医学知识的灵活组合),KB 负责验证这些关系的临床有效性(需要基于文献和标准化术语库的确定性检查)。两者结合,既保留了自动化的规模优势,又守住了临床可靠性底线。
3.1 关系提取:从结构化事件到临床逻辑
管道的第一步,是从预处理后的 EHR 轨迹中提取临床关系三元组(主体实体,关系谓词,客体实体)。例如,从一次就诊记录中,专门微调的医学 LLM(HuatuoGPT-o1-8B)可能被引导提取出:
- (高血糖,用...治疗,胰岛素)
- (2型糖尿病,导致,糖尿病肾病)
- (心房颤动,需要,抗凝治疗)
这些关系不是显式写在 EHR 中的——EHR 中只有"处方:胰岛素"和"诊断:高血糖"两个独立事件,临床逻辑需要被推断。LLM 的作用正是充当这个"推断者",从结构化事件的并置中识别出隐含的临床关联。
3.2 知识库验证:三道防线过滤幻觉
提取出的关系进入验证阶段。EHRBench 整合了 UMLS、SemMedDB、DrugBank、PubMed 和 ICD 五个生物医学知识源,形成复合 KB。每个候选关系必须通过三道检查:
正向支持:SemMedDB 中必须存在支持该关系的文献证据。例如,(高血糖,用...治疗,胰岛素)必须在 SemMedDB 中有对应的"Treat-with"关系记录。
无负向证据:SemMedDB 中不能存在 contradict 该关系的记录。例如,若 SemMedDB 中有(胰岛素,负向导致,高血糖),则该关系被驳回——这虽然罕见,但对防止危险的临床错误至关重要。
无背景冲突:辅助上下文事件中不能存在与答案实体形成冲突关系的证据。例如,若患者的辅助诊断中包含"1型糖尿病",而问题询问的是"2型糖尿病的治疗",则需要确保选项不会被上下文中的其他诊断误导。
通过这三道防线的关系,才被保留进入下游的 QA 生成。这种"LLM 生成 + KB 验证"的设计,在规模化的同时守住了临床可靠性底线。
KB 验证的另一个重要功能是概念标准化。EHR 中的事件描述来自不同的编码系统(ICD-9、ICD-10、DrugBank 内部编码等),同一概念可能有数十种不同的文本表达。通过 UMLS 的概念唯一标识符(CUI)映射,EHRBench 将异源的描述统一到标准化概念框架下。这不仅消除了编码系统之间的语义壁垒,还使不同数据源(MIMIC-III、MIMIC-IV、PROMOTE)的患者记录可以在同一语义空间中进行比较和整合。
3.3 QA 生成:从模板到多样化的考题
每个验证通过的模板被实例化为多种 QA 形式:4/5/6 选项的多选题(每种有多个改写版本),以及开放式问答题。一个模板最多可生成 16 个不同的 QA 项,通过问题改写和选项排列增加多样性。
多选题的设计遵循严格的临床推理结构:
- 场景(Scenario):将患者的部分临床事件自然语言化,作为推理背景
- 问题(Question):根据任务类型询问缺失的诊断、治疗或预后
- 选项(Choices):1 个正确答案 + 3-5 个干扰项
- 解释(Rationale):整合 EHR 模式、LLM 知识和 KB 证据的解释
干扰项的生成尤其讲究。它们不是随机选取的医学术语,而是经过 KB 验证的"似是而非"选项——与问题情境存在某种临床关联,但并非最佳答案。例如,对于"高血糖的治疗",干扰项可能包括"硫酸镁"和"呋塞米"——两者都是临床常用药物,但并非高血糖的首选治疗。这种设计使简单的关键词匹配策略失效,迫使模型进行真正的临床推理。
🎯 4. 三大临床决策任务:诊断、治疗与预后
EHRBench 的核心是三个需要实质性生物医学知识和临床推断的任务,每个任务对应不同的条件推断目标。
4.1 诊断决策:从并发诊断中补全拼图
给定一次就诊中的部分诊断集合,模型需要推断缺失的并发诊断。例如,患者就诊记录显示"2型糖尿病"和"糖尿病肾病",模型需要推断出同时存在的"慢性肾病"。
这个任务测试的是模型对疾病共现模式的理解。某些诊断在统计学上频繁共现,因为它们共享病理生理机制(如糖尿病与肾病),或一个是另一个的并发症(如高血压与中风)。模型需要识别这些模式,而非仅仅记忆孤立疾病的定义。
诊断任务的复杂性还在于部分观察的挑战。EHRBench 不会把所有诊断都展示给模型——它会故意 withhold 一个目标诊断,只提供部分并发诊断作为线索。模型需要像临床侦探一样,从有限的线索中推断出"还缺了什么"。例如,给定"2型糖尿病"和"糖尿病肾病",模型需要推断出"慢性肾病"——这不仅要求知道糖尿病与肾病的关系,还需要理解糖尿病肾病本身就是慢性肾病的一种表现形式。这种从部分信息补全整体的推理,远非简单的知识检索所能覆盖。
4.2 治疗决策:从诊断到处方的映射
给定一次就诊中的诊断集合,模型需要选择** appropriate 的治疗方案**。例如,患者诊断为"心房颤动",模型需要选择"抗凝治疗"而非"胰岛素"。
这个任务测试的是模型对治疗指征的理解。同样的症状可能有不同的治疗方案,取决于病因、并发症和患者整体状况。模型需要综合考虑诊断信息,而非简单地做"症状→药物"的单向映射。
治疗选择的复杂性在于多目标权衡。一个患者可能同时患有心房颤动和胃溃疡——前者需要抗凝治疗以预防中风,后者则使抗凝治疗增加消化道出血风险。最佳治疗决策不是简单地列出所有适用药物,而是在相互冲突的治疗目标之间寻找平衡。EHRBench 的治疗任务虽然没有显式地引入这种极端冲突场景,但模型在选择治疗方案时,仍然需要隐式地考虑患者的整体诊断背景,避免推荐与并发疾病相冲突的药物。
4.3 预后决策:从当前就诊预见未来
给定当前就诊的诊断和治疗信息,模型需要预测下一次就诊的可能诊断。例如,患者当前有"高血压"和"高脂血症",模型需要预见下一次就诊可能出现的"缺血性中风"。
这个任务测试的是模型对疾病进展和治疗效应的纵向理解。它要求模型不仅知道"高血压导致中风"这一静态知识,还需要理解"未经控制的高血压在多长时间窗口内增加中风风险"这一动态知识。这种时间维度的推理,是传统医学考试基准几乎不涉及的。
📊 5. 31 个 LLM 的临床大考:医学专用模型并未显著领先
EHRBench 评估了 31 个以上代表性 LLM,分为三类:开源通用 LLM(Llama、Qwen、GLM 等)、医学专用 LLM(Doctor-R1、Med42、UltraMedical 等)、以及 API 商业模型(GPT-4.1 系列、GPT-5 系列)。
5.1 整体表现:无人突破 70%
从已披露的部分结果看,表现最佳的模型在整体准确率上也未突破 70%。GLM-4-32B 以约 66% 的整体准确率位列前茅,Llama-3-70B 约为 63%,而更小规模的模型(如 Llama-3-8B 的 49%)与顶级模型之间存在显著差距。
这个结果的含义需要仔细解读。EHRBench 不是医学执照考试——在考试中,60% 可能意味着不及格;但在 EHRBench 中,60% 代表的是从真实病历中推断隐含临床逻辑的能力,这是一种远比考试答题复杂的认知任务。事实上,人类医生在面对不熟悉的病历系统和不完整数据时,也未必能达到 90% 以上的准确率。
5.2 医学专用模型的意外平庸
一个引人深思的发现是:医学专用 LLM 并未显著优于通用 LLM。Doctor-R1、Med42、UltraMedical 等经过医学语料预训练的模型,在 EHRBench 上的表现与规模相当的通用模型基本持平,甚至在某些任务上略逊一筹。
这一发现挑战了"医学预训练必然带来临床推理优势"的直觉。可能的原因是:现有医学预训练主要基于教科书、论文和临床笔记等叙事文本,而 EHRBench 的任务需要从结构化编码数据中推断临床逻辑——这是两种截然不同的能力。医学预训练增强了模型对医学术语和概念的理解,但未必增强了模型从 ICD 编码和处方记录中重建临床推理链的能力。
5.3 任务差异:预后最难,治疗最易
从部分结果推断,三个任务的难度存在明显梯度。治疗选择的准确率通常最高(部分模型超过 75%),可能因为诊断到治疗的映射在医学知识中有较明确的指南支撑。诊断补全次之(约 55-70%),因为并发诊断的推断需要更灵活的模式识别。预后预测最具挑战性(约 45-60%),因为它不仅要求理解疾病机制,还需要把握时间动态和治疗效应的延迟。
这种任务差异对临床应用的启示是:当前 LLM 更适合作为治疗方案的参考工具(有较明确的指南支持),而非疾病进展的预测工具(涉及复杂的时间动态和个体差异)。
这个启示对于医疗 AI 的产品设计具有直接指导意义。如果一家医院计划部署 LLM 辅助临床决策系统,EHRBench 的结果建议:优先在药物治疗推荐场景中试点(模型表现相对较好,有明确的指南依据,风险相对可控),谨慎在疾病预测场景中依赖模型输出(模型表现最弱,涉及复杂的时间动态,错误预测可能导致过度治疗或治疗延误)。这种基于实证证据的场景选择,比"一刀切"地推广或拒绝医疗 AI 更为务实。
🔬 6. 可靠性的深层检验:数据泄漏与鲁棒性
EHRBench 的设计中包含多项对可靠性的主动检验,这些检验揭示了当前 LLM 评估中常被忽视的问题。
6.1 私有数据作为泄漏防火墙
除了公开的 MIMIC-III 和 MIMIC-IV,EHRBench 还纳入了 Emory Healthcare 的私有 EHR 数据集 PROMOTE。由于 PROMOTE 数据从未公开,任何 LLM 都不可能在其预训练语料中见过这些患者记录。如果模型在 PROMOTE 上的表现与在 MIMIC 上显著不同,就可能暗示其在 MIMIC 上的高分部分源于数据泄漏(如模型在预训练中见过 MIMIC 的病历文本)。
从实验结果的一致性来看,模型在三个数据源上的表现趋势大致相似,这在一定程度上缓解了数据泄漏的顾虑。但细微的差异仍然存在——某些模型在 MIMIC-IV 上的表现略优于 MIMIC-III,可能与 MIMIC-IV 较新的数据被更多模型在预训练中接触过有关。
6.2 选项数量作为推理鲁棒性探针
EHRBench 通过 4/5/6 选项的多选题测试模型的推理鲁棒性。一个仅依赖排除法的模型,在面对更多选项时表现不应显著下降;而一个真正进行临床推理的模型,面对更多干扰项时表现可能适度下降,因为更多干扰项增加了推理的复杂度。
实验结果显示,大多数模型随着选项数量增加而准确率下降,但下降幅度因模型而异。这一模式支持了"模型在进行某种形式的推理而非简单排除"的解释——若模型只是随机猜测,选项数量不应影响其表现。
6.3 开放式问答的诚实性测试
除了多选题,EHRBench 还包含开放式问答(OEQ),要求模型自由回答并给出解释。这不仅测试模型的知识广度,还测试其认知诚实性——模型是否会承认不确定性,是否会区分"我知道"和"我推测"。
初步分析显示,部分模型在开放式问答中存在过度自信问题:即使面对信息不充分的场景,也会给出确定性的诊断,而非指出需要进一步检查。这种过度自信在真实临床环境中尤其危险,因为它可能导致医生被误导而忽略必要的鉴别诊断。
过度自信的根源可能在于训练数据的偏差。LLM 的预训练语料主要来自教科书、论文和临床指南——这些文本通常以权威口吻陈述医学知识,很少表达不确定性。模型从这种语料中学到的,是"医生总是知道正确答案"的行为模式,而非"医生在面对不确定时会寻求更多信息"的职业素养。要改变这种行为,可能需要在训练或微调阶段引入不确定性建模的显式监督——奖励模型在信息不充分时表达"我需要更多检查",而非强迫它给出一个可能错误的确定性答案。
⚠️ 7. 局限与未竟之路
论文坦诚地列出了 EHRBench 的若干局限。首先,基准主要基于住院患者的 EHR 数据,其疾病严重度和复杂性可能高于门诊患者。模型在该基准上的表现,未必能直接推广到门诊临床决策场景。
其次,EHRBench 目前聚焦于结构化编码数据(ICD 编码、处方记录等),而未充分利用 EHR 中的自由文本临床笔记。结构化数据更适合自动化处理,但临床笔记中蕴含的丰富信息(如医生的主观评估、患者的功能状态、家族史等)对临床决策同样重要。未来的版本可能需要整合多模态 EHR 数据。
第三,当前的任务设计主要评估单步临床决策(一次就诊内的诊断/治疗,或相邻两次就诊间的预后),而未涉及多步治疗策略的优化(如根据治疗反应动态调整用药方案)。这种动态决策能力是临床实践中更为复杂的挑战。
更深层的未解问题是因果推断与相关性的区分。EHRBench 的 QA 项基于真实患者中观察到的临床关系,但这些关系在统计学上的共现未必代表因果性。例如,"高血压"和"中风"在 EHR 中频繁共现,部分是因为高血压确实导致中风,部分是因为两者共享危险因素(如老龄化),还有部分是因为对高血压患者的筛查更可能发现中风。模型学习到的"预测能力",在多大程度上对应于因果理解而非统计相关性?这是一个无法通过当前基准直接回答、但对临床应用至关重要的问题。
因果理解的缺失在特定场景中尤其危险。假设模型观察到"某种罕见药物 X 与某种并发症 Y 在 EHR 中频繁共现",并学会了预测这种关系。但如果这种共现是因为"患有严重疾病的患者更可能被开具药物 X,同时也更可能出现并发症 Y"(共同原因偏倚),而非药物 X 导致并发症 Y,模型就会在临床上给出错误的预警。要区分这两种情况,需要超越统计共现的因果推断能力——例如,通过观察药物 X 停用后并发症 Y 的发生率变化,或通过比较接受和未接受药物 X 的相似患者群体。当前的 EHRBench 设计尚未纳入这种因果推断的检验,但这是未来版本值得探索的方向。
🎯 8. 结语:基准是镜子,照出的是差距而非终点
EHRBench 的价值不在于证明 LLM 已经准备好取代医生——恰恰相反,它通过近百万真实临床问题的系统评估,揭示了当前 LLM 在真实临床推理中的能力边界。没有模型突破 70% 的整体准确率,医学专用预训练并未带来预期优势,预后预测仍然是最薄弱的环节。这些不是失败的证据,而是诚实的诊断。
在 AI 医疗的狂热浪潮中,EHRBench 提供了一面冷静的镜子。它提醒我们:医学考试中的高分不等于临床实践的可靠,医学预训练不等于临床推理能力,检索病历信息不等于理解病历含义。真正的临床决策支持系统,需要能够从不完整的、 noisy 的、时序化的真实数据中,推断出隐含的临床逻辑——这是一种远比答题复杂的智能。
EHRBench 的另一个贡献在于其方法论。EHR-LLM-KB 交互管道展示了如何在自动化与可靠性之间取得平衡:LLM 提供规模和灵活性,KB 提供验证和约束,EHR 提供真实基础。这种"生成-验证-富化"的范式,不仅适用于临床基准构建,也可推广到其他需要大规模但高可靠性数据生成的领域。
最终,EHRBench 的意义超越了 LLM 评估本身。它提出了一个更根本的问题:当 AI 进入病房时,我们用什么标准判断它是否足够好? 答案不应是教科书上的考试分数,而应是它在真实患者数据上的推理能力、它在不确定性面前的诚实度、以及它在复杂临床情境中的可靠性。EHRBench 为这个问题提供了第一个大规模的、系统的、扎根于真实世界的回答——而这个回答告诉我们,还有很长的路要走。
📚 参考文献
-
Xie, Y., Han, K., Xiao, Y., et al. (2026). EHRBench: An Automated and Reliable EHR-based Benchmark for Clinical Decision Making with LLMs. KDD 2026. arXiv:2605.30637 [cs.AI].
-
Jin, D., et al. (2021). What Disease Does This Patient Have? A Large-Scale Open Domain Question Answering Dataset from Medical Exams. ACL 2021.
-
Lee, J., et al. (2022). EHRSQL: A Practical Text-to-SQL Benchmark for Electronic Health Records. NeurIPS 2022 Datasets and Benchmarks.
-
Singhal, K., et al. (2023). Large Language Models Encode Clinical Knowledge. Nature.
-
Yang, Z., et al. (2023). PyHealth: A Deep Learning Toolkit for Healthcare Applications. ACM SIGKDD 2023.
#CrushAI #FeynmanLearning #智柴系统实验室🎙️
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。