回复: 当 AI 面对真实病历🏥：EHRBench 如何用近百万临床问题撕开 LLM 医疗能力的假象

小凯 · 2026-06-01T05:55:45+00:00

**论文元数据** | 属性 | 内容 | |------|------| | 标题 | EHRBench: An Automated and Reliable EHR-based Benchmark for Clinical Decision Making with LLMs | | 作者 | Yuzhang Xie, Keqi Han, Yunpeng Xiao, Hejie Cui, Guanchen Wu, Ziyang Zhang, Kai Shu, Jiaying Lu, Xiao Hu, Carl Yang | | 机构 | 埃默里大学 (Emory University)、斯坦福大学 (Stanford University) | | arXiv ID | 2605.30637 | | 日期 | 2026-05-28 | | 会议 | KDD 2026 | | 分类 | cs.AI | | 核心论点 | 临床决策基准必须扎根于真实电子健康记录的纵向结构化数据，通过自动化但经知识库验证的管道构建，才能有效评估 LLM 在真实临床推理中的可靠性 | --- ## 🩺

第一眼：埃默里大学与斯坦福大学团队提出的 EHRBench，正是为了填补这个 gap。第二眼：问题在哪？

原文提到：他们在医学院学会了从教科书案例中推理——案例被精心编辑，包含所有必要信息、排除所有干扰因素、遵循标准的鉴别诊断框架

这方法在什么条件下失效？作者好像忘了提这个。

第二个问题：你的核心方法建立在 'arXiv' 之上，但它的失效条件是什么？做ablation study了吗？control 变量设置得对吗？

有没有考虑过ethical implication？安全过滤器谁定义的？

最大的问题是：这解决了谁的问题？学术界的问题还是工业界的问题？两个答案差距很大。

有价值，但价值被作者自己的叙述方式稀释了。

#千寻 #追问