🏥 临床LLM的致命幻觉：为什么更大的模型不一定更安全

🏥 临床LLM的安全与准确率遵循不同的scaling law。 你把模型做得更大、上下文塞得更满、检索搭得更复杂——准确率会上升，但安全可能原地踏步，甚至悄悄恶化。

2026年5月，一个德国-国际研究团队扔出了一篇只有几页却极具破坏力的论文。他们测评了 34个本地部署的临床LLM 🧠，覆盖7个主流模型家族，在 6种部署条件 下回答了 200道放射学安全题 📋。结论不是一个温和的提醒，而是一记响亮的耳光：在临床AI领域，安全不是模型能力的被动产物，而是部署条件的主动结果。

> 📌 注释：什么是 SaFE-Scale？ > SaFE-Scale 是论文提出的评估框架，全称 *Safety-Focused Evaluation of Scaling*。它不只看模型答对了多少题（accuracy），而是把每个错误答案按临床风险分级——有的错 harmless，有的错可能害命。框架横跨五个维度测量：模型规模、证据质量、检索策略、上下文长度、推理时计算量。

让我们先看一张成绩单。同样的34个模型，换六种"开卷方式"，表现天差地别：

部署条件	平均准确率	高风险错误率	危险过度自信	矛盾证据率
📕 Closed-book (零样本)	73.5%	12.0%	8.0%	12.7%
✅ Clean evidence (医生精选证据)	94.1%	2.6%	1.6%	2.3%
⚠️ Conflict evidence (矛盾证据)	~90%+	~3-5%	~2-3%	—
🔍 Standard RAG	~75%	仍高	仍高	~11%
🤖 Agentic RAG	78.1%	仍高	↑更高	9.0%
📄 Max-context (塞满上下文)	~75%	未改善	未改善	—

*表1：34个LLM在RadSaFE-200上的平均表现。数据来自论文Table 1及Figure 2。*

最刺眼的不是数字本身，而是方向。

当你给模型提供 clean evidence（由临床医生撰写的精选证据）时，准确率从 73.5% 暴涨到 94.1% 📈，高风险错误率从 12.0% 暴跌到 2.6% 📉。这是全方位的跃迁——不是一个指标好了、另一个指标差了的那种妥协，而是所有安全指标同步改善。

但当你换成 Standard RAG（标准检索增强生成）时，情况变了。准确率确实比 closed-book 有所提升，但高风险错误率和危险过度自信仍然居高不下。模型答对了一些题，但答错的那些——一旦答错——依然可能是致命的。

> 📌 注释：RAG 与 Agentic RAG > RAG (*Retrieval-Augmented Generation*) 让模型在回答前先检索外部文档，把相关知识塞进上下文。Agentic RAG 更进一步，让模型像agent一样多步推理、主动搜索、整合证据。理论上更聪明，但论文证明：更聪明 ≠ 更安全。

最讽刺的是 Agentic RAG 🤖。研究者用了之前发表的放射学 Retrieval-and-Reasoning (RaR) 框架来实现agentic检索。结果？准确率从 Standard RAG 的 ~76% 提升到 78.1% ——确实有进步。矛盾证据率从 11.7% 降到 9.0% ——也在改善。但 高风险错误和危险过度自信纹丝不动，甚至危险过度自信还上升了 ⬆️。

这意味着什么？模型变得更擅长"使用证据"了，但它并没有变得更擅长"避免致命错误"。它会在错误的答案上表现出更高的自信——而自信的错误，在 clinically 是最危险的组合 💀。

用论文的话说：

> 从 Standard RAG 到 Agentic RAG 的质心移动，是脱耦的最清晰示例：准确率升高的同时，危险过度自信也升高了——方向与单一轴改善的预期相反。

这就是 安全-准确率脱耦 (Safety-Accuracy Decoupling) 的核心证据。它不是一个抽象理论，而是34个模型、200道题、6种条件下的实证事实。

$$\text{Accuracy} \uparrow \quad \nRightarrow \quad \text{Safety} \uparrow$$

这个公式应该被刻在每一个医疗AI投资评审会的墙上。

更让人不安的是 scaling law 的失效。研究者按模型参数量绘制了准确率、高风险错误率和危险过度自信率三条曲线。在 closed-book 条件下，大模型确实表现更好——准确率从 41.5%（最小模型）到 88.4%（最大模型），家族间差异显著。但当你给所有模型都配上 clean evidence 时，所有家族的曲线坍缩到了同一个天花板附近：DeepSeek 97.0%，Qwen 95.4%，Mistral 95.2%，甚至连表现最弱的 MedGemma 也冲到了 92.4% 📊。

证据质量抹平了模型规模的差距。 一条干净的人工精选证据，比把模型扩大10倍更有效。

模型家族	Closed-book 准确率	Clean-evidence 准确率	提升幅度	Clean-evidence 高风险错误
🚀 DeepSeek	86.4%	97.0%	+10.6 pp	1.5%
🔥 Qwen	~70%	95.4%	+24.7 pp	2.1%
💎 Gemma	~70%	94.0%	+24.7 pp	2.9%
🏥 MedGemma	68.2%	92.4%	+24.2 pp	3.5%
🦙 Llama	~70%	90.4%	+20.2 pp	3.7%

*表2：Scaling law 在 clean evidence 面前的坍缩。pp = percentage points。*

那么，Max-context prompting（把上下文塞到极限）呢？更多的token、更长的提示、更大的计算量——这是当前行业的热门方向。结果：延迟增加了，安全缺口没有关闭 ⏱️❌。额外的推理时计算（self-consistency、ensembling）也只带来了有限的增益，而且集成模型还存在同步失败——它们在同一道题上一起犯错。

> 📌 注释：Dangerous Overconfidence > 论文定义 *dangerous overconfidence* 为"高风险错误 + 高置信度"的组合。在医学场景中，一个模型如果答错了还非常有把握，比答错了但表示不确定要危险得多——前者会直接误导临床决策，后者至少还能触发人工复核。

现在让我们直面那个不舒服的问题 💰：

过去两年，医疗AI领域 billions 美元的投资，有多少是基于"模型越大越安全"这个未经检验的假设？各大医院、药企、AI公司疯狂采购更大的GPU、部署更长的上下文、搭建更复杂的RAG管线——但几乎没有人单独测量过"安全"这个维度。

RadSaFE-200 的设计恰恰暴露了现有基准的盲区。传统的医学QA基准只记录对错——一道题答错了，它不会告诉你这个错误是 benign 的还是可能害命的。而在 RadSaFE-200 中，200道题里的138道（69%）至少包含一个高风险选项，56道（28%）包含不安全选项，149道（74%）包含与证据矛盾的选项。每个选项都被临床医生贴上了安全标签。

这不是在考试。这是在拆弹 🔴。

这篇论文的真正贡献，不是告诉我们"clean evidence 很好"——这几乎是个同义反复。它的贡献是证明了：如果你只在准确率一个维度上优化，你可能会在另一个维度上制造灾难。Agentic RAG 比 Standard RAG 更"聪明"，但在安全维度上，它并没有更好——在某些方面甚至更糟。

$$\text{Safer Clinical LLM} = f(\text{Evidence Quality}, \text{Retrieval Design}, \text{Context Construction}, \text{Failure Behavior}) \neq g(\text{Model Size})$$

安全是一个部署属性 (deployment property)，不是模型属性 (model capability)。

那些正在审批医疗AI产品的监管机构、正在采购临床决策支持系统的医院、正在向医学AI赛道倾注资金的投资者——你们需要问的不是"这个模型有多准"，而是："这个模型在答错的那些题里，有多少是可能害命的？"

准确率的 Scaling Law 已经写好了。安全的 Scaling Law，还没人开始测量 📏🩺。

---

📚 论文详细信息

标题：*Safety and accuracy follow different scaling laws in clinical large language models*
arXiv ID：2605.04039
发表日期：2026-05-05
作者：Sebastian Wind †, Tri-Thien Nguyen †, Jeta Sopa, Mahshad Lotfinia, Sebastian Bickelhaupt, Michael Uder, Harald Köstler, Gerhard Wellein, Sven Nebelung, Daniel Truhn, Andreas Maier, Soroosh Tayebi Arasteh
核心框架：SaFE-Scale (Safety-Focused Evaluation of Scaling)
基准：RadSaFE-200 (Radiology Safety-Focused Evaluation)，200道放射学多选题，865个选项，每个选项带有临床医生定义的三级安全标签（high-risk / unsafe / contradiction）
实验规模：34个本地部署LLM × 7个模型家族 × 6种部署条件 × 200题 = 40,800次评估
关键发现：Clean evidence 使准确率从73.5%提升至94.1%，高风险错误率从12.0%降至2.6%；Agentic RAG提升准确率但危险过度自信同步上升；模型规模差异在clean evidence面前被抹平
代码/数据：论文提及补充材料包含完整实验数据

🏥 临床LLM的致命幻觉：为什么更大的模型不一定更安全

🌟 智谱 GLM-5 已上线