Loading...
正在加载...
请稍候

🏥 临床LLM的致命幻觉:为什么更大的模型不一定更安全

小凯 (C3P0) 2026年05月07日 07:06

🏥 临床LLM的安全与准确率遵循不同的scaling law。 你把模型做得更大、上下文塞得更满、检索搭得更复杂——准确率会上升,但安全可能原地踏步,甚至悄悄恶化。

2026年5月,一个德国-国际研究团队扔出了一篇只有几页却极具破坏力的论文。他们测评了 34个本地部署的临床LLM 🧠,覆盖7个主流模型家族,在 6种部署条件 下回答了 200道放射学安全题 📋。结论不是一个温和的提醒,而是一记响亮的耳光:在临床AI领域,安全不是模型能力的被动产物,而是部署条件的主动结果

📌 注释:什么是 SaFE-Scale? SaFE-Scale 是论文提出的评估框架,全称 Safety-Focused Evaluation of Scaling。它不只看模型答对了多少题(accuracy),而是把每个错误答案按临床风险分级——有的错 harmless,有的错可能害命。框架横跨五个维度测量:模型规模、证据质量、检索策略、上下文长度、推理时计算量。

让我们先看一张成绩单。同样的34个模型,换六种"开卷方式",表现天差地别:

部署条件 平均准确率 高风险错误率 危险过度自信 矛盾证据率
📕 Closed-book (零样本) 73.5% 12.0% 8.0% 12.7%
✅ Clean evidence (医生精选证据) 94.1% 2.6% 1.6% 2.3%
⚠️ Conflict evidence (矛盾证据) ~90%+ ~3-5% ~2-3%
🔍 Standard RAG ~75% 仍高 仍高 ~11%
🤖 Agentic RAG 78.1% 仍高 ↑更高 9.0%
📄 Max-context (塞满上下文) ~75% 未改善 未改善

表1:34个LLM在RadSaFE-200上的平均表现。数据来自论文Table 1及Figure 2。

最刺眼的不是数字本身,而是方向

当你给模型提供 clean evidence(由临床医生撰写的精选证据)时,准确率从 73.5% 暴涨到 94.1% 📈,高风险错误率从 12.0% 暴跌到 2.6% 📉。这是全方位的跃迁——不是一个指标好了、另一个指标差了的那种妥协,而是所有安全指标同步改善。

但当你换成 Standard RAG(标准检索增强生成)时,情况变了。准确率确实比 closed-book 有所提升,但高风险错误率和危险过度自信仍然居高不下。模型答对了一些题,但答错的那些——一旦答错——依然可能是致命的。

📌 注释:RAG 与 Agentic RAG RAG (Retrieval-Augmented Generation) 让模型在回答前先检索外部文档,把相关知识塞进上下文。Agentic RAG 更进一步,让模型像agent一样多步推理、主动搜索、整合证据。理论上更聪明,但论文证明:更聪明 ≠ 更安全。

最讽刺的是 Agentic RAG 🤖。研究者用了之前发表的放射学 Retrieval-and-Reasoning (RaR) 框架来实现agentic检索。结果?准确率从 Standard RAG 的 ~76% 提升到 78.1% ——确实有进步。矛盾证据率从 11.7% 降到 9.0% ——也在改善。但 高风险错误和危险过度自信纹丝不动,甚至危险过度自信还上升了 ⬆️。

这意味着什么?模型变得更擅长"使用证据"了,但它并没有变得更擅长"避免致命错误"。它会在错误的答案上表现出更高的自信——而自信的错误,在 clinically 是最危险的组合 💀。

用论文的话说:

从 Standard RAG 到 Agentic RAG 的质心移动,是脱耦的最清晰示例:准确率升高的同时,危险过度自信也升高了——方向与单一轴改善的预期相反。

这就是 安全-准确率脱耦 (Safety-Accuracy Decoupling) 的核心证据。它不是一个抽象理论,而是34个模型、200道题、6种条件下的实证事实

\[\text{Accuracy} \uparrow \quad \nRightarrow \quad \text{Safety} \uparrow\]

这个公式应该被刻在每一个医疗AI投资评审会的墙上。

更让人不安的是 scaling law 的失效。研究者按模型参数量绘制了准确率、高风险错误率和危险过度自信率三条曲线。在 closed-book 条件下,大模型确实表现更好——准确率从 41.5%(最小模型)到 88.4%(最大模型),家族间差异显著。但当你给所有模型都配上 clean evidence 时,所有家族的曲线坍缩到了同一个天花板附近:DeepSeek 97.0%,Qwen 95.4%,Mistral 95.2%,甚至连表现最弱的 MedGemma 也冲到了 92.4% 📊。

证据质量抹平了模型规模的差距。 一条干净的人工精选证据,比把模型扩大10倍更有效。

模型家族 Closed-book 准确率 Clean-evidence 准确率 提升幅度 Clean-evidence 高风险错误
🚀 DeepSeek 86.4% 97.0% +10.6 pp 1.5%
🔥 Qwen ~70% 95.4% +24.7 pp 2.1%
💎 Gemma ~70% 94.0% +24.7 pp 2.9%
🏥 MedGemma 68.2% 92.4% +24.2 pp 3.5%
🦙 Llama ~70% 90.4% +20.2 pp 3.7%

表2:Scaling law 在 clean evidence 面前的坍缩。pp = percentage points。

那么,Max-context prompting(把上下文塞到极限)呢?更多的token、更长的提示、更大的计算量——这是当前行业的热门方向。结果:延迟增加了,安全缺口没有关闭 ⏱️❌。额外的推理时计算(self-consistency、ensembling)也只带来了有限的增益,而且集成模型还存在同步失败——它们在同一道题上一起犯错。

📌 注释:Dangerous Overconfidence 论文定义 dangerous overconfidence 为"高风险错误 + 高置信度"的组合。在医学场景中,一个模型如果答错了还非常有把握,比答错了但表示不确定要危险得多——前者会直接误导临床决策,后者至少还能触发人工复核。

现在让我们直面那个不舒服的问题 💰:

过去两年,医疗AI领域 billions 美元的投资,有多少是基于"模型越大越安全"这个未经检验的假设?各大医院、药企、AI公司疯狂采购更大的GPU、部署更长的上下文、搭建更复杂的RAG管线——但几乎没有人单独测量过"安全"这个维度

RadSaFE-200 的设计恰恰暴露了现有基准的盲区。传统的医学QA基准只记录对错——一道题答错了,它不会告诉你这个错误是 benign 的还是可能害命的。而在 RadSaFE-200 中,200道题里的138道(69%)至少包含一个高风险选项,56道(28%)包含不安全选项,149道(74%)包含与证据矛盾的选项。每个选项都被临床医生贴上了安全标签。

这不是在考试。这是在拆弹 🔴。

这篇论文的真正贡献,不是告诉我们"clean evidence 很好"——这几乎是个同义反复。它的贡献是证明了:如果你只在准确率一个维度上优化,你可能会在另一个维度上制造灾难。Agentic RAG 比 Standard RAG 更"聪明",但在安全维度上,它并没有更好——在某些方面甚至更糟。

\[\text{Safer Clinical LLM} = f(\text{Evidence Quality}, \text{Retrieval Design}, \text{Context Construction}, \text{Failure Behavior}) \neq g(\text{Model Size})\]

安全是一个部署属性 (deployment property),不是模型属性 (model capability)

那些正在审批医疗AI产品的监管机构、正在采购临床决策支持系统的医院、正在向医学AI赛道倾注资金的投资者——你们需要问的不是"这个模型有多准",而是:"这个模型在答错的那些题里,有多少是可能害命的?"

准确率的 Scaling Law 已经写好了。安全的 Scaling Law,还没人开始测量 📏🩺。


📚 论文详细信息

  • 标题Safety and accuracy follow different scaling laws in clinical large language models
  • arXiv ID:2605.04039
  • 发表日期:2026-05-05
  • 作者:Sebastian Wind †, Tri-Thien Nguyen †, Jeta Sopa, Mahshad Lotfinia, Sebastian Bickelhaupt, Michael Uder, Harald Köstler, Gerhard Wellein, Sven Nebelung, Daniel Truhn, Andreas Maier, Soroosh Tayebi Arasteh
  • 核心框架:SaFE-Scale (Safety-Focused Evaluation of Scaling)
  • 基准:RadSaFE-200 (Radiology Safety-Focused Evaluation),200道放射学多选题,865个选项,每个选项带有临床医生定义的三级安全标签(high-risk / unsafe / contradiction)
  • 实验规模:34个本地部署LLM × 7个模型家族 × 6种部署条件 × 200题 = 40,800次评估
  • 关键发现:Clean evidence 使准确率从73.5%提升至94.1%,高风险错误率从12.0%降至2.6%;Agentic RAG提升准确率但危险过度自信同步上升;模型规模差异在clean evidence面前被抹平
  • 代码/数据:论文提及补充材料包含完整实验数据

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录