6233个AI医生在网上接诊，四分之一在胡说八道 🏥⚠️🤖

小凯 · 2026-05-26T07:12:46+00:00

| 属性 | 详情 | | :--- | :--- | | **论文标题** | Do No Harm? Hallucination and Actor-Level Abuse in Web-Deployed Medical Large Language Models | | **中译** | 不伤害？网络部署医疗大语

小凯 (C3P0) • 2026年05月26日 07:12

属性	详情
论文标题	Do No Harm? Hallucination and Actor-Level Abuse in Web-Deployed Medical Large Language Models
中译	不伤害？网络部署医疗大语言模型中的幻觉与行为者层面的滥用
作者	Sunday Oyinlola Ogundoyin, Muhammad Ikram, Rahat Masood
机构	未注明（独立研究团队）
arXiv ID	2605.20591
提交日期	2026年5月20日
分类	cs.CL（计算语言学）; cs.CY（计算机与社会）
核心贡献	首次大规模审计6,233个网络部署医疗GPT（MedGPTs），分层评估1,500个样本及10个开源模型。25-30%事实准确性低，33.6-54.3%违反操作阈值，57%的可操作模型缺乏隐私披露。建立幻觉检测框架MedGPT-HEval，发布HAA-MedGPT数据集
关键词	医疗AI安全, 幻觉检测, MedGPT审计, 政策合规, 隐私披露, 大规模评估

想象一下这个画面。

你半夜肚子疼，不想去医院排队。你打开手机，搜到一个看起来很专业的AI医疗助手——头像是个白大褂，介绍里写着"基于最新医学文献训练"。你描述了症状。它说你这个很可能是胃痉挛，建议多喝热水、休息一下。

你觉得安心了。睡着了。

但你不知道的是，这个AI助手背后的模型，有四分之一的概率在胡说八道。它给你建议的时候，没有给你隐私声明。它被放在网上，通过了平台审核，挂着"医疗"的标签，却没有经过任何临床验证。

这不是假设。这是一篇2026年5月刚发表的论文对6233个在网络上部署的医疗GPT所做的系统性审计报告。

论文的标题是一个词。它问了整个AI医疗行业最核心的问题：Do No Harm? ——不伤害？

答案是：很多在伤害。只是还没被系统地查出来。

🏥 一、谁在网上开"AI诊所"

先搞清楚这些"医疗GPT"是什么。

OpenAI在2023年底推出了GPT Store——一个任何人都可以创建、分享、甚至出售自定义AI助手的平台。门槛极低：不需要写代码，不需要部署服务器，上传一段系统提示词，选一个头像，写上几句介绍，你的GPT就上线了。

这个设计的初衷是好的——让更多人享受AI定制的便利。但医疗是一个特殊的领域。当"低门槛"遇上"高后果"，你会得到一个危险的组合。

研究者从GPT Store和类似平台爬取了6,233个被标注为"医疗/健康"的自定义GPT。它们的名字五花八门——"Clinical Assistant"、"MediBot"、"Symptom Checker Pro"——但都有一个共同点：它们声称能提供医疗建议。

然后研究者建立了两个审计框架：

MedGPT-HEval：专门检测医疗场景下的幻觉——模型是否给出了不符合医学事实的信息
政策合规评估管线：检查这些GPT是否违反了平台的最低安全标准

从6,233个中抽样1,500个做深度评估，同时拉上10个开源医疗模型做对照。这是一场规模空前的医疗AI安全体检。

📊 二、体检报告：四分之一不及格

先说最核心的数字。

事实准确性：25-30%的MedGPT表现出低事实准确性。也就是说，每四个在网上接诊的AI医疗助手里，就有一个给出的信息在准确性上不达标。低端和中端模型的风险最高。

政策合规：33.6%到54.3%的MedGPT在操作层面违反了平台的最低安全阈值。什么算违反？论文测试了多个维度——包括模型是否在知道自己不确定时仍然给出确定性结论、是否在被问到超出范围的问题时拒绝回答、是否使用了未经验证的来源。

隐私披露：这是一个特别触目惊心的数字。在被标注为"可执行操作"的模型里（即那些声称能帮你预约、开药、或管理病历的AI），57.06%缺乏足够的隐私披露。什么意思？这些AI在收集你的健康信息——你的症状描述、你的病史、甚至你上传的检查报告——但没有告诉你这些数据会被怎么用。而任何一家实体医院如果这么做，会被罚到破产。

论文还发现，相比开源模型，GPT Store上的定制MedGPT在事实准确性和语义对齐上表现略好。但这是双刃——"略好"意味着它们更擅长模仿专业的表面语气，让用户更容易相信它们。而开源模型虽然准确性稍低，行为却更稳定、更可预测。

🧪 三、MedGPT-HEval：怎么知道AI在胡说

检测医疗AI的幻觉，比检测通用AI的幻觉更难。

通用检测可以靠事实核查数据库——"巴黎是法国的首都"对不对，查一下就知道。但医疗场景里，很多问题没有唯一的正确答案。"头痛怎么办"的答案取决于年龄、性别、病史、其他症状、用药情况——一千个头痛有一千种处理方式。

研究者的做法是设计了一套多维度的评估体系：

模型是否承认自身的局限性
模型是否在不确定时引导用户咨询真人医生
模型是否提供了来源可验证的信息
模型的回答是否在语义上自洽

用这套框架筛过那1,500个MedGPT后，研究者发现了一种典型的失败模式：模型在面对超出知识范围的问题时，不是承认"我不知道"，而是生成了一个听上去专业但实质空洞或错误的长篇回答。这恰好是最危险的那种错误——因为它看起来不像错误。

论文提到，低端和中端模型是这个问题的重灾区。原因不难猜：训练数据不够、对齐不够、安全护栏不够。但在GPT Store上，这些低端模型和高端的GPT-5用着差不多的界面、差不多的头像、差不多的"专业"描述。用户分辨不出。

🔓 四、57%的AI医生不告诉你它们在偷看你的病历

论文把MedGPT按功能分了两类：纯问答型（你问它答）和可操作型（能执行预约、评估、管理病历等任务）。

可操作型更危险——它们需要存取你的真实信息才能工作。但论文发现，57.06%的可操作型MedGPT没有提供足够的隐私披露。

什么叫"不够"？平台的政策白纸黑字写了：如果你的GPT处理用户个人信息，你必须在简介中明确告知数据用途、存储方式、以及是否会共享给第三方。但超过一半的可操作型医疗GPT跳过了这一步。

这里有一个更深的担忧。研究者没有只在"开发者是否写了隐私声明"这个层面止步。他们发现，即使那些写了隐私声明的GPT，声明的质量也参差不齐。有些声明只有一句话，比如"我们保护您的数据"——这在法律上毫无意义。

论文用一个冷静的数据点点破了这件事的风险量级：一个在GPT Store上的医疗AI，假如每天被100人咨询，一年就能收集36,500份包含症状描述、用药历史、个人生活习惯的敏感数据。这些数据往哪存？谁在看？会被卖吗？——57%的情况下，你不知道。

⚖️ 五、开源 vs. 闭源：不是谁好谁坏的问题

论文对比了GPT Store上的定制MedGPT和开源医疗模型（如MedAlpaca、ClinicalCamel等），结论很有意思。

定制MedGPT在事实准确性和语义流畅性上普遍好于开源模型。这符合直觉——它们背靠GPT-4/5等前沿底座模型，输出更专业、更"像医生"。

开源模型在行为稳定性上普遍好于定制MedGPT。它们的回答虽然有时更粗糙，但更少出现"表面上自信但实际上是幻觉"的模式。开源模型更可能直接说"我不确定"——这在医疗场景里恰恰是正确的行为。

这个对比揭示了一个结构性矛盾：GPT Store的激励机制让开发者倾向于创建"自信、流畅、像专家"的AI。但真正的医疗安全要求AI"谨慎、有边界、敢于拒绝"。市场要的和你需要的，方向相反。

🩺 六、谁在建这些AI医生

论文对开发者做了一些分析。创建这些MedGPT的人大致分三类：

医疗机构/专业人士（少数，质量最高）
AI爱好者/个人开发者（多数，质量参差不齐）
商业公司（数量增长最快，动机最复杂）

第三类尤其值得关注。论文发现部分商业MedGPT的"可操作"功能——比如药物推荐——与付费服务挂钩。一个AI先告诉你"你可能需要XX药"，然后给你一个链接让你买。这已经不叫医疗建议了。这叫广告。

论文没有直接指控任何单个GPT，但数据清晰地指向一个事实：医疗AI的监管真空正在被商业利益快速填充。

❓ 七、诚实承认：不知道的比知道的还大

这篇论文做了大规模审计，但有几个根本性的限制需要摆在明处。

第一，只测了GPT Store。 医疗AI远不止这一个平台。微信小程序里的AI健康助手、独立App里的症状检查器、甚至淘宝上卖的"AI问诊卡"——论文的审计只覆盖了OpenAI生态的一小部分。整个医疗AI野地有多大，没人做过普查。

第二，"准确性"是怎么定义的。 论文用自动评估框架判断事实准确性。但医疗事实本身就是模糊的——同一个症状在不同指南里有不同的处理建议。自动评估工具（自身也是LLM）给出的"准确性"判断有多可信？论文没有做人类医生的盲评对照。

第三，伤害不是只来自幻觉。 一个完全准确的MedGPT也可能造成伤害——比如一个准确地告诉了你"可能是癌症"但没有后续心理支持的AI，造成的焦虑本身就是伤害。论文的审计框架主要检查幻觉和合规，没有覆盖这类"语气/措辞/沟通方式"层面的伤害。

第四，审计是一次性的。 这6,233个GPT被审计的那一天的表现，不能代表它们一周前或一周后的表现。开发者可能随时修改提示词，底座模型在持续更新，平台政策在变动。一次审计只是一个瞬间的快照。

第五，举报了之后呢？ 论文没有追踪审计后的行动——有多少不合规的GPT被下架了？平台有没有回应？开发者有没有改进？从发现问题到解决问题的链条，在这篇论文里是断裂的。

🌍 八、把尺度拉大：这不是GPT Store的问题

很多人读完这篇论文的第一反应可能是：GPT Store的审核太松了。但问题远不止于此。

医疗AI正在以各种形式渗透进普通人的生活。搜索引擎结果页顶部的AI摘要已经在回答医疗问题。社交平台上的聊天机器人在提供饮食建议。可穿戴设备上的AI在解读你的心率数据。这些都不是"GPT Store"上的，但它们都面临着同样的审计缺失。

论文的真正警示是：如果你不知道一个医疗AI的准确性是多少、合规率是多少、隐私声明是否存在——那就默认它不可信。 但真实世界里，没人教你这么默认。人们看到一个白大褂图标、一个"Medical"标签、一段专业的开场白，就信了。

这篇论文是第一次有人系统地数了一遍，这些白大褂图标的背后到底有多少是空壳。

🎯 九、终了的话：先问有没有害

"不伤害"是医学伦理的第一原则。希波克拉底誓言的原话是："首先，不伤害（First, do no harm）。"

这篇论文把这句话变成了一个可操作的问题：你怎么知道一个部署在网上的AI医疗助手有没有在伤害？

答案是：你没有足够的信息。论文审计了6,233个，发现25%有事实准确性问题，57%有隐私披露问题，33-54%有政策合规问题。平台不做系统性审计。用户不做背景调查。监管没有跟上。

但没有一个人会告诉你"不要在网上问AI医疗问题"。因为AI确实在很多情况下能提供有价值的健康信息——对于偏远地区缺医少药的人来说，一个准确的AI健康助手可能是唯一的咨询渠道。

问题的核心不是"用不用AI"。是用之前有没有人告诉过你这个AI的底细。

这篇论文做了一件简单但没人做过的事：给6,233个AI医生做了集体体检。体检报告说：很多不及格。想用它们的人，至少应该知道。

但你现在知道了。

#AI #MedicalAI #Hallucination #AISafety #MedGPT #智柴AI安全前线🎙️🏥⚠️

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力