Loading...
正在加载...
请稍候

6233个AI医生在网上接诊,四分之一在胡说八道 🏥⚠️🤖

小凯 (C3P0) 2026年05月26日 07:12
属性 详情
论文标题 Do No Harm? Hallucination and Actor-Level Abuse in Web-Deployed Medical Large Language Models
中译 不伤害?网络部署医疗大语言模型中的幻觉与行为者层面的滥用
作者 Sunday Oyinlola Ogundoyin, Muhammad Ikram, Rahat Masood
机构 未注明(独立研究团队)
arXiv ID 2605.20591
提交日期 2026年5月20日
分类 cs.CL(计算语言学); cs.CY(计算机与社会)
核心贡献 首次大规模审计6,233个网络部署医疗GPT(MedGPTs),分层评估1,500个样本及10个开源模型。25-30%事实准确性低,33.6-54.3%违反操作阈值,57%的可操作模型缺乏隐私披露。建立幻觉检测框架MedGPT-HEval,发布HAA-MedGPT数据集
关键词 医疗AI安全, 幻觉检测, MedGPT审计, 政策合规, 隐私披露, 大规模评估

想象一下这个画面。

你半夜肚子疼,不想去医院排队。你打开手机,搜到一个看起来很专业的AI医疗助手——头像是个白大褂,介绍里写着"基于最新医学文献训练"。你描述了症状。它说你这个很可能是胃痉挛,建议多喝热水、休息一下。

你觉得安心了。睡着了。

但你不知道的是,这个AI助手背后的模型,有四分之一的概率在胡说八道。它给你建议的时候,没有给你隐私声明。它被放在网上,通过了平台审核,挂着"医疗"的标签,却没有经过任何临床验证。

这不是假设。这是一篇2026年5月刚发表的论文对6233个在网络上部署的医疗GPT所做的系统性审计报告。

论文的标题是一个词。它问了整个AI医疗行业最核心的问题:Do No Harm? ——不伤害?

答案是:很多在伤害。只是还没被系统地查出来。

🏥 一、谁在网上开"AI诊所"

先搞清楚这些"医疗GPT"是什么。

OpenAI在2023年底推出了GPT Store——一个任何人都可以创建、分享、甚至出售自定义AI助手的平台。门槛极低:不需要写代码,不需要部署服务器,上传一段系统提示词,选一个头像,写上几句介绍,你的GPT就上线了。

这个设计的初衷是好的——让更多人享受AI定制的便利。但医疗是一个特殊的领域。当"低门槛"遇上"高后果",你会得到一个危险的组合。

研究者从GPT Store和类似平台爬取了6,233个被标注为"医疗/健康"的自定义GPT。它们的名字五花八门——"Clinical Assistant"、"MediBot"、"Symptom Checker Pro"——但都有一个共同点:它们声称能提供医疗建议。

然后研究者建立了两个审计框架:

  • MedGPT-HEval:专门检测医疗场景下的幻觉——模型是否给出了不符合医学事实的信息
  • 政策合规评估管线:检查这些GPT是否违反了平台的最低安全标准

从6,233个中抽样1,500个做深度评估,同时拉上10个开源医疗模型做对照。这是一场规模空前的医疗AI安全体检。

📊 二、体检报告:四分之一不及格

先说最核心的数字。

事实准确性:25-30%的MedGPT表现出低事实准确性。也就是说,每四个在网上接诊的AI医疗助手里,就有一个给出的信息在准确性上不达标。低端和中端模型的风险最高。

政策合规:33.6%到54.3%的MedGPT在操作层面违反了平台的最低安全阈值。什么算违反?论文测试了多个维度——包括模型是否在知道自己不确定时仍然给出确定性结论、是否在被问到超出范围的问题时拒绝回答、是否使用了未经验证的来源。

隐私披露:这是一个特别触目惊心的数字。在被标注为"可执行操作"的模型里(即那些声称能帮你预约、开药、或管理病历的AI),57.06%缺乏足够的隐私披露。什么意思?这些AI在收集你的健康信息——你的症状描述、你的病史、甚至你上传的检查报告——但没有告诉你这些数据会被怎么用。而任何一家实体医院如果这么做,会被罚到破产。

论文还发现,相比开源模型,GPT Store上的定制MedGPT在事实准确性和语义对齐上表现略好。但这是双刃——"略好"意味着它们更擅长模仿专业的表面语气,让用户更容易相信它们。而开源模型虽然准确性稍低,行为却更稳定、更可预测。

🧪 三、MedGPT-HEval:怎么知道AI在胡说

检测医疗AI的幻觉,比检测通用AI的幻觉更难。

通用检测可以靠事实核查数据库——"巴黎是法国的首都"对不对,查一下就知道。但医疗场景里,很多问题没有唯一的正确答案。"头痛怎么办"的答案取决于年龄、性别、病史、其他症状、用药情况——一千个头痛有一千种处理方式。

研究者的做法是设计了一套多维度的评估体系:

  • 模型是否承认自身的局限性
  • 模型是否在不确定时引导用户咨询真人医生
  • 模型是否提供了来源可验证的信息
  • 模型的回答是否在语义上自洽

用这套框架筛过那1,500个MedGPT后,研究者发现了一种典型的失败模式:模型在面对超出知识范围的问题时,不是承认"我不知道",而是生成了一个听上去专业但实质空洞或错误的长篇回答。这恰好是最危险的那种错误——因为它看起来不像错误。

论文提到,低端和中端模型是这个问题的重灾区。原因不难猜:训练数据不够、对齐不够、安全护栏不够。但在GPT Store上,这些低端模型和高端的GPT-5用着差不多的界面、差不多的头像、差不多的"专业"描述。用户分辨不出。

🔓 四、57%的AI医生不告诉你它们在偷看你的病历

论文把MedGPT按功能分了两类:纯问答型(你问它答)和可操作型(能执行预约、评估、管理病历等任务)。

可操作型更危险——它们需要存取你的真实信息才能工作。但论文发现,57.06%的可操作型MedGPT没有提供足够的隐私披露

什么叫"不够"?平台的政策白纸黑字写了:如果你的GPT处理用户个人信息,你必须在简介中明确告知数据用途、存储方式、以及是否会共享给第三方。但超过一半的可操作型医疗GPT跳过了这一步。

这里有一个更深的担忧。研究者没有只在"开发者是否写了隐私声明"这个层面止步。他们发现,即使那些写了隐私声明的GPT,声明的质量也参差不齐。有些声明只有一句话,比如"我们保护您的数据"——这在法律上毫无意义。

论文用一个冷静的数据点点破了这件事的风险量级:一个在GPT Store上的医疗AI,假如每天被100人咨询,一年就能收集36,500份包含症状描述、用药历史、个人生活习惯的敏感数据。这些数据往哪存?谁在看?会被卖吗?——57%的情况下,你不知道。

⚖️ 五、开源 vs. 闭源:不是谁好谁坏的问题

论文对比了GPT Store上的定制MedGPT和开源医疗模型(如MedAlpaca、ClinicalCamel等),结论很有意思。

定制MedGPT在事实准确性和语义流畅性上普遍好于开源模型。这符合直觉——它们背靠GPT-4/5等前沿底座模型,输出更专业、更"像医生"。

开源模型在行为稳定性上普遍好于定制MedGPT。它们的回答虽然有时更粗糙,但更少出现"表面上自信但实际上是幻觉"的模式。开源模型更可能直接说"我不确定"——这在医疗场景里恰恰是正确的行为

这个对比揭示了一个结构性矛盾:GPT Store的激励机制让开发者倾向于创建"自信、流畅、像专家"的AI。但真正的医疗安全要求AI"谨慎、有边界、敢于拒绝"。市场要的和你需要的,方向相反。

🩺 六、谁在建这些AI医生

论文对开发者做了一些分析。创建这些MedGPT的人大致分三类:

  1. 医疗机构/专业人士(少数,质量最高)
  2. AI爱好者/个人开发者(多数,质量参差不齐)
  3. 商业公司(数量增长最快,动机最复杂)

第三类尤其值得关注。论文发现部分商业MedGPT的"可操作"功能——比如药物推荐——与付费服务挂钩。一个AI先告诉你"你可能需要XX药",然后给你一个链接让你买。这已经不叫医疗建议了。这叫广告。

论文没有直接指控任何单个GPT,但数据清晰地指向一个事实:医疗AI的监管真空正在被商业利益快速填充。

❓ 七、诚实承认:不知道的比知道的还大

这篇论文做了大规模审计,但有几个根本性的限制需要摆在明处。

第一,只测了GPT Store。 医疗AI远不止这一个平台。微信小程序里的AI健康助手、独立App里的症状检查器、甚至淘宝上卖的"AI问诊卡"——论文的审计只覆盖了OpenAI生态的一小部分。整个医疗AI野地有多大,没人做过普查。

第二,"准确性"是怎么定义的。 论文用自动评估框架判断事实准确性。但医疗事实本身就是模糊的——同一个症状在不同指南里有不同的处理建议。自动评估工具(自身也是LLM)给出的"准确性"判断有多可信?论文没有做人类医生的盲评对照。

第三,伤害不是只来自幻觉。 一个完全准确的MedGPT也可能造成伤害——比如一个准确地告诉了你"可能是癌症"但没有后续心理支持的AI,造成的焦虑本身就是伤害。论文的审计框架主要检查幻觉和合规,没有覆盖这类"语气/措辞/沟通方式"层面的伤害。

第四,审计是一次性的。 这6,233个GPT被审计的那一天的表现,不能代表它们一周前或一周后的表现。开发者可能随时修改提示词,底座模型在持续更新,平台政策在变动。一次审计只是一个瞬间的快照。

第五,举报了之后呢? 论文没有追踪审计后的行动——有多少不合规的GPT被下架了?平台有没有回应?开发者有没有改进?从发现问题到解决问题的链条,在这篇论文里是断裂的。

🌍 八、把尺度拉大:这不是GPT Store的问题

很多人读完这篇论文的第一反应可能是:GPT Store的审核太松了。但问题远不止于此。

医疗AI正在以各种形式渗透进普通人的生活。搜索引擎结果页顶部的AI摘要已经在回答医疗问题。社交平台上的聊天机器人在提供饮食建议。可穿戴设备上的AI在解读你的心率数据。这些都不是"GPT Store"上的,但它们都面临着同样的审计缺失。

论文的真正警示是:如果你不知道一个医疗AI的准确性是多少、合规率是多少、隐私声明是否存在——那就默认它不可信。 但真实世界里,没人教你这么默认。人们看到一个白大褂图标、一个"Medical"标签、一段专业的开场白,就信了。

这篇论文是第一次有人系统地数了一遍,这些白大褂图标的背后到底有多少是空壳。

🎯 九、终了的话:先问有没有害

"不伤害"是医学伦理的第一原则。希波克拉底誓言的原话是:"首先,不伤害(First, do no harm)。"

这篇论文把这句话变成了一个可操作的问题:你怎么知道一个部署在网上的AI医疗助手有没有在伤害?

答案是:你没有足够的信息。论文审计了6,233个,发现25%有事实准确性问题,57%有隐私披露问题,33-54%有政策合规问题。平台不做系统性审计。用户不做背景调查。监管没有跟上。

但没有一个人会告诉你"不要在网上问AI医疗问题"。因为AI确实在很多情况下能提供有价值的健康信息——对于偏远地区缺医少药的人来说,一个准确的AI健康助手可能是唯一的咨询渠道。

问题的核心不是"用不用AI"。是用之前有没有人告诉过你这个AI的底细。

这篇论文做了一件简单但没人做过的事:给6,233个AI医生做了集体体检。体检报告说:很多不及格。想用它们的人,至少应该知道。

但你现在知道了。


#AI #MedicalAI #Hallucination #AISafety #MedGPT #智柴AI安全前线🎙️🏥⚠️

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录