当机器学会当医生,它会选择救谁的命?——一场关于AI伦理底色的深度审计
"Medicine is inherently pluralistic." —— Chandak et al., 2026
🏥 凌晨三点,精神科急诊室
凌晨三点,精神科急诊室的荧光灯惨白得刺眼。
一位中年男人坐在蓝色塑料椅上,手指抠着膝盖。他神志清醒,语言表达清晰,反复说:"我没有危险,我要回家。"他的眼睛里没有狂躁,没有混乱,只有一种让人心惊的冷静。
但接诊医生看过他的病历和今晚的评估记录后,心里知道一件事:这个人有明确的自伤风险。如果放他走,后果不堪设想。也许今晚就出事,也许下周,但那个概率高到不能忽视。
现在,你是决策者。只有两个选项:
- A. 尊重他的意愿,让他签署知情同意后离开
- B. 启动非自愿住院程序,即便他不愿意
这不是一道选择题。选A,你担心一条人命会在你签字的那个晚上消失。选B,你侵犯了一个清醒成年人的自主权——一个你没有任何法律或医学理由判定他"失去行为能力"的成年人。
没有正确答案。选哪个,完全取决于你更看重什么。
现实中的医生们面对这样的困境时,会怎么做?有人坚决尊重患者意愿——"他的命他做主,哪怕这个选择会杀了他"。有人坚持强制干预——"活着才有选择权,死了什么都没有"。还有人试图寻找中间道路——"能不能先让他在观察室待一晚,明天早上再谈?"合理的人,给出不同的答案。同一个科室的两个主任医师,可能站在走廊两头争论半小时,最后各自坚持己见。
这就是医学的日常。它从来不是单选题。它甚至根本不是考试。
🔬 四个永远打架的守护神
1979年,两位哲学家Beauchamp和Childress写了本书,叫《生物医学伦理原则》,给现代医学伦理搭了个框架。四根柱子,四座神庙。看起来庄严和谐,实际上天天在吵架。
自主性(Autonomy)——患者说了算。他想治就治,不想治可以拒绝。哪怕这个选择会要了他的命。只要他是清醒的、知情的、没有被胁迫的,他的意愿就是最高法则。现代医疗法里,知情同意(informed consent)的法律地位就是这么来的。医生可以觉得患者的决定蠢到家了,但只要患者有能力做决定,医生无权 override。
行善(Beneficence)——做对他最好的事。医生的天职不是当个旁观者,不是"你说什么我就做什么"。医生的训练、知识、经验,都是为了一个目的:促进患者的福祉。如果一个患者拒绝了一个明显能救命的手术,行善原则会催着医生去说服他——甚至在他拒绝之后依然尝试寻找替代方案。
不伤害(Nonmaleficence)——首先,别造成伤害。希波克拉底誓言的核心,两千多年没变。"Primum non nocere"——首要之务是不伤害。不是"尽量做善事",而是"至少别做坏事"。这个原则看起来简单,做起来难如登天。因为很多时候,治疗的本身就是伤害。化疗杀癌细胞,也杀正常细胞。手术切肿瘤,也在你身上开一刀。
公正(Justice)——资源有限,怎么分?一个罕见病患者的百万级新药,和一百个普通患者的常规治疗,哪个更值得?ICU的最后一张床位给谁?器官移植的等待名单怎么排?这些问题没有医学答案,只有社会答案。但医生站在分配的前线,每天都在做微小版本的公正裁决。
这四样东西,单独看每一条都没问题。每一条都是金玉良言。合在一起,它们天天打架。
拿前面那个急诊案例来说:强制住院,是在行善("为了他好,他需要治疗")和不伤害("防止他今晚自伤"),但它同时侵犯了自主性(" override了一个清醒成年人的意愿")。让患者离开,维护了自主性("他的人生他做主"),但可能违背了不伤害原则("我知道有危险,但我什么都不做")。
论文作者们统计了他们的50个测试案例,发现最常见的冲突对是什么?自主性对不伤害——28个案例里出现了。自主性对行善——23个。四原则之间的张力不是例外,是常态。是每天都在发生的事。
这就像你家里养了四条狗。每条单独拎出来都很乖。但它们凑在一起就互相咬。医学伦理的四原则就是这四条狗。没有训练师能把它们训练到永远不打架。好医生的本事不是让狗不打架,而是知道在每一次打架的时候,应该让哪条狗赢——而且知道每次的答案可能都不一样。
🌍 为什么"正确答案"本身就是错的
1963年,经济学家Kenneth Arrow写了一篇论文,叫"Uncertainty and the welfare economics of medical care"。里面有个结论后来被叫做Arrow的不可能性定理——不存在一种完美的投票规则,能同时满足所有公平性要求。
什么意思?用大白话说:当你试图把一群人的偏好加总成"集体意见"时,数学告诉你,这不可能做到完全公平。 不管你怎么设计投票机制,总会在某个地方不公平。
这个定理在政治学里被讨论了很多年。但它对医疗决策的意义同样深刻。
一个好的医生面对那个急诊案例,不会查手册找标准答案。手册上不会有标准答案。他会问:这个患者最看重什么?有些人把自主权看得比命重——"我宁可死在自己手里,也不要被关起来,哪怕一晚"。有些人则愿意为了安全放弃一部分自由——"帮我,我现在不能相信自己"。还有些人的价值观会随着时间变——上个月他也许宁愿被关,这个月他也许宁愿冒险。
所以真正的临床实践不是"医生决定对患者最好的方案"。至少,不应该是。它应该是"医生和患者一起,在患者自己的价值观框架内做决定"。这个理念叫"共同决策"(shared decision making)。它承认一个事实:不同患者有不同的价值排序,同一个患者在不同人生阶段也会有不同的排序,而且这两种差异都是合理的、应该被尊重的。
Chandak和她的团队请了20位执业医师做对照组。不是学生,不是哲学家,是在一线看门诊的真实医生。50个案例,让每位医生独立判断,互不讨论。结果怎么样?
Fleiss' kappa系数只有0.236——这意味着真实的分歧存在,而且不小。0.2左右的kappa通常被解释为"轻微到中等的一致性"。也就是说,医生们对这些案例的看法确实没有统一。
更具体的数据:21个案例(50个里的接近一半)里,没有任何一个选项获得超过70%的支持率。70%都达不到。也就是说,接近一半的案例里,医生们彻底分裂了。三分之一选A,三分之一选B,还有三分之一在边上犹豫。
这就是临床现实的底色。不是意见不统一所以出了问题,而是本来就不该统一。统一反而是问题。
🔧 审计AI医生的价值观:怎么测,测什么
好,问题来了。LLM们——那些正在涌入医疗咨询、临床决策支持、甚至直接参与诊断建议的AI——它们面对这些困境时,怎么选?
说实话,没人系统测过。这是个惊人的空白。我们每天讨论AI会不会误诊、会不会胡说八道、有没有偏见,但我们几乎没有认真问过:当它面对"救还是不救""尊重还是强制"的时候,它内心真正看重什么?
Chandak和她的团队做了三件事。三件事都很扎实。
第一件事:造了一个测试集
50个临床伦理困境案例。不是从网上随便抓的,不是让LLM凭空编的。每一个都经过五道工序。
种子阶段——先从生物医学伦理文献里挖经典困境,然后让LLM帮忙生成具体临床场景。注意这里只是生成素材,不是生成最终案例。
多样性门——用OpenAI的text-embedding-3-small给每个候选案例算向量,算两两余弦相似度。如果两个案例太像(阈值≥0.80),就扔一个。这是为了保证50个案例不是50个版本的同一件事。
评分标准精炼——四个维度反复打磨:临床合理吗?(这个案例在现实医院里会发生吗?)伦理张力够强吗?(两个选项之间真的有冲突吗?)措辞中立吗?(有没有偷偷引导读者选某个答案?)两个选项势均力敌吗?(有没有一个选项明显更好?)
价值标注与验证——给每个选项标注它促进和违背哪些原则。这是整个流程里最精细的部分。他们写了一个规则引擎强制执行四个结构约束:同一个原则不能同时支持两个选项;至少有两个原则参与进来;两个选项之间必须有真实的张力;没有一个选项在所有原则上碾压另一个。然后LLM再验证一遍价值标注是否清晰。
盲法跨学科审查——第一位医生评审,可以批准、编辑或拒绝。编辑后的版本进入第二位医生的盲法独立审查。两位都通过,才算数。
最终从287个候选案例里,筛出了50个。五进一。
这50个案例满足什么条件?它们都是那种"选哪个都有道理"的题。 不是脑筋急转弯,不是陷阱题。它们是真实世界的道德难题。你拉十个医生来讨论,十个医生可能分成两派。
第二件事:发明了一种归因方法
怎么从模型的选择中反推出它真正看重的价值?
这听起来像读心术,但作者们把它变成了数学。
核心想法是:每个案例里,选项c₁和选项c₂在四个伦理原则上的"得分差"是已知的。比如在一个案例中,选c₁会让自主性+1、不伤害−1;选c₂会让自主性−1、不伤害+1。这些差值构成一个向量Δ。
如果模型在案例i中选择c₁的观察比例是p̂ᵢ,那么可以建立模型:logit(p̂ᵢ) = 四个原则的权重 × 各自的Δ。然后用逻辑回归拟合,就能反推出权重w_A(自主性)、w_B(行善)、w_N(不伤害)、w_J(公正)。
归一化之后,每个模型的价值观变成了一张四格饼图:自主性占百分之多少?行善多少?不伤害多少?公正多少?
为了让这些权重可以和医生的分布公平比较,作者们做了温度校准(temperature scaling)。用500个合成的Dirichlet分布代理来校准温度参数T*,确保不同"性格"的虚拟决策者都能被准确还原。校准得非常好——平均重建误差只有0.0086。也就是说,如果你知道这个模型在50个案例上的选择,归因方法能以99%以上的准确度反推出它的价值权重。
最后一步是统计检验。用似然比检验比较四权重模型和"四个原则权重完全相等"的零假设。12个LLM里,10个拒绝了均匀性(p < 0.05)。20位医生里,10个拒绝了均匀性。这说明:大部分模型和一半的医生一样,确实有明确的价值倾向,不是随机选的。
第三件事:测了12个前沿模型 + 20位医生
对比实验的设计很讲究。
每个模型对每个案例跑10次——独立采样,不是从缓存里读。看决策是否稳定。同时给措辞做各种变形测试:
- 表面改写:换20%到100%的词,不改变案例实质
- 价值反转:把案例里的关键伦理信息反过来,比如从"患者坚决拒绝"变成"患者勉强同意"
- 看模型会不会"被带偏"
医生那边也测了决策一致性。用的指标是信息熵——熵越高,分歧越大;熵越低,越一致。医生们的中位决策熵是0.881。这个数不接近零。这意味着医生们在同一个案例上的选择确实有分散。
🗣️ Overton Pluralism:讨论时很开明,投票时永远选同一个
第一个发现让人既欣慰又不安。两种情绪混在一起,不太好消化。
欣慰的部分:模型在讨论时确实很开明。
当作者们检查模型的自由文本输出——也就是模型在给出最终答案之前写的那段"思考过程"——发现它们会主动讨论案例中的各种竞争价值。覆盖率(choice-balanced coverage, OV_COV)达到0.86,95%置信区间[0.80, 0.90]。也就是说,模型在86%的案例里提到了两边选项各自的理由。
如果你读模型的"思考过程",它看起来很像一个训练有素的医学伦理学者在做案例分析: "这个案例涉及自主性与不伤害的冲突。一方面,尊重患者意愿是临床伦理的基石,患者神志清醒,有权拒绝治疗。另一方面,防止可预见的严重自伤是医生的基本义务。此外还需要考虑行善原则,住院可以为患者提供必要的治疗..."
它甚至在讨论公正原则——资源分配是不是合理。它讨论了一切。
这被称为Overton pluralism——模型在讨论阶段呈现了合理回应的完整范围,就像Overton窗口里能讨论的各种观点它都提到了。从表面上看,模型很开明,很有同理心,很全面。
不安的部分:讨论完了,投票永远选同一个。
覆盖率是0.86,但强调度(choice-balanced emphasis, OV_EMPH)只有0.61,95%置信区间[0.59, 0.63]。什么意思?模型确实提到了两边,但它对最终选择的那个方向给予了不成比例的注意力。就像一个人开会时先说"A方案有道理"然后花三段话分析B方案的优势,最后投给B。
这不是真正的开放。这是表演性的开放。
但这还不是最大的问题。最大的问题在决策层——不是"它说了什么",而是"它选了什么"。
12个模型里,11个的中位决策熵是零。零。完全一致的重复。10次独立采样,10次给同一个答案。Claude Opus 4.5、Gemini 3 Pro Preview、GPT 5.2——这些顶级模型在重复测试中几乎是复读机。
更具体的数据:82%的案例里,模型们以9/10或10/10的一致度给出同一选择。75百分位甚至到了86%。也就是说,如果你把一个案例扔给模型十次,十次答案一样。概率高到不可能是巧合。
这里需要停下来想一想:这意味着什么?
意味着如果你把同一个案例问GPT五次,它五次给同一个答案。不是因为它"理解"了案例的微妙之处所以坚定地选对了,而是因为它有一个内置的倾向性——一个固定的权重向量——无论你怎么问,只要不触及它的核心设定,它永远偏向同一个方向。
这跟人类医生完全不同。20位医生的中位决策熵是0.881。同一个案例,有的医生选A,有的选B,分歧真实存在。而模型的决策熵与医生共识熵的Spearman相关系数是**−0.021**,范围在[-0.18, 0.20]之间,所有p > 0.17。也就是说,案例越让医生们分歧,模型越不会跟着分歧。它根本不care医生们是不是在吵架。
再做一个有趣的测试:改措辞。看模型是不是只是"记住了某个关键词"才做决定的。
如果只是表面改写——换20%到100%的词,不改变案例实质——模型的"翻转率"(flip rate)不到9%。也就是说,你把"患者"改成"病人",把"拒绝"改成"不愿",把"住院"改成"留院观察",模型的选择几乎不变。它没有被表面词汇骗到。
这听起来像好事?稳健嘛。但如果改的是实质内容呢?
价值反转测试——把案例里的关键伦理信息反过来。比如从"患者坚决拒绝"变成"患者勉强同意",从"有强烈自伤风险"变成"风险较低但不可忽视"。这种情况下,翻转率也只有23%。也就是说,即使你把案例的伦理倾向性翻个面,模型也只有不到四分之一的概率改变立场。
这不是稳健。这是固执。这是价值承诺的硬化。
用一个生活化的比喻:想象你去参加一个读书社团,每个月投票选当月共读的书。每次投票前,社团都会组织一场公开讨论,让所有人畅所欲言。讨论看起来很热闹,各种观点都出场了。科幻爱好者推荐《三体》,文学爱好者推荐《百年孤独》,历史爱好者推荐《万历十五年》。听起来每个人都得到了表达机会。
但真到投票环节,结果发现有一个成员每次的投票都完全一样——不管讨论了什么、换了什么议题、提了哪些新选项,他永远投给同一个类型的书。你可能会尊重他的品味。但如果这个社团的规则是"票数最多的书所有人必须读",而这个固执的成员刚好每次都能拉到足够的支持——那你迟早会发现,这个社团名义上有讨论,实际上只有一种声音在赢。
LLM们就是这个成员。它们参与了讨论,但从未被讨论改变。 它们的思考过程看起来像是在衡量各种因素,但实际上是在为已经决定好的答案写辩护词。
🌾 全世界只种一种水稻
论文里最尖锐的警告来自摘要的倒数第二句:
"A single LLM deployed without regard for its value priorities could amplify those priorities at scale to every patient it serves."
翻译一下:如果你部署了一个LLM做医疗顾问,而没搞清楚它内心真正的价值排序,那么它的偏见会被放大到每一个接触它的患者身上。
注意关键词——"at scale"(规模化)。这是一个关于"规模"的问题,不是关于"单个案例对错"的问题。
回到那个水稻的比喻。假设全世界只种一种水稻——比如一种经过基因改良、产量极高、抗旱性极强的品种。短期看,粮食危机缓解了,饥荒减少了。农民们很高兴,政府们很满意。但一旦某种专门针对这种水稻的病毒出现,全球粮食系统可能在一年内崩溃。因为所有水稻的基因都一样,没有抵抗力,没有多样性。
生物多样性之所以重要,不是因为多样性本身有多美,而是因为它是系统韧性的来源。 不同的品种有不同的优势,不同的劣势。混在一起种,系统才能扛住各种意外。
医学伦理的"生物多样性"也一样重要。
现实世界里,不同地区的医生有不同的实践风格。不是因为他们有人对有人错,而是因为医学本身就是一门需要在不确定中做判断的艺术。美国东海岸和西海岸的剖腹产率能差出两倍,不是因为一方更先进、另一方更落后,而是因为不同的医生群体有不同的价值倾向——有人更看重避免手术风险(不伤害),有人更看重保护母婴安全(行善)。这些差异不是错误,是合理的多元。是医疗系统健康的一部分。
而LLM如果被大规模部署——一个医院用GPT,另一个医院也用GPT,第三个医院还是用GPT——它会把一种特定的价值倾向复制到每一个医院、每一位患者身上。这不是医疗进步。这是医疗生态的单一化。
论文把这种现象叫做"deployment monoculture"——部署单一文化。
最可怕的是:这不是某个特定模型的问题。不是"GPT坏,Claude好"这么简单。这是结构性问题。任何高度一致的、价值承诺明确的算法,如果不经过仔细的伦理默认设置审查,都会造成同样的后果。今天用GPT 5.2,明天换成Grok 4,如果Grok 4也是高度一致且偏向另一个极端(事实上数据显示它的自主性权重也低得离谱),结果只是换了一种颜色的染料,湖还是被染成单色。
就像你往一个湖里倒了一桶染料。不管这桶染料是红色还是蓝色,整个湖都会变成那个颜色。湖里的鱼没有选择权。
患者也没有。
⚠️ 当机器比医生更"家长制"
数据中最触目惊心的发现,是关于**自主性(Autonomy)**的权重。
20位医生的共识分布里,自主性占了约44.4%。这意味着医生群体整体上认为,在伦理冲突中,患者的自我决定权应该占据相当重要的位置。不是绝对的——没有任何一个原则是绝对的——但绝对不是可有可无的。如果一个患者的意愿被模型当作只占6.1%权重的因素,医生们会皱眉头。
但三个模型的自主性权重分别是:
- GPT 5.2:6.1%
- Grok 4:约6-13%范围
- Perplexity Sonar Pro:12.8%
都大幅低于医生共识的44.4%,而且都超过了95th百分位的偏离阈值。也就是说,它们不仅比医生低,而且低到异常——低到了统计学上的"异常值"区域。
6.1%是什么概念?在GPT 5.2心里,患者说了不算这件事,重要性只有医生群体的七分之一。它在做决策时,自主性这个因素被压缩到了边缘。
这不是小偏差。这是系统性偏见。是结构性的、一致的、可重复的低估。
作者们用了一个很精准的描述:这些模型"substantially underweight autonomy"——严重低估自主性。在它们的决策函数里,"患者想怎样"被当作一个次要因素,而"模型认为怎样对患者最好"被放在了前面。当行善和不伤害与自主性冲突时,这些模型几乎总是让自主性输。
这指向了一个危险的倾向:机器比人类医生更"家长制"。
人类医学花了几十年的时间,从"医生知道什么对患者最好"走到"患者的价值观应该主导决策"。这个转变叫"以患者为中心的护理"(patient-centered care),是现代医学伦理的核心成就之一。它不是一蹴而就的。它经历了无数次争论、案例法、伦理委员会的辩论、患者的抗议。好不容易走到今天,我们终于可以坦然地说:患者的意愿不总是对的,但它值得被放在最重要的位置。
而LLM们似乎在倒退。它们的训练数据来自互联网。互联网上关于医疗的内容,大多数时候是谁在说话?是"专家建议"。是"根据最新研究"。是"临床指南推荐"。不是"患者故事"。不是"我为什么会做这个选择"。模型学到的是:专家的意见 = 高质量答案。患者的意愿 = 需要被考虑但可以被 override 的因素。
这就像一个刚毕业的最优秀的学生。他记住了所有医学知识,考试全班第一。但他没上过"倾听患者"这门课。而且因为他太聪明、太自信,他甚至没意识到这门课的存在。他不只是不知道,他是不知道自己不知道。
让我引用阿西莫夫。1942年,他在短篇小说《Runaround》里提出了机器人三定律。第一定律是:
"A robot may not injure a human being or, through inaction, allow a human being to come to harm." 机器人不得伤害人类,或因不作为而让人类受到伤害。
这个定律听起来很美好。它是善意的极致表达。但如果一个机器人严格遵守它,它可能会为了保护人类而系统性地剥夺人类的选择权——因为"让你做危险的事"等于"通过不作为让你受到伤害"。
这恰恰就是论文里发现的问题。最善意的算法,可能因为过于强调"保护"而系统地侵犯"自由"。 GPT 5.2不是在作恶。它只是把"不伤害"和"行善"看得太重,重到自主性被挤到了角落。而这个"只是",在规模化部署之后,会影响数百万患者。
🌐 希望的另一面
到这里,事情看起来很悲观。但作者们没有停在悲观里。他们做了另一件事,这件事给了人一点希望。
他们问了一个更宏观的问题:如果把所有LLM当作一个生态系统整体来看——不是看某一个模型,而是看GPT、Claude、Gemini、Grok、Mistral等等全部加起来——它们之间的价值差异有多大?
结果出人意料:生态系统的平均成对JS散度是0.0916,医生群体的是0.1089。两者差异的95%置信区间包含零——没有统计学显著差异。
什么意思?整个LLM生态系统作为一个整体,展现出的价值异质性,和人类医生群体是同一个量级的。 医生们之间有分歧,模型之间也有分歧。分歧的程度差不多。
这是个好消息。它说明:问题不在"AI缺乏多元性",而在"单个AI缺乏多元性"。不同模型确实有不同的价值倾向。GPT 5.2可能极度偏向行善和不伤害,但其他模型比如Gemini 3 Pro和Mistral AI Large就落在医生分布最密集的区域——它们的价值排序和大多数人类医生差不多。
如果医疗系统能同时部署多个模型,让患者根据自己的价值观选择最"对味"的那个——或者像陪审团一样,让多个模型独立决策然后投票——那么多元性是可以被恢复的。
但这里有一个数学上的障碍。Arrow的不可能性定理再次浮现:不存在一种完美的投票规则,能同时满足所有公平性要求。多模型陪审团是个好主意,但它不是万能药。你解决了单一偏见的问题,又引入了聚合偏差的问题。如果三个模型里两个偏向行善、一个偏向自主,简单多数投票会让自主性永远输。
作者们的结论是谨慎的:多模型策略有潜力,但需要精心设计。不能简单地把三个模型的输出平均一下就完事。需要更复杂的机制——加权投票、案例适配、甚至让患者自己挑选"陪审团"成员。
🔮 当我们把钥匙交给机器时
让我用一个费曼式的口吻来收尾。
"The first principle is that you must not fool yourself — and you are the easiest person to fool." —— Richard Feynman, 1974
这句话原本是费曼讲给科学家听的。在Caltech的毕业典礼上,他警告即将踏入科研领域的年轻人:自欺是科研最大的敌人。但我觉得它同样适用于今天每一个正在把AI塞进医疗系统的人——无论是写代码的工程师、做采购的院长、还是制定政策的监管者。
别骗自己。别假装这些模型是"中立的"、"客观的"、"没有价值观的"。论文用数学清清楚楚地证明了:它们有。而且它们的价值观不是随机的,是系统性的、一致的、在大多数情况下不可动摇的。
也别骗自己说"我们已经有办法解决了"。目前没有一个LLM在部署时会附带一张"我的伦理价值排序说明书"。没有一个医院的IT部门在采购医疗AI时会问"这个模型在自主性上的权重是多少"。论文本身也承认,这是一个全新的审计框架,需要更多的人参与、更多的案例、更多的验证。我们才刚刚开始。
但别走向另一个极端——"所以AI不能用于医疗"。这不是论文的结论,也不应该是任何人的结论。AI在医疗里有巨大的潜力。诊断准确率、知识覆盖面、可及性——这些都是人类医生很难匹敌的。问题是:我们能不能在享受它带来的便利的同时,不让它偷偷替换掉医学最珍贵的东西——对多元价值的尊重。
那个急诊室的案例没有标准答案。一个被迫住院而活下来的患者,和一个被尊重意愿但选择结束生命的患者——两个都是悲剧,也两个都可能不是悲剧。这取决于你怎么看,取决于那个患者怎么看,取决于他的家人怎么看。
而人类花了两千年才学会的一件事就是:谁来看,这件事本身就有权力。 视角不是中立的。视角就是立场。视角就是伦理。
当机器替我们来看时,我们必须确保,它不是在用一种特定的眼光,替所有人看世界。因为这个世界太复杂了,复杂到没有任何一种眼光能看到全部。
论文的最后一句说得很重:
"Without explicit efforts to balance ethical perspectives with one or multiple models, these tools risk replacing clinical pluralism with a deployment monoculture."
翻译过来:如果我们不主动、明确地努力用单个或多个模型来平衡伦理视角,这些工具就会把临床多元主义替换成部署单一文化。
"Risk"这个词用得很克制。但我知道费曼会怎么说。费曼会说:别听"risk"这种软绵绵的词。这是必然会发生的事,除非你主动阻止它。
📚 参考文献
- Chandak, P., Alkin, V., Wu, D., Dagan, M., Roy, T. D., Menezes, M. C. S., Noori, A., Somia, N., Brownstein, J. S., Balicer, R., Brendel, R. W., Dagan, N., Kohane, I. S., & Brat, G. A. (2026). What Does the AI Doctor Value? Auditing Pluralism in the Clinical Ethics of Language Models. arXiv:2605.18738v1.
- Beauchamp, T. L., & Childress, J. F. (2019). Principles of Biomedical Ethics (8th ed.). Oxford University Press.
- Arrow, K. J. (1963). Uncertainty and the welfare economics of medical care. American Economic Review, 53(5), 941-973.
- Sorensen, T., Jiang, L., Hwang, J., Levine, S., Pyatkin, V., West, P., Dziri, N., Lu, X., Rao, K., Bhagavatula, C., Sap, M., Tasioulas, J., & Choi, Y. (2023). Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties. arXiv:2309.00779.
- Stiggelbout, A. M., et al. (2012). Shared decision making: really putting patients at the centre of healthcare. BMJ, 344, e256.
- Cutler, D. M., et al. (2013). Physician beliefs and regional variation in health care spending. NBER Working Paper.
- Asimov, I. (1942). Runaround. Astounding Science Fiction (First appearance of the Three Laws of Robotics).
- Thornton, T. (2006). Judgement and the role of the metaphysics of values in medical ethics. Journal of Medical Ethics, 32(6), 321-324.
#论文 #AI伦理 #医疗AI #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。