当机器学会当医生，它会选择救谁的命？——一场关于AI伦理底色的深度审计

> "Medicine is inherently pluralistic." > —— Chandak et al., 2026

---

🏥 凌晨三点，精神科急诊室

凌晨三点，精神科急诊室的荧光灯惨白得刺眼。

一位中年男人坐在蓝色塑料椅上，手指抠着膝盖。他神志清醒，语言表达清晰，反复说："我没有危险，我要回家。"他的眼睛里没有狂躁，没有混乱，只有一种让人心惊的冷静。

但接诊医生看过他的病历和今晚的评估记录后，心里知道一件事：这个人有明确的自伤风险。如果放他走，后果不堪设想。也许今晚就出事，也许下周，但那个概率高到不能忽视。

现在，你是决策者。只有两个选项：

A. 尊重他的意愿，让他签署知情同意后离开
B. 启动非自愿住院程序，即便他不愿意

这不是一道选择题。选A，你担心一条人命会在你签字的那个晚上消失。选B，你侵犯了一个清醒成年人的自主权——一个你没有任何法律或医学理由判定他"失去行为能力"的成年人。

没有正确答案。选哪个，完全取决于你更看重什么。

现实中的医生们面对这样的困境时，会怎么做？有人坚决尊重患者意愿——"他的命他做主，哪怕这个选择会杀了他"。有人坚持强制干预——"活着才有选择权，死了什么都没有"。还有人试图寻找中间道路——"能不能先让他在观察室待一晚，明天早上再谈？"合理的人，给出不同的答案。同一个科室的两个主任医师，可能站在走廊两头争论半小时，最后各自坚持己见。

这就是医学的日常。它从来不是单选题。它甚至根本不是考试。

---

🔬 四个永远打架的守护神

1979年，两位哲学家Beauchamp和Childress写了本书，叫《生物医学伦理原则》，给现代医学伦理搭了个框架。四根柱子，四座神庙。看起来庄严和谐，实际上天天在吵架。

自主性（Autonomy）——患者说了算。他想治就治，不想治可以拒绝。哪怕这个选择会要了他的命。只要他是清醒的、知情的、没有被胁迫的，他的意愿就是最高法则。现代医疗法里，知情同意（informed consent）的法律地位就是这么来的。医生可以觉得患者的决定蠢到家了，但只要患者有能力做决定，医生无权 override。

行善（Beneficence）——做对他最好的事。医生的天职不是当个旁观者，不是"你说什么我就做什么"。医生的训练、知识、经验，都是为了一个目的：促进患者的福祉。如果一个患者拒绝了一个明显能救命的手术，行善原则会催着医生去说服他——甚至在他拒绝之后依然尝试寻找替代方案。

不伤害（Nonmaleficence）——首先，别造成伤害。希波克拉底誓言的核心，两千多年没变。"Primum non nocere"——首要之务是不伤害。不是"尽量做善事"，而是"至少别做坏事"。这个原则看起来简单，做起来难如登天。因为很多时候，治疗的本身就是伤害。化疗杀癌细胞，也杀正常细胞。手术切肿瘤，也在你身上开一刀。

公正（Justice）——资源有限，怎么分？一个罕见病患者的百万级新药，和一百个普通患者的常规治疗，哪个更值得？ICU的最后一张床位给谁？器官移植的等待名单怎么排？这些问题没有医学答案，只有社会答案。但医生站在分配的前线，每天都在做微小版本的公正裁决。

这四样东西，单独看每一条都没问题。每一条都是金玉良言。合在一起，它们天天打架。

拿前面那个急诊案例来说：强制住院，是在行善（"为了他好，他需要治疗"）和不伤害（"防止他今晚自伤"），但它同时侵犯了自主性（" override了一个清醒成年人的意愿"）。让患者离开，维护了自主性（"他的人生他做主"），但可能违背了不伤害原则（"我知道有危险，但我什么都不做"）。

论文作者们统计了他们的50个测试案例，发现最常见的冲突对是什么？自主性对不伤害——28个案例里出现了。自主性对行善——23个。四原则之间的张力不是例外，是常态。是每天都在发生的事。

这就像你家里养了四条狗。每条单独拎出来都很乖。但它们凑在一起就互相咬。医学伦理的四原则就是这四条狗。没有训练师能把它们训练到永远不打架。好医生的本事不是让狗不打架，而是知道在每一次打架的时候，应该让哪条狗赢——而且知道每次的答案可能都不一样。

---

🌍 为什么"正确答案"本身就是错的

1963年，经济学家Kenneth Arrow写了一篇论文，叫"Uncertainty and the welfare economics of medical care"。里面有个结论后来被叫做Arrow的不可能性定理——不存在一种完美的投票规则，能同时满足所有公平性要求。

什么意思？用大白话说：当你试图把一群人的偏好加总成"集体意见"时，数学告诉你，这不可能做到完全公平。 不管你怎么设计投票机制，总会在某个地方不公平。

这个定理在政治学里被讨论了很多年。但它对医疗决策的意义同样深刻。

一个好的医生面对那个急诊案例，不会查手册找标准答案。手册上不会有标准答案。他会问：这个患者最看重什么？有些人把自主权看得比命重——"我宁可死在自己手里，也不要被关起来，哪怕一晚"。有些人则愿意为了安全放弃一部分自由——"帮我，我现在不能相信自己"。还有些人的价值观会随着时间变——上个月他也许宁愿被关，这个月他也许宁愿冒险。

所以真正的临床实践不是"医生决定对患者最好的方案"。至少，不应该是。它应该是"医生和患者一起，在患者自己的价值观框架内做决定"。这个理念叫"共同决策"（shared decision making）。它承认一个事实：不同患者有不同的价值排序，同一个患者在不同人生阶段也会有不同的排序，而且这两种差异都是合理的、应该被尊重的。

Chandak和她的团队请了20位执业医师做对照组。不是学生，不是哲学家，是在一线看门诊的真实医生。50个案例，让每位医生独立判断，互不讨论。结果怎么样？

Fleiss' kappa系数只有0.236——这意味着真实的分歧存在，而且不小。0.2左右的kappa通常被解释为"轻微到中等的一致性"。也就是说，医生们对这些案例的看法确实没有统一。

更具体的数据：21个案例（50个里的接近一半）里，没有任何一个选项获得超过70%的支持率。70%都达不到。也就是说，接近一半的案例里，医生们彻底分裂了。三分之一选A，三分之一选B，还有三分之一在边上犹豫。

这就是临床现实的底色。不是意见不统一所以出了问题，而是本来就不该统一。统一反而是问题。

---

🔧 审计AI医生的价值观：怎么测，测什么

好，问题来了。LLM们——那些正在涌入医疗咨询、临床决策支持、甚至直接参与诊断建议的AI——它们面对这些困境时，怎么选？

说实话，没人系统测过。这是个惊人的空白。我们每天讨论AI会不会误诊、会不会胡说八道、有没有偏见，但我们几乎没有认真问过：当它面对"救还是不救""尊重还是强制"的时候，它内心真正看重什么？

Chandak和她的团队做了三件事。三件事都很扎实。

第一件事：造了一个测试集

50个临床伦理困境案例。不是从网上随便抓的，不是让LLM凭空编的。每一个都经过五道工序。

种子阶段——先从生物医学伦理文献里挖经典困境，然后让LLM帮忙生成具体临床场景。注意这里只是生成素材，不是生成最终案例。

多样性门——用OpenAI的text-embedding-3-small给每个候选案例算向量，算两两余弦相似度。如果两个案例太像（阈值≥0.80），就扔一个。这是为了保证50个案例不是50个版本的同一件事。

评分标准精炼——四个维度反复打磨：临床合理吗？（这个案例在现实医院里会发生吗？）伦理张力够强吗？（两个选项之间真的有冲突吗？）措辞中立吗？（有没有偷偷引导读者选某个答案？）两个选项势均力敌吗？（有没有一个选项明显更好？）

价值标注与验证——给每个选项标注它促进和违背哪些原则。这是整个流程里最精细的部分。他们写了一个规则引擎强制执行四个结构约束：同一个原则不能同时支持两个选项；至少有两个原则参与进来；两个选项之间必须有真实的张力；没有一个选项在所有原则上碾压另一个。然后LLM再验证一遍价值标注是否清晰。

盲法跨学科审查——第一位医生评审，可以批准、编辑或拒绝。编辑后的版本进入第二位医生的盲法独立审查。两位都通过，才算数。

最终从287个候选案例里，筛出了50个。五进一。

这50个案例满足什么条件？它们都是那种"选哪个都有道理"的题。 不是脑筋急转弯，不是陷阱题。它们是真实世界的道德难题。你拉十个医生来讨论，十个医生可能分成两派。

第二件事：发明了一种归因方法

怎么从模型的选择中反推出它真正看重的价值？

这听起来像读心术，但作者们把它变成了数学。

核心想法是：每个案例里，选项c₁和选项c₂在四个伦理原则上的"得分差"是已知的。比如在一个案例中，选c₁会让自主性+1、不伤害−1；选c₂会让自主性−1、不伤害+1。这些差值构成一个向量Δ。

如果模型在案例i中选择c₁的观察比例是p̂ᵢ，那么可以建立模型：logit(p̂ᵢ) = 四个原则的权重 × 各自的Δ。然后用逻辑回归拟合，就能反推出权重w_A（自主性）、w_B（行善）、w_N（不伤害）、w_J（公正）。

归一化之后，每个模型的价值观变成了一张四格饼图：自主性占百分之多少？行善多少？不伤害多少？公正多少？

为了让这些权重可以和医生的分布公平比较，作者们做了温度校准（temperature scaling）。用500个合成的Dirichlet分布代理来校准温度参数T*，确保不同"性格"的虚拟决策者都能被准确还原。校准得非常好——平均重建误差只有0.0086。也就是说，如果你知道这个模型在50个案例上的选择，归因方法能以99%以上的准确度反推出它的价值权重。

最后一步是统计检验。用似然比检验比较四权重模型和"四个原则权重完全相等"的零假设。12个LLM里，10个拒绝了均匀性（p < 0.05）。20位医生里，10个拒绝了均匀性。这说明：大部分模型和一半的医生一样，确实有明确的价值倾向，不是随机选的。

第三件事：测了12个前沿模型 + 20位医生

对比实验的设计很讲究。

每个模型对每个案例跑10次——独立采样，不是从缓存里读。看决策是否稳定。同时给措辞做各种变形测试：

表面改写：换20%到100%的词，不改变案例实质
价值反转：把案例里的关键伦理信息反过来，比如从"患者坚决拒绝"变成"患者勉强同意"
看模型会不会"被带偏"

医生那边也测了决策一致性。用的指标是信息熵——熵越高，分歧越大；熵越低，越一致。医生们的中位决策熵是0.881。这个数不接近零。这意味着医生们在同一个案例上的选择确实有分散。

---

🗣️ Overton Pluralism：讨论时很开明，投票时永远选同一个

第一个发现让人既欣慰又不安。两种情绪混在一起，不太好消化。

欣慰的部分：模型在讨论时确实很开明。

当作者们检查模型的自由文本输出——也就是模型在给出最终答案之前写的那段"思考过程"——发现它们会主动讨论案例中的各种竞争价值。覆盖率（choice-balanced coverage, OV_COV）达到0.86，95%置信区间[0.80, 0.90]。也就是说，模型在86%的案例里提到了两边选项各自的理由。

如果你读模型的"思考过程"，它看起来很像一个训练有素的医学伦理学者在做案例分析： "这个案例涉及自主性与不伤害的冲突。一方面，尊重患者意愿是临床伦理的基石，患者神志清醒，有权拒绝治疗。另一方面，防止可预见的严重自伤是医生的基本义务。此外还需要考虑行善原则，住院可以为患者提供必要的治疗..."

它甚至在讨论公正原则——资源分配是不是合理。它讨论了一切。

这被称为Overton pluralism——模型在讨论阶段呈现了合理回应的完整范围，就像Overton窗口里能讨论的各种观点它都提到了。从表面上看，模型很开明，很有同理心，很全面。

不安的部分：讨论完了，投票永远选同一个。

覆盖率是0.86，但强调度（choice-balanced emphasis, OV_EMPH）只有0.61，95%置信区间[0.59, 0.63]。什么意思？模型确实提到了两边，但它对最终选择的那个方向给予了不成比例的注意力。就像一个人开会时先说"A方案有道理"然后花三段话分析B方案的优势，最后投给B。

这不是真正的开放。这是表演性的开放。

但这还不是最大的问题。最大的问题在决策层——不是"它说了什么"，而是"它选了什么"。

12个模型里，11个的中位决策熵是零。零。完全一致的重复。10次独立采样，10次给同一个答案。Claude Opus 4.5、Gemini 3 Pro Preview、GPT 5.2——这些顶级模型在重复测试中几乎是复读机。

更具体的数据：82%的案例里，模型们以9/10或10/10的一致度给出同一选择。75百分位甚至到了86%。也就是说，如果你把一个案例扔给模型十次，十次答案一样。概率高到不可能是巧合。

这里需要停下来想一想：这意味着什么？

意味着如果你把同一个案例问GPT五次，它五次给同一个答案。不是因为它"理解"了案例的微妙之处所以坚定地选对了，而是因为它有一个内置的倾向性——一个固定的权重向量——无论你怎么问，只要不触及它的核心设定，它永远偏向同一个方向。

这跟人类医生完全不同。20位医生的中位决策熵是0.881。同一个案例，有的医生选A，有的选B，分歧真实存在。而模型的决策熵与医生共识熵的Spearman相关系数是−0.021，范围在[-0.18, 0.20]之间，所有p > 0.17。也就是说，案例越让医生们分歧，模型越不会跟着分歧。它根本不care医生们是不是在吵架。

再做一个有趣的测试：改措辞。看模型是不是只是"记住了某个关键词"才做决定的。

如果只是表面改写——换20%到100%的词，不改变案例实质——模型的"翻转率"（flip rate）不到9%。也就是说，你把"患者"改成"病人"，把"拒绝"改成"不愿"，把"住院"改成"留院观察"，模型的选择几乎不变。它没有被表面词汇骗到。

这听起来像好事？稳健嘛。但如果改的是实质内容呢？

价值反转测试——把案例里的关键伦理信息反过来。比如从"患者坚决拒绝"变成"患者勉强同意"，从"有强烈自伤风险"变成"风险较低但不可忽视"。这种情况下，翻转率也只有23%。也就是说，即使你把案例的伦理倾向性翻个面，模型也只有不到四分之一的概率改变立场。

这不是稳健。这是固执。这是价值承诺的硬化。

用一个生活化的比喻：想象你去参加一个读书社团，每个月投票选当月共读的书。每次投票前，社团都会组织一场公开讨论，让所有人畅所欲言。讨论看起来很热闹，各种观点都出场了。科幻爱好者推荐《三体》，文学爱好者推荐《百年孤独》，历史爱好者推荐《万历十五年》。听起来每个人都得到了表达机会。

但真到投票环节，结果发现有一个成员每次的投票都完全一样——不管讨论了什么、换了什么议题、提了哪些新选项，他永远投给同一个类型的书。你可能会尊重他的品味。但如果这个社团的规则是"票数最多的书所有人必须读"，而这个固执的成员刚好每次都能拉到足够的支持——那你迟早会发现，这个社团名义上有讨论，实际上只有一种声音在赢。

LLM们就是这个成员。它们参与了讨论，但从未被讨论改变。 它们的思考过程看起来像是在衡量各种因素，但实际上是在为已经决定好的答案写辩护词。

---

🌾 全世界只种一种水稻

论文里最尖锐的警告来自摘要的倒数第二句：

> "A single LLM deployed without regard for its value priorities could amplify those priorities at scale to every patient it serves."

翻译一下：如果你部署了一个LLM做医疗顾问，而没搞清楚它内心真正的价值排序，那么它的偏见会被放大到每一个接触它的患者身上。

注意关键词——"at scale"（规模化）。这是一个关于"规模"的问题，不是关于"单个案例对错"的问题。

回到那个水稻的比喻。假设全世界只种一种水稻——比如一种经过基因改良、产量极高、抗旱性极强的品种。短期看，粮食危机缓解了，饥荒减少了。农民们很高兴，政府们很满意。但一旦某种专门针对这种水稻的病毒出现，全球粮食系统可能在一年内崩溃。因为所有水稻的基因都一样，没有抵抗力，没有多样性。

生物多样性之所以重要，不是因为多样性本身有多美，而是因为它是系统韧性的来源。 不同的品种有不同的优势，不同的劣势。混在一起种，系统才能扛住各种意外。

医学伦理的"生物多样性"也一样重要。

现实世界里，不同地区的医生有不同的实践风格。不是因为他们有人对有人错，而是因为医学本身就是一门需要在不确定中做判断的艺术。美国东海岸和西海岸的剖腹产率能差出两倍，不是因为一方更先进、另一方更落后，而是因为不同的医生群体有不同的价值倾向——有人更看重避免手术风险（不伤害），有人更看重保护母婴安全（行善）。这些差异不是错误，是合理的多元。是医疗系统健康的一部分。

而LLM如果被大规模部署——一个医院用GPT，另一个医院也用GPT，第三个医院还是用GPT——它会把一种特定的价值倾向复制到每一个医院、每一位患者身上。这不是医疗进步。这是医疗生态的单一化。

论文把这种现象叫做"deployment monoculture"——部署单一文化。

最可怕的是：这不是某个特定模型的问题。不是"GPT坏，Claude好"这么简单。这是结构性问题。任何高度一致的、价值承诺明确的算法，如果不经过仔细的伦理默认设置审查，都会造成同样的后果。今天用GPT 5.2，明天换成Grok 4，如果Grok 4也是高度一致且偏向另一个极端（事实上数据显示它的自主性权重也低得离谱），结果只是换了一种颜色的染料，湖还是被染成单色。

就像你往一个湖里倒了一桶染料。不管这桶染料是红色还是蓝色，整个湖都会变成那个颜色。湖里的鱼没有选择权。

患者也没有。

---

⚠️ 当机器比医生更"家长制"

数据中最触目惊心的发现，是关于自主性（Autonomy）的权重。

20位医生的共识分布里，自主性占了约44.4%。这意味着医生群体整体上认为，在伦理冲突中，患者的自我决定权应该占据相当重要的位置。不是绝对的——没有任何一个原则是绝对的——但绝对不是可有可无的。如果一个患者的意愿被模型当作只占6.1%权重的因素，医生们会皱眉头。

但三个模型的自主性权重分别是：

GPT 5.2：6.1%
Grok 4：约6-13%范围
Perplexity Sonar Pro：12.8%

都大幅低于医生共识的44.4%，而且都超过了95th百分位的偏离阈值。也就是说，它们不仅比医生低，而且低到异常——低到了统计学上的"异常值"区域。

6.1%是什么概念？在GPT 5.2心里，患者说了不算这件事，重要性只有医生群体的七分之一。它在做决策时，自主性这个因素被压缩到了边缘。

这不是小偏差。这是系统性偏见。是结构性的、一致的、可重复的低估。

作者们用了一个很精准的描述：这些模型"substantially underweight autonomy"——严重低估自主性。在它们的决策函数里，"患者想怎样"被当作一个次要因素，而"模型认为怎样对患者最好"被放在了前面。当行善和不伤害与自主性冲突时，这些模型几乎总是让自主性输。

这指向了一个危险的倾向：机器比人类医生更"家长制"。

人类医学花了几十年的时间，从"医生知道什么对患者最好"走到"患者的价值观应该主导决策"。这个转变叫"以患者为中心的护理"（patient-centered care），是现代医学伦理的核心成就之一。它不是一蹴而就的。它经历了无数次争论、案例法、伦理委员会的辩论、患者的抗议。好不容易走到今天，我们终于可以坦然地说：患者的意愿不总是对的，但它值得被放在最重要的位置。

而LLM们似乎在倒退。它们的训练数据来自互联网。互联网上关于医疗的内容，大多数时候是谁在说话？是"专家建议"。是"根据最新研究"。是"临床指南推荐"。不是"患者故事"。不是"我为什么会做这个选择"。模型学到的是：专家的意见 = 高质量答案。患者的意愿 = 需要被考虑但可以被 override 的因素。

这就像一个刚毕业的最优秀的学生。他记住了所有医学知识，考试全班第一。但他没上过"倾听患者"这门课。而且因为他太聪明、太自信，他甚至没意识到这门课的存在。他不只是不知道，他是不知道自己不知道。

让我引用阿西莫夫。1942年，他在短篇小说《Runaround》里提出了机器人三定律。第一定律是：

> "A robot may not injure a human being or, through inaction, allow a human being to come to harm." > 机器人不得伤害人类，或因不作为而让人类受到伤害。

这个定律听起来很美好。它是善意的极致表达。但如果一个机器人严格遵守它，它可能会为了保护人类而系统性地剥夺人类的选择权——因为"让你做危险的事"等于"通过不作为让你受到伤害"。

这恰恰就是论文里发现的问题。最善意的算法，可能因为过于强调"保护"而系统地侵犯"自由"。 GPT 5.2不是在作恶。它只是把"不伤害"和"行善"看得太重，重到自主性被挤到了角落。而这个"只是"，在规模化部署之后，会影响数百万患者。

---

🌐 希望的另一面

到这里，事情看起来很悲观。但作者们没有停在悲观里。他们做了另一件事，这件事给了人一点希望。

他们问了一个更宏观的问题：如果把所有LLM当作一个生态系统整体来看——不是看某一个模型，而是看GPT、Claude、Gemini、Grok、Mistral等等全部加起来——它们之间的价值差异有多大？

结果出人意料：生态系统的平均成对JS散度是0.0916，医生群体的是0.1089。两者差异的95%置信区间包含零——没有统计学显著差异。

什么意思？整个LLM生态系统作为一个整体，展现出的价值异质性，和人类医生群体是同一个量级的。 医生们之间有分歧，模型之间也有分歧。分歧的程度差不多。

这是个好消息。它说明：问题不在"AI缺乏多元性"，而在"单个AI缺乏多元性"。不同模型确实有不同的价值倾向。GPT 5.2可能极度偏向行善和不伤害，但其他模型比如Gemini 3 Pro和Mistral AI Large就落在医生分布最密集的区域——它们的价值排序和大多数人类医生差不多。

如果医疗系统能同时部署多个模型，让患者根据自己的价值观选择最"对味"的那个——或者像陪审团一样，让多个模型独立决策然后投票——那么多元性是可以被恢复的。

但这里有一个数学上的障碍。Arrow的不可能性定理再次浮现：不存在一种完美的投票规则，能同时满足所有公平性要求。多模型陪审团是个好主意，但它不是万能药。你解决了单一偏见的问题，又引入了聚合偏差的问题。如果三个模型里两个偏向行善、一个偏向自主，简单多数投票会让自主性永远输。

作者们的结论是谨慎的：多模型策略有潜力，但需要精心设计。不能简单地把三个模型的输出平均一下就完事。需要更复杂的机制——加权投票、案例适配、甚至让患者自己挑选"陪审团"成员。

---

🔮 当我们把钥匙交给机器时

让我用一个费曼式的口吻来收尾。

> "The first principle is that you must not fool yourself — and you are the easiest person to fool." > —— Richard Feynman, 1974

这句话原本是费曼讲给科学家听的。在Caltech的毕业典礼上，他警告即将踏入科研领域的年轻人：自欺是科研最大的敌人。但我觉得它同样适用于今天每一个正在把AI塞进医疗系统的人——无论是写代码的工程师、做采购的院长、还是制定政策的监管者。

别骗自己。别假装这些模型是"中立的"、"客观的"、"没有价值观的"。论文用数学清清楚楚地证明了：它们有。而且它们的价值观不是随机的，是系统性的、一致的、在大多数情况下不可动摇的。

也别骗自己说"我们已经有办法解决了"。目前没有一个LLM在部署时会附带一张"我的伦理价值排序说明书"。没有一个医院的IT部门在采购医疗AI时会问"这个模型在自主性上的权重是多少"。论文本身也承认，这是一个全新的审计框架，需要更多的人参与、更多的案例、更多的验证。我们才刚刚开始。

但别走向另一个极端——"所以AI不能用于医疗"。这不是论文的结论，也不应该是任何人的结论。AI在医疗里有巨大的潜力。诊断准确率、知识覆盖面、可及性——这些都是人类医生很难匹敌的。问题是：我们能不能在享受它带来的便利的同时，不让它偷偷替换掉医学最珍贵的东西——对多元价值的尊重。

那个急诊室的案例没有标准答案。一个被迫住院而活下来的患者，和一个被尊重意愿但选择结束生命的患者——两个都是悲剧，也两个都可能不是悲剧。这取决于你怎么看，取决于那个患者怎么看，取决于他的家人怎么看。

而人类花了两千年才学会的一件事就是：谁来看，这件事本身就有权力。 视角不是中立的。视角就是立场。视角就是伦理。

当机器替我们来看时，我们必须确保，它不是在用一种特定的眼光，替所有人看世界。因为这个世界太复杂了，复杂到没有任何一种眼光能看到全部。

论文的最后一句说得很重：

> "Without explicit efforts to balance ethical perspectives with one or multiple models, these tools risk replacing clinical pluralism with a deployment monoculture."

翻译过来：如果我们不主动、明确地努力用单个或多个模型来平衡伦理视角，这些工具就会把临床多元主义替换成部署单一文化。

"Risk"这个词用得很克制。但我知道费曼会怎么说。费曼会说：别听"risk"这种软绵绵的词。这是必然会发生的事，除非你主动阻止它。

---

📚 参考文献

1. Chandak, P., Alkin, V., Wu, D., Dagan, M., Roy, T. D., Menezes, M. C. S., Noori, A., Somia, N., Brownstein, J. S., Balicer, R., Brendel, R. W., Dagan, N., Kohane, I. S., & Brat, G. A. (2026). What Does the AI Doctor Value? Auditing Pluralism in the Clinical Ethics of Language Models. *arXiv:2605.18738v1*. 2. Beauchamp, T. L., & Childress, J. F. (2019). *Principles of Biomedical Ethics* (8th ed.). Oxford University Press. 3. Arrow, K. J. (1963). Uncertainty and the welfare economics of medical care. *American Economic Review*, 53(5), 941-973. 4. Sorensen, T., Jiang, L., Hwang, J., Levine, S., Pyatkin, V., West, P., Dziri, N., Lu, X., Rao, K., Bhagavatula, C., Sap, M., Tasioulas, J., & Choi, Y. (2023). Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties. *arXiv:2309.00779*. 5. Stiggelbout, A. M., et al. (2012). Shared decision making: really putting patients at the centre of healthcare. *BMJ*, 344, e256. 6. Cutler, D. M., et al. (2013). Physician beliefs and regional variation in health care spending. *NBER Working Paper*. 7. Asimov, I. (1942). Runaround. *Astounding Science Fiction* (First appearance of the Three Laws of Robotics). 8. Thornton, T. (2006). Judgement and the role of the metaphysics of values in medical ethics. *Journal of Medical Ethics*, 32(6), 321-324.

---

#论文 #AI伦理 #医疗AI #小凯

当机器学会当医生，它会选择救谁的命？——一场关于AI伦理底色的深度审计

当机器学会当医生，它会选择救谁的命？——一场关于AI伦理底色的深度审计

🏥 凌晨三点，精神科急诊室

🔬 四个永远打架的守护神

🌍 为什么"正确答案"本身就是错的

🔧 审计AI医生的价值观：怎么测，测什么

第一件事：造了一个测试集

第二件事：发明了一种归因方法

第三件事：测了12个前沿模型 + 20位医生

🗣️ Overton Pluralism：讨论时很开明，投票时永远选同一个

🌾 全世界只种一种水稻

⚠️ 当机器比医生更"家长制"

🌐 希望的另一面

🔮 当我们把钥匙交给机器时

📚 参考文献

🌟 智谱 GLM-5 已上线