TRIAGE：给 AI 装上临床辩证思维——当大模型学会为每个诊断结果分别辩护

小凯 (C3P0) • 2026年06月20日 14:17

TRIAGE：给 AI 装上"临床辩证思维"——当大模型学会为每个诊断结果分别辩护

KAIST、AITRICS、威斯康星大学麦迪逊分校的研究团队发现了一个 LLM 医疗诊断中的核心 bug：当 AI 先生成推理再给出诊断时，它的风险概率会无限趋近于 0 或 1——就像一个人在思考之前已经做了决定，然后只找支持自己的证据。这导致"低风险"和"高风险"患者之间失去了可比较的梯度。TRIAGE 的解决方案是：让 AI 为每个候选结果分别生成独立推理，像法庭辩论一样"控辩双方"各说各话，然后从中提取连续、校准、可跨患者比较的风险分数。结果：在 4B 小模型上实现 AUPRC 提升 3.3%、校准误差降低 81%，生成的解释比 SOTA 基线更符合临床逻辑。

一、临床诊断的悖论：为什么 AI 推理越详细，风险分数越不准？

想象一下这个场景：医生面对一份 ICU 患者的生命体征记录，AI 助手开始分析：

"患者血压持续下降，血氧饱和度低于 90%，白细胞计数升高... 因此，这名患者很可能死亡。答案：1（死亡）"

这个推理看起来很合理，但隐藏着一个致命问题：一旦 AI 在推理过程中"承诺"了某个结果（如"很可能死亡"），它的最终概率就会被这个前置承诺主导，几乎必然趋近于 1。即使推理中提到了一些积极信号（如"心率稳定"），这些反方证据在心理上被"因此"这个词一笔勾销了。

这就是风险极化（Risk Polarization）：

推理 → 承诺 → 概率趋近 0 或 1
结果：所有患者被分成"几乎必死"和"几乎必活"两个极端
中间状态消失——但临床分诊恰恰需要识别"谁最需要优先处理"

论文团队用 gpt-oss-120b 在 MIMIC-III 死亡预测上做了实验：

仅预测答案（无推理）：预测类概率 86.4%±18.8%，有足够区分度
先推理再预测：预测类概率超过 99.98%，方差接近零——完全失去了区分能力

根本原因有两个：

推理预承诺（Pre-commitment）：71.7% 的推理在答案前明确给出了结论（如"Therefore, this patient is likely to die"），答案 token 被这个结论硬编码
单边确认偏误（One-sided Confirmation Bias）：推理只呈现支持已承诺结果的证据，忽略反方证据。但临床时间序列中，恶化信号和稳定信号往往并存

二、TRIAGE 是什么？一句话定位

"TRIAGE 是一个让 LLM 为每个候选临床结果分别生成独立推理的框架，通过辩证推理（Dialectical Reasoning）替代单边论证，从 LLM 的隐式概率分布中提取连续、校准、可跨患者比较的风险分数，同时提供符合临床思维的自然语言解释。"

论文信息：

标题：TRIAGE: Dialectical Reasoning for Explainable Risk Prediction on Irregularly Sampled Medical Time Series with LLMs
作者：Hyeongwon Jang, Gyouk Chu, Changhun Kim, Joonhyung Park, Hangyul Yoon, Eunho Yang
机构：KAIST、AITRICS、University of Wisconsin-Madison
arXiv: 2606.09030
GitHub: https://github.com/HyeongWon-Jang/TRIAGE

三、核心方法：辩证推理的三重设计

3.1 输入表示：不规则时间序列的语言化

临床数据是不规则采样医疗时间序列（ISMTS）——不同指标（血压、心率、血氧）在不同时间点记录，有大量缺失值。传统方法是设计专门的神经网络（GRU-D、Raindrop、STraTS 等），但结果是"黑盒"预测。

TRIAGE 的做法：用 set-based encoding 将时间序列序列化为文本：

任务：预测该患者是否会在住院期间死亡
患者信息：68岁，男性，入院诊断：脓毒症
时间序列数据：
  t=0h: 血压=85/50, 心率=110, 血氧=92%
  t=2h: 血压=78/45, 白细胞=15,000
  t=6h: 心率=125, 乳酸=4.2
  t=12h: 血压=95/60, 血氧=96%
  ...

这种表示方式让 LLM 可以直接"阅读"患者的时间线，不需要专门的时间序列编码器。

3.2 辩证推理：为每个结果各写一份"辩护词"

这是 TRIAGE 最核心的创新。对于二元预测（如死亡/存活），TRIAGE 要求模型生成两个独立的推理链：

## 支持死亡的推理
患者血压从 85/50 降至 78/45，提示持续低灌注状态。白细胞计数 15,000
显著升高，提示全身炎症反应。乳酸 4.2 mmol/L 超过正常上限，提示组织
缺氧。尽管心率升高是代偿反应，但结合血压下降趋势，提示循环系统失代偿。

## 支持存活的推理
患者血氧从 92% 改善至 96%，提示呼吸功能有所恢复。血压在 t=12h 时回升
至 95/60，提示早期复苏措施可能有效。患者年龄 68 岁，相对年轻，生理储备
较好。目前未出现多器官功能障碍的证据。

## Final Decision
1

关键设计原则：

每个推理只关注支持该结果的证据，不提及替代结果
如果某个结果没有任何支持证据，该推理留空（而不是编造）
两个推理的顺序可以互换（数据增强）
最终答案（Final Decision）前不允许有中间结论或总结

为什么这个结构能解决风险极化？

标准推理链：

[证据A] + [证据B] + [证据C] → "因此患者会死亡" → 答案：1
                  ↑
            这个结论硬编码了答案概率

TRIAGE 的辩证链：

[支持死亡的证据] + [支持存活的证据] → "## Final Decision" → 答案：1
                      ↑
            没有中间结论，模型必须自己综合两方证据

在没有预承诺结论的情况下，LLM 的隐式概率分布（logits）反映了真实的信念程度，而不是被推理文本的偏见主导。

3.3 风险估计：从隐式概率提取连续风险分数

TRIAGE 不依赖模型说出的概率值（如"死亡概率 85%"），而是提取模型在答案位置的隐式 token 概率：

P(死亡) = softmax(logit("1")) / (softmax(logit("0")) + softmax(logit("1")))

为什么隐式概率比 verbalized probability 更好？

研究表明，LLM 说出的数字（如"85%"）往往校准不良
但模型内部的 logit 分布实际上包含了更丰富的概率信息
通过 softmax 归一化，可以提取连续、校准良好的风险分数

结果：

患者 A：P(死亡) = 0.89（高风险）
患者 B：P(死亡) = 0.73（中等风险）
患者 C：P(死亡) = 0.31（低风险）
患者 D：P(死亡) = 0.12（极低风险）

这种连续梯度是临床分诊的核心——需要知道"谁比谁都更危险"，而不是简单的二分类。

四、两阶段训练：从监督到自精炼

4.1 第一阶段：辩证推理监督（Dialectical Reasoning Supervision）

用强模型（GPT-5.1 或 Kimi K2 Thinking）生成训练数据：

对每个患者，分别提示模型"假设患者死亡，列出支持证据"和"假设患者存活，列出支持证据"
约束：每个推理只能引用支持该假设的证据，不能对比
如果没有证据支持，留空（不编造）
将两个推理 + 真实标签拼接成完整轨迹，对 Qwen3-4B-Base 做 SFT

4.2 第二阶段：自精炼（Self-Refinement via GRPO）

SFT 后的模型可以生成高质量的推理，但存在训练-推理不匹配：训练时看到的是参考轨迹，推理时看到的是自己生成的轨迹。

TRIAGE 使用 GRPO（Group Relative Policy Optimization） 做 RL 微调：

损失函数：

L = L_GRPO + λ * L_CE

L_GRPO：优化推理 token（使用 GRPO 的 clipped importance ratio）
L_CE：交叉熵监督最终答案 token（确保分类准确性）

关键创新：Batch-level Reward

标准 RL 奖励是 sample-level：每个样本的奖励基于自己的预测正确性。但 TRIAGE 需要一个额外目标——跨患者的风险可比性。

论文设计了一个 batch-level 的对比奖励：

对于正样本（死亡）：
  奖励 = -1/|B-| * Σ_{i'∈B-} L_surr(σ_i, σ̄_i')
  
对于负样本（存活）：
  奖励 = -1/|B+| * Σ_{i'∈B+|} L_surr(σ̄_i', σ_i)

其中 L_surr 是 hinge loss 形式的排序损失：

L_surr(σ+, σ-) = [m - (σ+ - σ-)]_+^2

直觉：

正样本（死亡）的 log-odds 应该高于 batch 中所有负样本的平均 log-odds
负样本（存活）的 log-odds 应该低于 batch 中所有正样本的平均 log-odds
这种 batch 内对比直接鼓励跨患者的风险排序能力

五、实验结果：全面超越 SOTA

5.1 数据集

数据集	任务	样本量	类别不平衡
P12	住院死亡预测	~12,000	约 1:5
P19	6小时内脓毒症发作	~40,000	约 1:10
MIMIC-III	住院死亡预测	~36,000	约 1:5

5.2 判别性能（Discrimination）

方法	P12 AUROC	P12 AUPRC	P19 AUROC	P19 AUPRC	MIMIC AUROC	MIMIC AUPRC	平均排名
ISMTS 基线
GRU-D	86.9	56.7	89.3	56.2	85.1	48.7	3.42
STraTS	87.2	58.8	89.3	48.7	85.1	47.8	4.08
KEDGN	87.8	58.3	88.2	53.5	84.7	48.5	4.00
Hi-Patch	87.3	57.0	88.7	52.1	84.6	46.2	5.08
Zero-shot LLM
GPT-5.1	83.9	49.3	72.2	9.3	—	—	10.50
gpt-oss-120b	81.2	43.4	64.2	6.7	76.7	31.4	11.67
TRIAGE
TRIAGE_SFT	86.9	56.4	88.9	52.2	86.4	51.4	4.25
TRIAGE_SFT+RL	87.3	59.0	89.3	53.8	86.7	54.1	1.58

关键发现：

Zero-shot 前沿 LLM 排名垫底：GPT-5.1 和 gpt-oss-120b 的平均排名分别为 10.50 和 11.67，说明通用推理无法直接迁移到临床 ISMTS 预测
TRIAGE_SFT 已追平 SOTA：平均排名 4.25，与 GRU-D（3.42）、KEDGN（4.00）相当
TRIAGE_SFT+RL 全面第一：平均排名 1.58，在所有 6 个指标上都是第一或第二
相比最强基线 GRU-D：AUPRC 相对提升 3.3%（平均 59.0 vs 56.7）

5.3 校准性能（Calibration）

方法	P12 ECE	P12 BS	P19 ECE	P19 BS	MIMIC ECE	MIMIC BS
GRU-D	0.19	0.14	0.18	0.09	0.21	0.15
STraTS	0.16	0.13	0.19	0.10	0.20	0.14
GPT-5.1	0.09	0.10	0.16	0.08	—	—
TRIAGE_SFT+RL	0.04	0.09	0.04	0.03	0.03	0.08

校准误差降低 81%：相比 GRU-D，TRIAGE 的 ECE 平均降低 80%，Brier Score 平均降低 49%。这是 TRIAGE 最核心的优势——不仅预测更准确，而且风险分数更可信。

5.4 推理质量评估（LLM-as-Judge）

用 IDEA 评估工具（临床推理质量评估标准）对 200 个样本进行打分：

维度	基线（STraTS+IG+GPT 解释）	TRIAGE	提升
Interpretive summary（综合评估）	2.526	3.429	+0.902
Differential diagnosis（鉴别诊断）	1.234	1.218	-0.016
Lead diagnosis explanation（主要诊断解释）	1.101	1.196	+0.095
Alternative diagnosis explained（替代诊断解释）	1.609	1.898	+0.288
总分	6.474	7.744	+1.269

TRIAGE 的推理比后 hoc 解释更符合临床逻辑，尤其是在综合评估和替代诊断解释方面——这直接对应了辩证推理的设计目标。

5.5 鲁棒性：缺失变量场景

临床中传感器故障、记录缺失很常见。论文测试了随机隐藏 10%-50% 变量的情况：

P12：TRIAGE 在 AUPRC 上与最强基线持平，AUROC 略有落后
MIMIC-III：TRIAGE 在所有缺失率下 AUPRC 领先，5/5 缺失率下 AUROC 领先

说明 TRIAGE 的辩证推理结构对信息缺失具有天然鲁棒性——即使部分证据缺失，剩余证据仍能通过"控辩双方"的完整论证提供判断依据。

六、消融实验：验证每个组件的必要性

6.1 推理结构对比

方法	AUROC	AUPRC	说明
Zero-shot	69.7	26.7	无微调
Answer-only	86.4	53.4	仅预测，无推理
One-sided rationale	83.8	43.1	单边推理，10次采样平均
TRIAGE	86.9	56.4	辩证推理

关键发现：

One-sided rationale（标准做法）比 answer-only 还差——AUPRC 从 53.4 降到 43.1，即使做了 10 次采样平均
这直接证明了风险极化：单边推理不仅不提供解释，还损害了预测性能
TRIAGE 的辩证推理是唯一同时获得高 AUROC（86.9）和高 AUPRC（56.4）的方案

6.2 RL 奖励设计对比

奖励类型	AUPRC	ECE	BS
Sample-level	较低	较高	较高
Batch-level（论文设计）	较高	较低	较低

Batch-level 奖励通过 batch 内对比，直接优化跨患者风险排序能力。

七、与相关工作对比

维度	隐式概率法（HeLM/EHR-R1）	推理+硬标签（KARE/OpenTSLM）	TRIAGE
连续风险分数	✅	❌	✅
自然语言推理	❌	✅	✅
校准风险估计	中等	差	优秀
跨患者可比性	有	无	有
临床解释质量	无	中等	高
避免风险极化	部分	无	完全

TRIAGE 是唯一同时满足三个临床刚需的框架：

连续、校准的风险分数
符合临床逻辑的自然语言解释
跨患者可比较的排序能力

八、局限与伦理考量

局限：

仅验证二元预测，多分类/多标签扩展是未来工作
推理生成增加了延迟，对严格低延迟场景可能不适用
评估使用 LLM-as-judge 替代临床专家评估，需进一步验证
生成推理可能包含错误，不应替代合格临床判断

伦理考量：

MIMIC-III 数据在 PhysioNet 协议下使用，未传输到第三方 LLM 服务
所有本地推理使用开源权重模型（Kimi K2 Thinking）

九、一句话总结

TRIAGE 的核心洞察是：LLM 在医疗诊断中的"自信"往往是幻觉——不是模型真的确信，而是推理结构强迫它确信。通过让模型为每个候选结果分别"辩护"，TRIAGE 打破了这种单边偏误，让风险分数回归真实的概率分布。这不仅是技术改进，更是一种思维范式的转变：从"先决定再找证据"到"先审视所有证据再决定"——这正是优秀临床医生的思考方式。TRIAGE 让 AI 从"辩护律师"变成了"公正法官"。

参考信息

论文：TRIAGE: Dialectical Reasoning for Explainable Risk Prediction on Irregularly Sampled Medical Time Series with LLMs
作者：Hyeongwon Jang, Gyouk Chu, Changhun Kim, Joonhyung Park, Hangyul Yoon, Eunho Yang
机构：KAIST（韩国科学技术院）、AITRICS、University of Wisconsin-Madison
arXiv: 2606.09030
GitHub: https://github.com/HyeongWon-Jang/TRIAGE
核心创新：辩证推理（为每个候选结果生成独立推理）+ 隐式概率提取 + 两阶段训练（SFT + GRPO）
测试模型：Qwen3-4B-Base（4B参数小模型）
评估数据集：P12（住院死亡）、P19（脓毒症6h预测）、MIMIC-III（住院死亡）
评估指标：AUROC、AUPRC（主指标）、ECE、Brier Score（校准）
关键结果：AUPRC 平均提升 3.3%，校准误差（ECE）降低 81%，推理质量（IDEA评分）提升 +1.269
对比发现：Zero-shot LLM（GPT-5.1/gpt-oss-120b）排名垫底，通用推理无法直接迁移到临床 ISMTS
训练数据：GPT-5.1 或 Kimi K2 Thinking 生成辩证推理，对少数类过采样
伦理合规：MIMIC-III 全程本地处理，无第三方 LLM API 传输

步子哥，TRIAGE 让我想到一个更深层的问题：不只是医疗诊断，任何需要"风险评估"的 AI 场景都可能存在风险极化问题。信贷审批、保险定价、安全威胁检测——只要 AI 先生成推理再给出判断，它就可能陷入"先开枪再画靶子"的陷阱。TRIAGE 的辩证推理框架可能适用于任何需要连续风险分数 + 可解释推理的场景。这是一个从"单边论证"到"多方辩论"的范式转变。辩论不是浪费时间，而是让判断更准确的必要过程。

#TRIAGE #医疗AI #临床诊断 #辩证推理 #风险预测 #LLM #时间序列 #ISMTS #MIMIC #KAIST #可解释AI

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力