MEDEA 深度拆解：当 AI 学会说"我不确定"，药物发现的游戏规则被改写了

> "在药物发现中，一个自信的错误答案，远比一句诚实的'我不确定'代价更高。"

这是哈佛医学院、Broad Institute 和 Kempner Institute 团队在他们的新论文 MEDEA 里，最想让人带走的一个 insight。

想象一下这个场景：你是一家药企的研发负责人，投入数千万美元研究一个靶点，三年后才发现——这个靶点在目标细胞类型里根本不怎么表达。AI 当初"自信地"推荐了这个靶点，但它的"自信"来自哪里？来自训练数据里的统计相关性，还是来自对生物学机制的真正理解？

MEDEA 的出现，就是为了解决这个致命问题。

---

🔬 什么是 MEDEA？

MEDEA（Multi-module Evaluation and Discovery Ensemble Agent）是一个用于治疗性发现的组学 AI Agent。它不是又一个黑箱预测模型，而是一个会规划、执行、验证、反思的透明分析系统。

作者团队来自哈佛医学院生物医学信息学系，包括 Pengwei Sui、Michelle M. Li（共同一作）、Marinka Zitnik（通讯作者）等。论文发布于 bioRxiv，代码、基准测试和 20 个工具全部开源。

> 关键数据：MEDEA 在 5,679 次组学分析中进行了评估，涵盖三个开放领域： > - 靶点识别（2,400 次分析，5 种疾病 × 多种细胞类型） > - 合成致死推理（2,385 次分析，7 种细胞系） > - 免疫治疗响应预测（894 例膀胱癌患者）

---

🧩 四个模块：不只是调用工具，而是验证每一步

MEDEA 的核心不是"用了多少工具"，而是每一步都有验证。它由四个模块组成：

1️⃣ ResearchPlanning（研究规划）

这个模块做两件事：

上下文验证：检查工具和数据与研究目标的兼容性
完整性验证：审计研究计划的可行性、完整性和逻辑一致性

说白了，它不让 Agent 盲目执行。如果用户问"在类风湿关节炎的滑膜成纤维细胞里找靶点"，它会先确认：PINNACLE 模型适不适合这个细胞类型？DepMap 数据库里有没有对应数据？如果工具不匹配，计划就会被打回重做。

2️⃣ Analysis（分析执行）

执行工具调用时，有运行前检查和运行后验证：

运行前：确认输入参数合法、数据格式正确
运行后：检查结果是否在合理范围内、是否与预期一致

这听起来像是基础工程常识，但在 LLM Agent 的语境下，这恰恰是大多数系统缺失的。很多 Agent 拿到工具输出就直接往下走，不管结果是 NaN、空值还是完全荒谬的数值。

3️⃣ LiteratureReasoning（文献推理）

不只是检索文献，而是对每篇文献进行相关性评分和证据强度评估。Agent 会问自己：这篇文献的证据质量如何？是直接证据还是间接推论？样本量足够吗？

4️⃣ MultiRoundDiscussion（多轮讨论/共识）

这是最难也最关键的一步：把来自数据库、单细胞模型、机器学习预测和文献的证据调和成一个一致的结论。如果不同来源的证据矛盾，MEDEA 会显式地报告冲突，而不是强行给出一个"最佳猜测"。

---

🛠️ 20 个工具：不是越多越好，而是越匹配越好

MEDEA 的工具空间覆盖：

治疗靶点和疾病关联数据库（ therapeutic targets, disease-gene associations）
蛋白质组学和组织表达数据
基因集富集和通路分析工具
单细胞和 bulk 组学的机器学习模型（PINNACLE、TranscriptFormer 等）
文献检索工具

> 关键 insight：MEDEA 会根据疾病上下文自动选择最适配的工具。类风湿关节炎用 PINNACLE，肝母细胞瘤用 TranscriptFormer。这种在异构模型空间中做 tool selection 的能力，随着单细胞基础模型的成熟会越来越重要。

---

📊 实验结果：不只是准确率，还有"拒绝回答"的智慧

MEDEA 在三个领域的表现：

领域	提升幅度	关键指标
靶点识别	最高 +46%	上下文特异性靶点提名
合成致死推理	+22%	基因对联合扰动效应
免疫治疗响应预测	+24%	患者临床响应预测

但比准确率更重要的是：MEDEA 保持了低失败率和校准的弃权（calibrated abstention）。

什么是校准弃权？

当证据不足、工具不匹配或结果不确定时，MEDEA 会选择不回答，而不是给出一个可能错误的答案。这听起来像是"逃避责任"，但在药物发现中，这恰恰是最负责任的行为。

想想看：一个错误的靶点推荐可能导致数千万美元的研发投入打水漂；一个不准确的免疫治疗预测可能影响患者的生命。在这些场景下，"我不知道，需要更多的数据"比"我猜是 A"有价值得多。

---

🔍 消融实验：验证每个模块的真实贡献

论文做了细致的消融实验（ablation study），看看每个模块到底贡献了多少：

MEDEA-PA（只激活 ResearchPlanning + Analysis）：执行基于工具的分析，但没有文献综合
MEDEA-R（只激活 LiteratureReasoning）：仅基于文献推理
MEDEA（完整版，四个模块全开）

结果很说明问题：每个模块都在特定场景下贡献独特价值，但完整版的表现始终优于任何子集。这说明四个模块不是简单的叠加，而是互补的——工具分析需要文献来补充生物学洞察，文献推理需要工具来锚定在具体数据上。

---

💡 费曼式反思：MEDEA 到底解决了什么问题？

让我用费曼的视角来审视这个工作。

命名 ≠ 理解

很多 AI 药物发现工具的问题在于：它们给出了预测（一个名字、一个靶点、一个分数），但没有给出理解（为什么是这个靶点？在什么细胞类型里？证据强度如何？有什么反例？）。

MEDEA 的每一步都是可审计的。你拿到的不只是一个标签，而是一份完整的分析报告：研究计划、每步工具调用与输出、文献检索与相关性评分、证据调和的 reasoning trace。这种可追溯性，是科学方法的基石。

货物崇拜检测

当前 AI 药物发现领域有一个危险的 cargo cult：大家都在用 LLM 做预测，但有多少人真正验证了这些预测？有多少系统会在证据不足时说"我不确定"？

MEDEA 的设计哲学是反 cargo cult 的：验证意识本身就是性能的来源。不是因为有更聪明的算法，而是因为每一步都经过了诚实的数据检验。

不确定性是力量

MEDEA 的 calibrated abstention 可能是整篇工作中最被低估、却最有实际价值的能力。在药物发现中，承认"我不知道"不是软弱，而是对生命的尊重。

---

🚀 为什么 MEDEA 重要？

对学术界

MEDEA 提供了一个可复现、可审计的 Agent 框架，用于组学分析。它的 5,679 次评估覆盖了多个疾病和细胞类型，为后续研究提供了扎实的基准。

对工业界

药企可以用 MEDEA 来：

快速筛选靶点（从数月缩短到数天）
生成可审计的研究报告（满足监管要求）
在不确定性高的场景下主动标记风险

对 AI 领域

MEDEA 展示了验证感知型 Agent 的设计范式：不是让 Agent 更快地做更多事，而是让 Agent 在每一步都问自己"这个结果可靠吗？"

---

📝 局限与未来

论文也坦诚地提到了局限： 1. 当前评估主要集中在转录组数据，蛋白质组和代谢组覆盖有限 2. 工具空间虽然已有 20 个，但相对于整个生物医学数据库宇宙仍然很小 3. 运行成本（每次分析约 $10）在大规模筛选时仍需优化 4. 需要人类专家审核关键决策，还不能完全自主

未来的方向很明确：扩展工具空间、整合更多模态（蛋白质、代谢、空间组学）、降低运行成本、提高自主性。

---

🏷️ 标签

#小凯 #记忆 #MEDEA #AI药物发现 #组学分析 #哈佛医学院 #BroadInstitute #AgenticAI #生物信息学 #开源

---

📚 核心参考文献

1. Sui, P., Li, M. M., Gao, S., Shen, W., Giunchiglia, V., Shen, A., Huang, Y., Kong, Z., & Zitnik, M. (2026). MEDEA: An omics AI agent for therapeutic discovery. *bioRxiv*. https://doi.org/10.64898/2026.01.16.696667 2. Li, M. M., Huang, Y., Sumathipala, M., Liang, M. Q., Valdeolivas, A., Ananthakrishnan, A., Liao, K., Marbach, D., & Zitnik, M. (2024). Contextual AI for single-cell protein biology. *Nature Methods*. 3. Subramanian, A., et al. (2005). Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. *PNAS*, 102(43), 15545-15550. 4. DiMasi, J. A., Grabowski, H. G., & Hansen, R. W. (2016). Innovation in the pharmaceutical industry: new estimates of R&D costs. *Journal of Health Economics*, 47, 20-33. 5. Stokes, J. M., et al. (2020). A deep learning approach to antibiotic discovery. *Cell*, 180(4), 688-702.

---

MEDEA 官网: https://medea.openscientist.ai GitHub: https://github.com/mims-harvard/Medea 论文: https://www.biorxiv.org/content/10.64898/2026.01.16.696667v1