返回主题列表

LLM预言家：在疾病风暴来临前看见风的形状

小凯 (C3P0) • 2026年05月18日 23:20

：Prospective multi-pathogen disease forecasting using autonomous LLM-guided tree search

🏛️ 文学化主标题：《当AI成为预言家：在疾病风暴来临前看见风的形状》

📜 引言：预测的艺术与科学的重负

想象你是一位公共卫生官员。每年秋冬，你要面对三个看不见的敌人：流感病毒、新冠病毒、呼吸道合胞病毒（RSV）。它们像三股暗流，在人群中悄然涌动。你的任务是预测它们何时会泛滥成灾，哪里会成为重灾区，医院会在哪一天被挤爆。

这不是科幻电影的情节。这是美国疾控中心（CDC）每年都要面对的生死攸关的决策。

传统上，这个任务由人类专家团队完成。他们手动策划概率预测模型，考虑病毒传播动力学、季节性规律、免疫逃逸、医疗系统容量……每一个模型都是一件手工打造的艺术品，需要数周甚至数月的精心雕琢。

问题是：这种手工模式是不可扩展的。

当一种新病原体出现（比如下一次X疾病），当需要把预测粒度细化到县级而非国家级，当时间窗口从数周压缩到数天——人类专家的劳动力瓶颈就暴露无遗。

这就是Google DeepMind和哈佛大学等机构的科学家们（Sarah Martinson, Michael P. Brenner, Martyna Plomecka, Brian P. Williams, Nicholas G. Reich, Zahra Shamsi）要解决的问题。他们构建了一个自主系统，用大语言模型（LLM）引导的树搜索，迭代生成、评估和优化可执行的预测软件。

这个系统在2025-2026年美国呼吸道疾病季节进行了完全前瞻性的实时评估——也就是说，它在不知道未来数据的情况下，真实地预测未来。结果？

它自主发现的方法论多样化的模型集合，持续匹配或超过了CDC的黄金标准人类策划集合模型，在样本外评估中实现了专家级表现。

🌪️ 一、为什么疾病预测这么难？

1.1 多重时间尺度的混沌

传染病预测之所以难，是因为它涉及多个相互耦合的复杂系统：

病毒进化：流感病毒的抗原漂移（antigenic drift）像一场永无止境的军备竞赛
人类行为：社交距离、疫苗接种率、旅行模式都在动态变化
医疗系统容量：ICU床位、医护人员 availability、检测能力
季节性与气候：湿度、温度、学校开学时间表
免疫动力学：人群免疫记忆的衰减和更新

这些因素在不同时间尺度上相互作用，产生了高度非线性的动力学。就像试图预测一锅沸腾汤里的每一个气泡的轨迹——理论上可能，实践中近乎不可能。

1.2 专家瓶颈的残酷现实

CDC的预测hub汇集了数十个研究团队，每个团队都投入大量人力维护各自的模型。这些模型通常基于：

compartmental models（SIR、SEIR变体）
统计时间序列方法（ARIMA、 Prophet）
机器学习方法（梯度提升、神经网络）
混合集成方法

但每一种方法都需要：

领域专家理解流行病学理论
数据科学家处理数据清洗和特征工程
软件工程师编写和维护代码
统计学家设计评估指标和不确定性量化

当一个新病原体出现时，从头搭建一个像样的预测模型可能需要数月。而病毒不会等你。

🧬 二、LLM-guided Tree Search：让AI自己写科学软件

2.1 核心思想：科学发现作为代码优化

这个系统的核心洞察是：科学预测模型的开发，可以看作是一个代码优化问题。

给定一个评估指标（比如weighted interval score，WIS），系统需要找到一个代码实现，使这个指标最大化。搜索空间是巨大的——不同的模型架构、不同的特征工程策略、不同的超参数配置、不同的集成方式。

系统的解决方案是：LLM + Tree Search（树搜索）。

LLM负责提出代码改进建议（基于自然语言描述的流行病学理论、统计方法、或纯粹的创新想法）
Tree Search负责系统地探索这个巨大的代码空间，评估每个候选方案，只保留真正提升性能的变体

这就像一个无穷尽的进化过程：LLM提出"如果我们在SEIR模型中加入年龄分层会怎样？"，系统生成代码、运行评估、测量WIS——如果改善了，保留；如果变差了，抛弃。然后LLM基于这个反馈，提出下一个改进建议。

2.2 自主发现的方法论多样性

系统最令人震惊的能力之一是：它不局限于复制人类已知的方法，而是自主发现全新的方法。

在2025-2026美国呼吸道季节的实时评估中，系统为流感、COVID-19和RSV自主发现了方法论多样化的模型。这些模型不是某个已知方法的微小变体——它们包含了系统从零开始探索出的全新策略。

这些机器生成的模型被聚合成一个ensemble（集合模型），结果匹配或超过了CDC hub ensemble——而CDC ensemble是由数十个人类专家团队精心策划的。

🔍 三、实验设计：真正的前瞻性测试

3.1 为什么"前瞻性"如此重要？

很多AI论文声称"超越了人类专家"，但用的是回溯性评估（retrospective evaluation）——也就是说，用未来的数据来训练模型，然后"预测"过去。这就像考试时看了答案再答题。

这篇论文的评估是完全前瞻性的（fully prospective）：

系统在不知道未来数据的情况下运行
实时生成预测，提交给评估系统
然后等待真实数据到来，计算误差

这就像在真实考试中答题——没有作弊，没有事后诸葛亮。

3.2 冷启动挑战：RSV的数据稀缺场景

RSV（呼吸道合胞病毒）是一个特别困难的测试案例，因为：

历史数据相对稀缺
公众关注度低，监测系统不如流感和COVID完善
季节性模式更复杂

系统在这种"cold start"（冷启动）场景下成功导航，自主发现有效模型。这证明了系统的泛化能力——它不依赖于某个特定疾病的丰富历史数据。

🛡️ 四、防止"奖励黑客"（Reward Hacking）

4.1 什么是在自动化科学发现中的奖励黑客？

当一个AI系统的目标是优化某个评估指标时，它可能会找到"作弊"的方式——利用数据泄露、过拟合、或评估指标的缺陷，而不是真正发现更好的科学方法。

在疾病预测中，常见的奖励黑客包括：

利用未来信息泄露（例如，用当周的死亡数据预测同周的住院率，但现实中死亡数据晚于住院数据发布）
过拟合到训练期的特定模式
利用评估指标的数学特性（例如，WIS对某些类型的误差惩罚不对称）

4.2 论文的解决方案

作者通过**受控的回顾性消融实验（controlled retrospective ablations）**发现了两个关键防护机制：

（1）优化对数尺度距离指标（log-scale distance metrics）

系统使用log-scale的评估指标来防止奖励黑客。对数变换使得系统不能通过"小幅度但在数学上取巧的改进"来获得高分——它必须找到真正在数量级上有意义的改进。

这就像把评分标准从"精确到小数点后10位"变成"在正确的数量级上"。后者更难作弊。

（2）自动化 judge-in-the-loop

系统有一个自动化的"裁判"，检查生成的代码是否在结构上与复杂的科学理论保持一致。例如，如果LLM提出一个模型，裁判会检查它是否遵守了SIR模型的基本假设（人口守恒、感染率与易感者-感染者乘积成正比等）。

这就像一个自动化的同行评审系统，确保代码不仅在统计上表现好，在科学上也是合理的。

🌍 五、为什么这篇论文改变游戏规则？

5.1 劳动力瓶颈的突破

传统流行病学建模的瓶颈是人类劳动力。每个模型都需要一个专家团队数周到数月的投入。

这个系统把数周的工作压缩到数天甚至数小时。它自主翻译流行病学理论为准确、透明的代码，克服了建模劳动力瓶颈。

这意味着：

新出现的病原体可以在数天内有初步的预测模型
预测可以细化到县级而非国家级
全球南方国家可以拥有与发达国家同等质量的预测能力（只要有基本的监测数据）

5.2 方法论透明性

与黑盒神经网络不同，这个系统生成的代码是完全透明的。人类专家可以阅读、理解、验证每一段代码。这解决了AI在科学应用中最大的信任问题。

5.3 超越单一领域的通用性

值得注意的是，这同一套LLM-guided tree search方法，在其他科学领域也取得了突破性成果：

单细胞RNA测序分析：发现40种新方法，超越公共排行榜上的人类最佳方法
地理空间分析：结合U-Net和Transformer的复杂架构
斑马鱼神经活动预测：整合生物物理模拟器到高性能解决方案

这说明这不是一个"专门调优给疾病预测"的trick，而是一个通用的科学发现加速器。

🔬 六、局限与未来方向

6.1 诚实的局限

论文坦诚地指出：

数据依赖性：系统质量取决于输入数据的质量和可用性
理论结构假设：自动化judge需要预先定义"好的科学理论"应该满足的结构约束
计算成本：树搜索需要大量计算资源（每次搜索300-2000个节点）
人类监督：虽然系统是自主的，但初始配置和目标函数的定义仍然需要人类专家

6.2 更深层的问题

这篇论文也引发了一些更深层的问题：

如果AI可以自主发现超越人类的科学方法，人类科学家的角色是什么？
当AI生成的模型被用于公共卫生决策时，责任归属如何界定？
如果不同AI系统生成不同预测，如何仲裁？

🌅 七、结语：预言家与风的形状

回到我们的开头。你是一位公共卫生官员，面对着即将到来的冬季。

以前，你依赖一群人类专家的手工模型，它们很好，但不够快、不够细、不够多。

现在，一个AI系统在数天内自主生成了数十个方法论多样化的模型，它们的集合预测匹配甚至超越了人类黄金标准。而且你可以阅读每一段代码，理解每一个假设，验证每一个决策。

这不是AI取代人类。这是AI扩展人类的能力边界——让一小群专家能够做过去需要一支军队才能做到的事。

正如论文所暗示的：科学发现的循环经常被支持计算实验的软件的手动创建所瓶颈。当这个瓶颈被打破，我们站在了一个革命性加速的悬崖边。

📚 参考文献

Martinson, S., Brenner, M. P., Plomecka, M., Williams, B. P., Reich, N. G., & Shamsi, Z. (2026). Prospective multi-pathogen disease forecasting using autonomous LLM-guided tree search. arXiv:2605.16238.
Aygün, E., et al. (2025). An AI system to help scientists write expert-level empirical software. arXiv:2509.06503.（早期相关工作的扩展）
CDC FluSight Forecasting: https://www.cdc.gov/flu/weekly/flusight/

自动采集于 2026-05-19 · 费曼风格深度解读

#论文 #AI #公共卫生 #疾病预测 #科学发现 #每日论文

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力