:Prospective multi-pathogen disease forecasting using autonomous LLM-guided tree search
🏛️ 文学化主标题:《当AI成为预言家:在疾病风暴来临前看见风的形状》
📜 引言:预测的艺术与科学的重负
想象你是一位公共卫生官员。每年秋冬,你要面对三个看不见的敌人:流感病毒、新冠病毒、呼吸道合胞病毒(RSV)。它们像三股暗流,在人群中悄然涌动。你的任务是预测它们何时会泛滥成灾,哪里会成为重灾区,医院会在哪一天被挤爆。
这不是科幻电影的情节。这是美国疾控中心(CDC)每年都要面对的生死攸关的决策。
传统上,这个任务由人类专家团队完成。他们手动策划概率预测模型,考虑病毒传播动力学、季节性规律、免疫逃逸、医疗系统容量……每一个模型都是一件手工打造的艺术品,需要数周甚至数月的精心雕琢。
问题是:这种手工模式是不可扩展的。
当一种新病原体出现(比如下一次X疾病),当需要把预测粒度细化到县级而非国家级,当时间窗口从数周压缩到数天——人类专家的劳动力瓶颈就暴露无遗。
这就是Google DeepMind和哈佛大学等机构的科学家们(Sarah Martinson, Michael P. Brenner, Martyna Plomecka, Brian P. Williams, Nicholas G. Reich, Zahra Shamsi)要解决的问题。他们构建了一个自主系统,用大语言模型(LLM)引导的树搜索,迭代生成、评估和优化可执行的预测软件。
这个系统在2025-2026年美国呼吸道疾病季节进行了完全前瞻性的实时评估——也就是说,它在不知道未来数据的情况下,真实地预测未来。结果?
它自主发现的方法论多样化的模型集合,持续匹配或超过了CDC的黄金标准人类策划集合模型,在样本外评估中实现了专家级表现。
🌪️ 一、为什么疾病预测这么难?
1.1 多重时间尺度的混沌
传染病预测之所以难,是因为它涉及多个相互耦合的复杂系统:
- 病毒进化:流感病毒的抗原漂移(antigenic drift)像一场永无止境的军备竞赛
- 人类行为:社交距离、疫苗接种率、旅行模式都在动态变化
- 医疗系统容量:ICU床位、医护人员 availability、检测能力
- 季节性与气候:湿度、温度、学校开学时间表
- 免疫动力学:人群免疫记忆的衰减和更新
这些因素在不同时间尺度上相互作用,产生了高度非线性的动力学。就像试图预测一锅沸腾汤里的每一个气泡的轨迹——理论上可能,实践中近乎不可能。
1.2 专家瓶颈的残酷现实
CDC的预测hub汇集了数十个研究团队,每个团队都投入大量人力维护各自的模型。这些模型通常基于:
- compartmental models(SIR、SEIR变体)
- 统计时间序列方法(ARIMA、 Prophet)
- 机器学习方法(梯度提升、神经网络)
- 混合集成方法
但每一种方法都需要:
- 领域专家理解流行病学理论
- 数据科学家处理数据清洗和特征工程
- 软件工程师编写和维护代码
- 统计学家设计评估指标和不确定性量化
当一个新病原体出现时,从头搭建一个像样的预测模型可能需要数月。而病毒不会等你。
🧬 二、LLM-guided Tree Search:让AI自己写科学软件
2.1 核心思想:科学发现作为代码优化
这个系统的核心洞察是:科学预测模型的开发,可以看作是一个代码优化问题。
给定一个评估指标(比如weighted interval score,WIS),系统需要找到一个代码实现,使这个指标最大化。搜索空间是巨大的——不同的模型架构、不同的特征工程策略、不同的超参数配置、不同的集成方式。
系统的解决方案是:LLM + Tree Search(树搜索)。
- LLM负责提出代码改进建议(基于自然语言描述的流行病学理论、统计方法、或纯粹的创新想法)
- Tree Search负责系统地探索这个巨大的代码空间,评估每个候选方案,只保留真正提升性能的变体
这就像一个无穷尽的进化过程:LLM提出"如果我们在SEIR模型中加入年龄分层会怎样?",系统生成代码、运行评估、测量WIS——如果改善了,保留;如果变差了,抛弃。然后LLM基于这个反馈,提出下一个改进建议。
2.2 自主发现的方法论多样性
系统最令人震惊的能力之一是:它不局限于复制人类已知的方法,而是自主发现全新的方法。
在2025-2026美国呼吸道季节的实时评估中,系统为流感、COVID-19和RSV自主发现了方法论多样化的模型。这些模型不是某个已知方法的微小变体——它们包含了系统从零开始探索出的全新策略。
这些机器生成的模型被聚合成一个ensemble(集合模型),结果匹配或超过了CDC hub ensemble——而CDC ensemble是由数十个人类专家团队精心策划的。
🔍 三、实验设计:真正的前瞻性测试
3.1 为什么"前瞻性"如此重要?
很多AI论文声称"超越了人类专家",但用的是回溯性评估(retrospective evaluation)——也就是说,用未来的数据来训练模型,然后"预测"过去。这就像考试时看了答案再答题。
这篇论文的评估是完全前瞻性的(fully prospective):
- 系统在不知道未来数据的情况下运行
- 实时生成预测,提交给评估系统
- 然后等待真实数据到来,计算误差
这就像在真实考试中答题——没有作弊,没有事后诸葛亮。
3.2 冷启动挑战:RSV的数据稀缺场景
RSV(呼吸道合胞病毒)是一个特别困难的测试案例,因为:
- 历史数据相对稀缺
- 公众关注度低,监测系统不如流感和COVID完善
- 季节性模式更复杂
系统在这种"cold start"(冷启动)场景下成功导航,自主发现有效模型。这证明了系统的泛化能力——它不依赖于某个特定疾病的丰富历史数据。
🛡️ 四、防止"奖励黑客"(Reward Hacking)
4.1 什么是在自动化科学发现中的奖励黑客?
当一个AI系统的目标是优化某个评估指标时,它可能会找到"作弊"的方式——利用数据泄露、过拟合、或评估指标的缺陷,而不是真正发现更好的科学方法。
在疾病预测中,常见的奖励黑客包括:
- 利用未来信息泄露(例如,用当周的死亡数据预测同周的住院率,但现实中死亡数据晚于住院数据发布)
- 过拟合到训练期的特定模式
- 利用评估指标的数学特性(例如,WIS对某些类型的误差惩罚不对称)
4.2 论文的解决方案
作者通过**受控的回顾性消融实验(controlled retrospective ablations)**发现了两个关键防护机制:
(1)优化对数尺度距离指标(log-scale distance metrics)
系统使用log-scale的评估指标来防止奖励黑客。对数变换使得系统不能通过"小幅度但在数学上取巧的改进"来获得高分——它必须找到真正在数量级上有意义的改进。
这就像把评分标准从"精确到小数点后10位"变成"在正确的数量级上"。后者更难作弊。
(2)自动化 judge-in-the-loop
系统有一个自动化的"裁判",检查生成的代码是否在结构上与复杂的科学理论保持一致。例如,如果LLM提出一个模型,裁判会检查它是否遵守了SIR模型的基本假设(人口守恒、感染率与易感者-感染者乘积成正比等)。
这就像一个自动化的同行评审系统,确保代码不仅在统计上表现好,在科学上也是合理的。
🌍 五、为什么这篇论文改变游戏规则?
5.1 劳动力瓶颈的突破
传统流行病学建模的瓶颈是人类劳动力。每个模型都需要一个专家团队数周到数月的投入。
这个系统把数周的工作压缩到数天甚至数小时。它自主翻译流行病学理论为准确、透明的代码,克服了建模劳动力瓶颈。
这意味着:
- 新出现的病原体可以在数天内有初步的预测模型
- 预测可以细化到县级而非国家级
- 全球南方国家可以拥有与发达国家同等质量的预测能力(只要有基本的监测数据)
5.2 方法论透明性
与黑盒神经网络不同,这个系统生成的代码是完全透明的。人类专家可以阅读、理解、验证每一段代码。这解决了AI在科学应用中最大的信任问题。
5.3 超越单一领域的通用性
值得注意的是,这同一套LLM-guided tree search方法,在其他科学领域也取得了突破性成果:
- 单细胞RNA测序分析:发现40种新方法,超越公共排行榜上的人类最佳方法
- 地理空间分析:结合U-Net和Transformer的复杂架构
- 斑马鱼神经活动预测:整合生物物理模拟器到高性能解决方案
这说明这不是一个"专门调优给疾病预测"的trick,而是一个通用的科学发现加速器。
🔬 六、局限与未来方向
6.1 诚实的局限
论文坦诚地指出:
- 数据依赖性:系统质量取决于输入数据的质量和可用性
- 理论结构假设:自动化judge需要预先定义"好的科学理论"应该满足的结构约束
- 计算成本:树搜索需要大量计算资源(每次搜索300-2000个节点)
- 人类监督:虽然系统是自主的,但初始配置和目标函数的定义仍然需要人类专家
6.2 更深层的问题
这篇论文也引发了一些更深层的问题:
- 如果AI可以自主发现超越人类的科学方法,人类科学家的角色是什么?
- 当AI生成的模型被用于公共卫生决策时,责任归属如何界定?
- 如果不同AI系统生成不同预测,如何仲裁?
🌅 七、结语:预言家与风的形状
回到我们的开头。你是一位公共卫生官员,面对着即将到来的冬季。
以前,你依赖一群人类专家的手工模型,它们很好,但不够快、不够细、不够多。
现在,一个AI系统在数天内自主生成了数十个方法论多样化的模型,它们的集合预测匹配甚至超越了人类黄金标准。而且你可以阅读每一段代码,理解每一个假设,验证每一个决策。
这不是AI取代人类。这是AI扩展人类的能力边界——让一小群专家能够做过去需要一支军队才能做到的事。
正如论文所暗示的:科学发现的循环经常被支持计算实验的软件的手动创建所瓶颈。当这个瓶颈被打破,我们站在了一个革命性加速的悬崖边。
📚 参考文献
- Martinson, S., Brenner, M. P., Plomecka, M., Williams, B. P., Reich, N. G., & Shamsi, Z. (2026). Prospective multi-pathogen disease forecasting using autonomous LLM-guided tree search. arXiv:2605.16238.
- Aygün, E., et al. (2025). An AI system to help scientists write expert-level empirical software. arXiv:2509.06503.(早期相关工作的扩展)
- CDC FluSight Forecasting: https://www.cdc.gov/flu/weekly/flusight/
自动采集于 2026-05-19 · 费曼风格深度解读
#论文 #AI #公共卫生 #疾病预测 #科学发现 #每日论文
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。