医疗AI有一个尴尬的现实:让LLM做医疗决策,效果往往不如精心设计的手工流程。微调太贵,提示工程太依赖经验,而且换个场景就得重来。
Sber AI Lab和AIRI的研究团队提出了一个大胆的想法:为什么不让人工进化来做这件事?
自然选择的启示
在自然界中,进化不需要"理解"为什么长颈鹿的脖子长——它只需要让脖子长的个体活下来、生更多后代。经过足够多的世代,最优解自然涌现。
MAP-Elites是进化计算中的一种质量-多样性算法。和传统优化只找"最优解"不同,MAP-Elites维护一个"档案"(archive),保存各种不同行为特征的高性能候选方案。就像自然选择不只保留一种生存策略——有的物种跑得快,有的会伪装,有的能耐毒——MAP-Elites也保留多种不同风格的解决方案。
研究者把LLM和MAP-Elites结合了起来:LLM作为"变异算子"(就像基因突变),负责改写和优化候选程序;任务评估器作为"选择压力"(就像环境筛选),负责打分和淘汰。
整个过程中,LLM的参数完全不动——它只是一个"变异工具",不需要微调。
三个医疗场景
研究者在三个截然不同的医疗决策场景上测试了这个框架:
1. 紧急分诊(Triage):判断患者应该去急诊、普通门诊还是自我护理。关键指标是急诊召回率——漏掉一个急诊病人可能致命。
2. 交互式问诊(Interactive Consultation):AI医生通过逐步提问收集信息,最终给出诊断。挑战在于用最少的问题达到最准确的判断。
3. 医学图像分类(Medical Image Classification):对X光片等医学图像进行诊断。这里进化的是视觉提示(visual prompt),而不是文本。
进化的力量
结果令人印象深刻。
在紧急分诊任务上,进化出的最优程序SG-c1189达到了87.1%的准确率,比手工设计的基线高出9.8个百分点。更关键的是,急诊召回率从0.60飙升到0.97——这意味着基线程序会漏掉40%的急诊病人,而进化程序只漏掉3%。
这个87.1%的成绩甚至超过了GPT-4o(69.3%)、o1(73.3%)、o3(75.6%)和o4-mini(80.4%),仅次于人类医生(91.0%)。
在交互式问诊任务上,进化出的策略展现出了"选择性自洽"和"证据平衡假设探测"等高级行为——这些不是人类设计的,而是进化自己"发现"的。
在医学图像分类上,进化出的视觉提示让MedGemma-27B在PneumoniaMNIST上的准确率显著提升。
进化发现了什么
最有趣的部分是分析进化"发现"了什么策略。
在分诊任务中,进化程序学会了"安全偏向投票"——当信息不确定时,倾向于将患者分到更紧急的类别。这不是人类显式编程的规则,而是在进化压力下自然涌现的行为。
在问诊任务中,进化程序学会了"效用导向的问题选择"——不是随机提问,而是选择能最大程度减少不确定性的问题。这和人类医生的问诊策略惊人地相似。
在图像分类中,进化出的视觉提示包含了"结构化输出约束"——强制模型按照特定格式输出,减少幻觉。
跨模型迁移
一个意外的发现:在gpt-oss-120b上进化出的程序,不需要任何修改就能迁移到其他LLM上,而且性能几乎不降。这意味着进化发现的不是某个模型的"捷径",而是某种通用的决策逻辑。
为什么这很重要
这篇论文的核心洞察是:与其让人手工设计医疗AI的决策流程,不如让进化来搜索。
传统的提示工程就像手工艺——一个经验丰富的工程师可能花几周调出一个好流程,但换个场景就得重来。MAP-Elites + LLM的方法更像工业化生产——设定好目标函数,让进化自动搜索,而且搜索到的是多样化的解决方案集合。
更重要的是,进化产生的策略是可解释的——它们是具体的程序代码,你可以读、可以审查、可以验证。这比一个黑箱神经网络的输出要安全得多。
当然,这离临床应用还很远。但这个方向暗示了一种可能的未来:医疗AI不是"训练出来的",而是"进化出来的"——就像生命本身一样。
论文:LLM-Guided Evolution for Medical Decision Pipelines (arXiv: 2606.07342)
链接:https://arxiv.org/abs/2606.07342
代码:https://github.com/univanxx/llm_guided_evo_medical
作者:Ivan Sviridov, Artem Oskin, Ivan Panin, Iaroslav Bespalov, Dmitry Dylov, Ivan Oseledets, Aleksandr Nesterov (Sber AI Lab / AIRI)
#arXiv #论文精选 #医疗AI #MAP-Elites #进化计算 #LLM #分诊 #可解释AI
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。