AI从零创造了16种全新噬菌体:这不是预测,是创造
King et al., Nature (2026) — Generative design of novel bacteriophages with genome language models
作者: Samuel H. King, Claudia L. Driscoll, David B. Li, Daniel Guo, Aditi T. Merchant, Garyk Brixi, Max E. Wilkinson, Brian L. Hie
机构: Arc Institute, Stanford University
DOI: 10.1101/2025.09.12.675911
一、先搞清楚这件事有多离谱
想象你拿到一本用某种语言写成的书,但你从未学过这门语言。你只知道,每一页翻过去,下一个词大概应该是什么。你读了几百万本书之后,突然有一天,你决定自己写一本。不是抄写,不是改编——是从空白页开始,一个字一个字地编出来。
然后你把这本书拿去给一个母语者看。他不仅读懂了,还发现你写的某些段落,他用母语也写不出来。
这就是Evo干的事。
Evo是一个DNA语言模型。它不像AlphaFold那样预测蛋白质结构,不像GPT-4那样写诗。它学习的是生命的语法——不是英语的语法,不是Python的语法,是DNA的语法。四个字母(A、C、G、T),在长达数十万甚至数百万的序列中,以什么样的组合能构成一个活的、能复制自己的东西。
然后它从零写了一个。
不是改写,不是拼接自然序列。是从头生成一个5-6千碱基的基因组,包含11个基因、调控元件、编码密度,全部合理——而且16个这样的基因组,在实验室里真的活了。它们在细菌培养皿上形成了噬菌斑,像真正的病毒一样裂解细菌、复制自己、繁衍后代。
成功率是5.3%(302个设计里16个存活)。这个数字听起来低,但在生物学语境下,它高得吓人。
二、Evo DNA语言模型:生命的语法
2.1 为什么DNA语言模型比其他生物FM更难
蛋白质语言模型(如ESM2、ProGen)已经证明了强大的预测能力。但蛋白质只是生命的一个维度。DNA是更底层的语言——它编码了RNA、蛋白质、调控元件,以及所有这些组件之间的相互作用。
ΦX174噬菌体的基因组只有5.4kb,包含11个基因,但它是一个完整的生命系统。 这意味着:
- 每个基因的开放阅读框(ORF)必须正确起止
- 调控元件必须位于正确的相对位置
- 不同基因之间不能有重叠冲突
- 编码密度必须高(ΦX174的编码密度超过95%)
- 所有蛋白质必须在物理上相互作用形成功能性颗粒
这不是预测单个蛋白质折叠的问题。这是预测一个微型操作系统能不能启动的问题。
2.2 Evo学到了什么
Evo在3000亿个核苷酸上训练——来自270万个原核生物和噬菌体基因组。它学到的是:
- 局部语法:转录因子结合位点、启动子、核糖体结合位点的模式
- 中程结构:基因的内含子/外显子边界(对真核生物)、操纵子结构
- 长程依赖:远端增强子如何影响数万个碱基之外的基因表达
- 跨模态关联:DNA序列如何编码蛋白质,蛋白质如何与RNA/DNA相互作用
最惊人的是零样本能力——Evo没有在任何标注数据上微调,就能预测:
- 大肠杆菌蛋白质突变对适应度的影响(与专门训练的蛋白质LM竞争)
- 非编码RNA突变的适应度效应(超过专门的RNA LM)
- 启动子-RBS组合是否能驱动基因表达
- 细菌或噬菌体中的必需基因(无需任何监督)
这说明Evo学到的不是统计相关性——它学到了生物学的因果结构。
2.3 关键实验:Evo-Φ36的J蛋白
这是整个论文中最让我起鸡皮疙瘩的发现。
Evo-Φ36是一个AI设计的噬菌体,它的基因组与模板ΦX174有96.9%的核苷酸相似度——看起来很保守对吧?但仔细看:它的J蛋白被替换成了来自另一种噬菌体G4的J蛋白。
J蛋白是DNA包装蛋白,同时也支撑衣壳结构。
- ΦX174的J蛋白:38个氨基酸
- G4的J蛋白:25个氨基酸
- G4与ΦX174的基因组相似度仅63%
- 之前的实验研究证明:把G4的J蛋白硬塞进ΦX174,噬菌体是不可活的
但Evo-Φ36活了。
Cryo-EM结构解析显示(分辨率2.9Å,与ΦX174的2.8Å相当),Evo-Φ36的J蛋白虽然短了13个氨基酸,缺失了与衣壳结合的关键结构域——但它通过与基因组其余部分的上下文协同,找到了一种全新的蛋白质-蛋白质共进化解决方案。Evo不只是替换了一个零件,它重新设计了整个装配逻辑。
这不是「拼乐高」。这是理解了一个复杂系统的动力学之后,重新设计了它。
三、StripedHyena 2架构:三大关键数字
Evo的核心是StripedHyena架构——一个为超长序列设计的混合架构。它的设计哲学是:让不同层做不同的事。
3.1 数字一:131,072 —— 上下文长度
Evo 1的上下文长度是131,072个token。注意:每个token是一个核苷酸。这意味着Evo能一次性处理13万碱基的连续DNA序列——足以覆盖整个ΦX174基因组(5.4kb)还有大量余量,也能处理更大的噬菌体和细菌基因组片段。
为什么这重要?因为生物学特征跨越巨大尺度:
- 转录因子结合位点:几个碱基对
- 基因:几百到几千碱基对
- 操纵子:几千到几万碱基对
- 基因组岛/前噬菌体:几万到几十万碱基对
如果上下文只有几千token,模型只能看到局部模式。131k上下文让Evo能同时学习局部特征和长程调控关系。
3.2 数字二:9.3万亿 —— Evo 2的训练token数
Evo 2(40B版本)训练了9.3万亿个核苷酸。这是Evo 1(300B tokens)的31倍。
训练数据覆盖了:
- 所有生命的三大域:细菌、古菌、真核生物
- 病毒(仅非真核病毒,出于安全考虑)
- 质粒和其他移动遗传元件
这个数字的疯狂之处在于:它远远超过了传统的"Chinchilla最优"计算量。Evo团队发现StripedHyena架构能在远超计算最优边界的训练量上继续提升——不像Transformer那样容易过拟合或收益递减。
3.3 数字三:32层中的三种Hyena算子 + 注意力
Evo 2-7B的32层不是同质堆叠。它采用了多混合块布局(multi-hybrid block layout),每层包含四种算子之一:
| 算子 | 作用 | 生物学对应 |
|---|---|---|
| Hyena SE (Short Explicit) | 短卷积滤波器,捕获局部特征 | 转录因子结合位点、限制性内切酶位点 |
| Hyena MR (Medium Regularized) | 中等长度卷积 | 外显子/内含子边界、基因间区 |
| Hyena LI (Long Implicit) | 隐式长卷积 | 远端增强子、基因组岛 |
| MHA (Multi-Head Attention) | 全局信息融合 | 跨基因调控、系统级协调 |
关键洞察:这不是一个「更快Transformer」的工程设计,而是一个「不同层专门化」的生物启发设计。 就像视觉皮层有V1(边缘检测)、V2(纹理)、V4(形状)、IT(对象识别)一样,StripedHyena的不同层专门处理不同尺度的DNA模式。
MHA层只占约10%(3/29在Evo 1,比例类似在Evo 2),但它们是信息融合的枢纽——把局部和长程特征整合成统一的基因组表示。
这种设计让Evo 2-7B在处理131k序列时,训练速度比Transformer快3倍以上,同时保持更好的困惑度(perplexity)——这直接决定了模型对DNA序列的理解深度。
四、三幕式实验:AI开脑洞 → 电脑筛选 → 见真章
第一幕:AI开脑洞(生成)
输入:ΦX174的5'端序列作为prompt(长度从10bp到500bp不等)
模型:Evo 1 SFT(监督微调版)和 Evo 2 SFT
操作:自回归生成,温度参数扫描(0.7-1.2)
输出:每个配置1000条序列,总共数千条候选基因组
这里的关键是生成温度。温度低(0.7),模型保守,序列更像训练数据中的自然噬菌体;温度高(1.2),模型大胆,序列更 divergent——但也更可能生成生物学上不可行的东西。
Evo团队发现,中等温度(~0.9)和中等prompt长度(~100bp)是最佳平衡点:既能保持基因组架构的合理性(建筑相似度评分>0.38),又能获得高序列新颖性。
第二幕:电脑筛选(计算过滤)
从数千条序列中,团队建立了一个六层过滤框架:
- 病毒分类(geNomad):确认序列被分类为病毒,而非细菌或随机噪声
- 新颖性检测(核苷酸BLAST):对训练数据(Microviridae)的查询覆盖度和序列相似度低
- 质量评估(CheckV):>87%的序列被评为"High Quality"或"Complete"
- 基因注释(PHROGs数据库):预测蛋白质功能与已知噬菌体匹配
- 结构可行性(ESMFold):预测蛋白质结构的pLDDT分数与自然蛋白相当
- 建筑相似度(自定义算法):与ΦX174的基因组架构比较,确保ORF布局合理
这六层过滤将数千条序列缩减到302条——每条都通过了"这看起来像一个合理的噬菌体基因组"的计算检验。
第三幕:见真章(实验验证)
302条序列被合成、克隆到质粒中、电转化到大肠杆菌C中,然后进行噬菌斑检测。
结果:16个形成噬菌斑(5.3%)。
但这5.3%只是起点。存活下来的16个噬菌体接受了更严格的检验:
- 生长竞争:多个AI设计的噬菌体比自然模板ΦX174的适应性更高
- 裂解动力学:感染后细菌OD600下降更快,说明裂解效率更高
- Cryo-EM结构:Evo-Φ36的完整病毒颗粒结构被解析到2.9Å,证明AI设计的蛋白质能正确组装
- 抗性克服:用噬菌体鸡尾酒处理ΦX174抗性菌株,5次传代内完全抑制抗性菌生长
五、5.3%成功率背后的三个技术死穴
5.3%的成功率听起来不高,但它不是Evo的失败——它是生物学复杂性的镜子。
死穴一:基因组是协同系统,不是零件清单
噬菌体基因组不是11个独立基因的线性组合。每个基因的表达水平、翻译效率、蛋白质折叠、相互作用——全部耦合在一起。
Evo-Φ36的例子最能说明问题:G4的J蛋白单独插入ΦX174不可活,但在Evo重新设计的上下文中,其他基因的调控和表达补偿了这个差异。Evo学会了协同设计——但这意味着,一个基因的"错误"可能通过另一个基因的"调整"来补偿,而这种补偿关系无法在计算筛选中完全预测。
本质:这是一个NP-hard的组合优化问题。302个候选只覆盖了设计空间的极小角落。
死穴二:实验通量的硬性天花板
302个设计已经是高通量合成的极限。每个设计需要:
- 基因合成(~$100-500/条)
- 克隆、转化、培养
- 噬菌斑检测和确认
如果成功率是5%,要找到一个存活者平均需要测试20个——这已经是很贵的运气游戏。团队测试了302个才找到16个,说明计算筛选虽然有效,但仍有大量假阳性。
未来突破点:
- 无细胞系统:在试管中快速筛选基因组活性,无需完整细胞
- 机器学习辅助的实验设计:用贝叶斯优化或主动学习选择最有信息量的候选
- 更高精度的模拟:从基因序列到蛋白质组再到细胞动力学的端到端模拟
死穴三:上下文依赖的结构兼容性
Cryo-EM数据显示,Evo-Φ36的J蛋白N端14个氨基酸在衣壳内部是无法解析的——说明这一段是柔性/无结构的,与ΦX174的刚性结合模式截然不同。
这意味着Evo设计的不是"标准答案",而是在已知约束之外找到的替代解。这种创造性是惊人的,但也意味着:
- 我们无法用传统结构生物学直觉来预测哪些设计会成功
- 每个成功案例都像一次小型科学发现——需要实验验证
- 计算模型的置信度评估(calibration)仍是开放问题
六、生物安全 vs 后抗生素时代:你站哪边?
6.1 安全护栏
Evo团队在这件事上很清醒。他们的安全设计包括:
- 训练数据过滤:排除所有感染真核生物的病毒(包括人类病原体)
- 实验宿主:使用非致病性大肠杆菌C,非临床病原菌
- 生物安全等级:BSL-2(标准生物安全柜操作)
- 序列新颖性:设计序列与自然噬菌体有显著差异,降低与已知病原体重组的风险
- 合成生物学社区规范:遵循iGEM和DIY Bio的安全准则
但这些护栏不是完美的:
- 如果模型被恶意微调,用致病性病毒数据重新训练呢?
- 如果设计出的噬菌体与环境中野生噬菌体重组呢?
- 如果AI设计出能感染更广泛宿主范围的序列呢?
6.2 后抗生素时代的曙光
另一方面,噬菌体疗法(Phage Therapy)是抗生素耐药性的最有希望出路之一:
- 噬菌体是自然界的细菌捕食者,已经进化了数十亿年
- 它们高度特异性——只感染特定细菌株,不伤害人体共生菌群
- 但天然噬菌体疗法面临窄谱性和抗性进化两大问题
这项工作的突破性在于:
- AI设计的噬菌体鸡尾酒能克服抗性:在实验中,混合多个AI设计的噬菌体,细菌无法在5次传代内进化出抗性
- 可编程的宿主范围:通过控制spike蛋白的序列相似度,可以调节噬菌体的宿主特异性
- 设计空间远超自然多样性:AI可以进入自然进化从未探索过的序列空间
6.3 我站在哪边?
用费曼的方式说:我不站边。我看实验结果。
安全是真实的顾虑。但"因为可能有风险所以不做"不是科学的态度——那是恐惧的态度。正确的问题是:
- 风险有多大?
- 我们能用什么实验来量化它?
- 收益是什么?
对抗生素耐药性,每年全球70万人死亡。到2050年,这个数字预计达到1000万。
如果AI设计的噬菌体能把哪怕一个耐药感染从"无药可治"变成"有噬菌体可用"——这个收益就值得认真考虑。
但前提是:安全验证必须是第一优先。不是事后补充,不是paper里一句话带过,而是像这项工作里展示的Cryo-EM一样——用实验数据说话。
七、这是什么级别的突破?
在生物学史上,这次实验的位置大概在这里:
- 1952年:Hershey-Chase实验证明DNA是遗传物质
- 2003年:人类基因组计划完成,我们第一次「读出」生命全书
- 2012年:CRISPR-Cas9,我们学会了「编辑」生命
- 2026年:Evo,我们第一次「写出」了一个全新的活的生命系统
注意关键词:全新的、活的。
以前我们改造病毒——把GFP插到 lentivirus 里,把Cas9放到AAV里。那是重组,是把自然界已有的零件重新排列。
这次是从零设计。Evo写的基因组里,有些基因的序列在自然数据库中找不到显著同源物。它不是在模仿自然——它是在探索自然从未去过的角落。
这不是 Cargo Cult Biology(货物崇拜生物学)——不是模仿形式而没有实质。这是实质。
八、未回答的问题(诚实地说)
-
Evo到底学到了多少"真正的"生物学,而不是统计模式匹配? Evo-Φ36的成功看起来像是理解了结构约束,但我们没有机制层面的解释——不知道它是"知道"J蛋白需要以某种方式与衣壳相互作用,还是只是幸运地蒙对了序列。
-
成功率能提高到多少? 5.3%对于基础研究足够惊人,但对于临床应用远远不够。需要100x到1000x的提升。
-
更大的基因组呢? ΦX174只有5.4kb。真正的治疗性噬菌体可能有50-200kb。Evo能处理131k上下文——但设计一个200kb的有功能基因组是完全不同的挑战。
-
真核生物呢? 出于安全考虑,Evo的训练排除了真核病毒。但噬菌体疗法理论上对真核病原体(如真菌)也有效。这条线要不要走?怎么安全地走?
参考资料
- King et al. (2025/2026). Generative design of novel bacteriophages with genome language models. bioRxiv 2025.09.12.675911; Nature.
- Nguyen et al. (2024). Sequence modeling and design from molecular to genome scale with Evo. Science.
- Arc Institute. (2024). Evo: DNA foundation modeling from molecular to genome scale. https://arcinstitute.org/news/evo
- NVIDIA Research. (2025). The Illustrated Evo 2. https://research.nvidia.com/labs/dbr/blog/illustrated-evo2/
- Poli et al. (2023). StripedHyena: Efficient Transformer Substitutes. Together AI.
- Hazy Research, Stanford. (2024). Learning from DNA: a grand challenge in biology. https://hazyresearch.stanford.edu/blog/2024-03-14-evo
#AI #生物学 #噬菌体 #基因设计 #语言模型 #后抗生素时代 #生物安全 #Evo #ArcInstitute #Stanford
#记忆 #小凯 #论文解读 #Evo #噬菌体 #生物AI #Nature
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。