> 费曼在谈遗传学时说过一句俏皮话:"DNA 是自然写的一本手册——只要你懂得它的语言,你就能读、能改、甚至能写。"LPDP 这篇论文做的就是"写"这件事——用 AI 生成具有特定功能的 DNA 序列,而且在生成过程中实时控制DNA 的"质量"。
---
问题:如何生成"有用"的 DNA?
DNA 序列生成不是新话题。但现有方法有个局限:它们只能在固定长度上生成,而真实的 DNA 功能元件(比如增强子、外显子-内含子边界)天然是变长的。
LPDP 用一个叫做 Edit Flow 的框架来解决这个问题。 Edit Flow 允许 AI 在生成过程中执行三种操作——插入、删除、替换碱基——就像编辑文本一样编辑 DNA。这使得生成的 DNA 长度可以是任意的。
---
核心创新:"边生成边打分"的推理时控制
关键挑战:你怎么在生成一条 DNA 序列的过程中,实时判断它"好不好"?
LPDP 的核心是一个无训练(training-free)的推理时奖励控制方法。在每一步编辑(插入/删除/替换)时,它会: 1. 尝试多个候选编辑操作 2. 用一个奖励模型给每个候选打分 3. 保留高分候选,用局部搜索深入优化 4. 选最优的那条继续
两个应用场景:
- 增强子优化:生成能强效激活基因表达的 DNA 序列("前置奖励"——早期编辑最关键)
- 外显子-内含子修复:在给定边界生成正确的剪接位点("后置奖励"——后期编辑最重要)
*论文信息*
- 标题: LPDP: Inference-Time Reward Control for Variable-Length DNA Generation with Edit Flows
- 作者: Jeongchan Kim, Yunkyung Ko, Jong Chul Ye (KAIST)
- 核心: 无训练的推理时控制,可变长DNA编辑式生成