蛋白质结构测定有一个经典的相位问题。X 射线晶体学实验能测出衍射强度(每个方向的 X 射线被晶体折射了多少),但丢失了相位信息——没有相位就不能重建电子密度图,没有电子密度图就不能确定原子坐标。几十年来,解决这个逆问题需要大量的人工干预和经验丰富的晶体学家反复手动调整模型。
Kim、Mai、Shenoy、Follmer、Wetzstein 和 Poitevin 开发了 CrystalBoltz,把这个问题重新定义为贝叶斯推断:给定测量的衍射数据(结构因子振幅),推断最可能的原子结构。核心是一个在蛋白质结构数据库(PDB)上预训练的扩散模型,它学会了蛋白质结构的先验——什么样的原子排布是合理的。然后,来自新实验的衍射数据被用来引导扩散的后验采样,生成的候选结构同时满足先验(看起来像真实的蛋白质)和数据(和实验测量一致)。
这个过程完全自动化,不需要人工干预。在多个蛋白质数据集上,CrystalBoltz 的坐标 RMSD 和 R 因子都优于最强的基线方法,而运行时间比现有的实验引导精化方法降低了 33 倍。
不清楚的地方:这种方法的适用范围——只适用于 X 射线晶体学,还是可以扩展到冷冻电镜(cryo-EM)等其他结构生物学技术?对于对称性复杂或分辨率极低(3.5Å 以上)的数据,扩散模型生成的候选结构能否保持化学合理性?"33 倍加速"是和什么基线方法对比的——是否包括了传统方法中人工操作的时间?
---
参考文献
1. Kim, M., Mai, H., Shenoy, J., Follmer, A., Wetzstein, G., & Poitevin, F. (2026). *CrystalBoltz: End-to-End Protein Structure Determination via Experiment-Guided Diffusion for X-Ray Crystallography*. arXiv:2605.15564 [cs.LG].
2. Jumper, J., et al. (2021). *Highly Accurate Protein Structure Prediction with AlphaFold*. Nature.
3. Miao, J., et al. (2023). *Generative Methods for Molecular and Protein Structure Determination*. Nature Reviews Molecular Cell Biology.