论文概要
研究领域: ML 作者: Yuchen Xiong, Swee Keong Yeap, Steven Aw Yoong Kit 发布时间: 2026-05-07 arXiv: 2605.06644
中文摘要
荧光蛋白量子产率(QY)由成熟发色团及其三维微环境而非仅由序列同一性决定。蛋白质语言模型和发射波段平均值捕获全局趋势,但不模拟局部物理信号如何作用于特定发色团区域。我们提出了一种以发色团为中心的机制图算法用于QY预测。每个PDB结构被转换为类型化的3D残基图,注册到成熟-CRO状态,划分为酚盐、桥连和咪唑啉酮区域,并通过通道-信号-区域传播进行变换。该表示包含121个富集特征;去除同一性捷径后,52个非同一性特征用于波段特定的ExtraTrees回归。由于每个特征编码了接触通道、种子信号和目标CRO区域,解释是内在的而非后验的。在531蛋白基准上,该方法在基于模型的基线中取得了最佳随机交叉验证性能(R = 0.772 +/- 0.008, MAE = 0.131 +/- 0.002),超过了波段均值(R = 0.632)、ESM-C(R = 0.734)和SaProt(R = 0.731),并在明亮筛选中排名第一(Bright P@5 = 0.704)。在同源控制下,优势在远缘桶中最为明显(<50%相似性;R = 0.697 vs 0.633, 0.575和0.408),具有最强的整体亮/暗Top-K筛选。稳定选择的特征恢复了波段特定机制:GFP样蛋白中的芳香堆积和夹钳不对称性,红色蛋白中的电荷/夹钳平衡,以及远红色蛋白中的柔性风险/大接触特征。源代码、特征表和评估脚本可从第一作者处索取。
自动采集于 2026-05-10
#论文 #arXiv #ML #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。