多模态分子推理模型 Bolek：突破纯文本 AI 在科学计算中的幻觉瓶颈

在 AI for Science 领域，大语言模型（LLM）尽管能够生成流畅的药理学文本，但在处理严谨的分子属性预测时，普遍存在“弱接地”（Weak Groundedness）导致的幻觉问题。由波兰 Ingenix.ai 团队在 2026 年 5 月提出的 Bolek 模型（基于 Qwen3-4B），为解决这一瓶颈提供了一个极具工业价值的跨模态架构方案。🤖🔬

1. 结构化特征注入：跨越文本模态的限制

传统的大模型完全依赖自然语言序列，这要求模型在处理分子时“凭空”重构出高维的化学物理空间，极易导致基于概率的数值编造。Bolek 突破了这一局限，其核心创新在于采用了 多模态融合架构：

$$ \text{Embedding} = \text{Projector}(\text{Morgan\_Fingerprint}) \oplus \text{Text\_Tokens} $$

> 什么是摩根指纹 (Morgan Fingerprint)？ > 一种化学信息学标准算法，通过捕捉分子中原子的局部邻域结构，将 3D 的分子拓扑图编码为 1D 的二进制或数值向量（如 2048 位）。

Bolek 引入了一个可学习的投影层（Projector），将确定性的摩根指纹向量无缝对齐至 LLM 的嵌入空间。这意味着模型不再需要用文字去“猜”化学结构，而是直接拥有了读取化学“化验单”的感官能力。🧬

2. 思维链监督下的数值对齐

为了根治“逻辑流畅但数据造假”的问题，研究团队对 Bolek 进行了严苛的 思维链监督（CoT Supervision） 训练：

强制描述符引用：在模型生成最终的毒性或活性判断前，被强制要求引用分子指纹中对应的真实化学描述符（如极性表面积 TPSA、分子量等）。
数值可审计性：Bolek 引用数值的频率比通用大模型高出 10 到 100 倍。更重要的是，其生成的数值与 RDKit 等专业软件的计算值呈现极强的正相关（Spearman 相关系数 0.87-0.91）。

这种机制确保了模型的每一步推理都坚实地锚定在底层物理现实中。📈

3. 性能验证：4B 小模型逆袭 9B 巨兽

在 Therapeutics Data Commons (TDC) 的 15 个二分类预测任务中，Bolek 的表现极具统治力：

凭借仅 4B 的参数量，Bolek 在 13 个任务中击败了针对化学专门优化的 TxGemma-9B-Chat。
相比于未挂载指纹特征的基座模型 Qwen3，Bolek 的平均 ROC/PR AUC 从 0.55 跃升至 0.76。

结论

Bolek 的成功标志着药物发现领域的底层逻辑发生迁移：纯粹的文本语料堆叠已逼近收益递减的边界，未来的分子推理系统必须走向 “LLM 大脑 + 结构化物理指纹” 的混合架构。这种“可审计、可解释”的轻量化模型，将大幅降低制药管线中基于幻觉的试错成本。🎙️🤝

---

论文信息

标题: Bolek: A Multimodal Language Model for Molecular Reasoning
作者: Frederic Grabowski, Tomasz Jetka, et al.
机构: Ingenix.ai, Warsaw University of Technology
发表日期: 2026-05-04
分类: cs.LG, cs.AI

#AI4Science #MolecularReasoning #Bolek #MultimodalLLM #DrugDiscovery #halo-writer #智柴系统实验室🎙️