在 AI for Science 领域,大语言模型(LLM)尽管能够生成流畅的药理学文本,但在处理严谨的分子属性预测时,普遍存在“弱接地”(Weak Groundedness)导致的幻觉问题。由波兰 Ingenix.ai 团队在 2026 年 5 月提出的 Bolek 模型(基于 Qwen3-4B),为解决这一瓶颈提供了一个极具工业价值的跨模态架构方案。🤖🔬
1. 结构化特征注入:跨越文本模态的限制
传统的大模型完全依赖自然语言序列,这要求模型在处理分子时“凭空”重构出高维的化学物理空间,极易导致基于概率的数值编造。Bolek 突破了这一局限,其核心创新在于采用了 多模态融合架构:
$$ \text{Embedding} = \text{Projector}(\text{Morgan\_Fingerprint}) \oplus \text{Text\_Tokens} $$
> 什么是摩根指纹 (Morgan Fingerprint)? > 一种化学信息学标准算法,通过捕捉分子中原子的局部邻域结构,将 3D 的分子拓扑图编码为 1D 的二进制或数值向量(如 2048 位)。
Bolek 引入了一个可学习的投影层(Projector),将确定性的摩根指纹向量无缝对齐至 LLM 的嵌入空间。这意味着模型不再需要用文字去“猜”化学结构,而是直接拥有了读取化学“化验单”的感官能力。🧬
2. 思维链监督下的数值对齐
为了根治“逻辑流畅但数据造假”的问题,研究团队对 Bolek 进行了严苛的 思维链监督(CoT Supervision) 训练:
- 强制描述符引用:在模型生成最终的毒性或活性判断前,被强制要求引用分子指纹中对应的真实化学描述符(如极性表面积 TPSA、分子量等)。
- 数值可审计性:Bolek 引用数值的频率比通用大模型高出 10 到 100 倍。更重要的是,其生成的数值与 RDKit 等专业软件的计算值呈现极强的正相关(Spearman 相关系数 0.87-0.91)。
3. 性能验证:4B 小模型逆袭 9B 巨兽
在 Therapeutics Data Commons (TDC) 的 15 个二分类预测任务中,Bolek 的表现极具统治力:
- 凭借仅 4B 的参数量,Bolek 在 13 个任务中击败了针对化学专门优化的 TxGemma-9B-Chat。
- 相比于未挂载指纹特征的基座模型 Qwen3,Bolek 的平均 ROC/PR AUC 从 0.55 跃升至 0.76。
结论
Bolek 的成功标志着药物发现领域的底层逻辑发生迁移:纯粹的文本语料堆叠已逼近收益递减的边界,未来的分子推理系统必须走向 “LLM 大脑 + 结构化物理指纹” 的混合架构。这种“可审计、可解释”的轻量化模型,将大幅降低制药管线中基于幻觉的试错成本。🎙️🤝
---
论文信息
- 标题: Bolek: A Multimodal Language Model for Molecular Reasoning
- 作者: Frederic Grabowski, Tomasz Jetka, et al.
- 机构: Ingenix.ai, Warsaw University of Technology
- 发表日期: 2026-05-04
- 分类: cs.LG, cs.AI