通用LLM在专业领域的 recall 盲区：Gosset 与前沿系统的制药资产发现基准对比研究

一、研究背景：专业领域知识检索的评估盲区

通用大语言模型（LLMs）配备网络搜索能力后，已被广泛应用于竞争情报、市场调研和知识密集型决策支持。然而，现有评估 predominantly 聚焦于通用知识问答基准（如 MMLU、GPQA、HumanEval），而对专业领域的长尾知识检索能力缺乏系统性测量。在制药资产发现等场景中，一个靶点的竞争格局往往由大量临床前和早期临床项目构成——这些项目来自小型生物技术公司、区域性开发者和学术机构，它们在开放网络上的可见度极低。

2026年5月，Kidziński 和 Thomas 提出了一个受控的头对头基准测试，比较了 curated 专用索引系统（Gosset） 与 四个前沿通用LLM+网络搜索系统 在制药管线情报任务上的表现。该研究的核心前提是：在专业领域的长尾知识检索中，索引质量可能比模型推理能力更具决定性。

> 📌 注释：Gosset 平台的技术架构 > Gosset 是一个面向制药行业的 AI 平台，其核心是一个 curated 的药物资产索引数据库，覆盖靶点（target）、模态（modality）和适应症（indication）三个维度的结构化注释。用户通过自然语言聊天界面提交查询，系统将其解析为结构化过滤条件，直接查询索引数据库。与 frontier LLM 不同，Gosset 没有实时网络访问能力——它的信息来源是预先编录的专有数据集，而非开放网络。

二、实验设计：受控的头对头对比

研究团队在10个 niche 肿瘤/免疫学靶点上进行了受控对比实验，实验设计体现了高度的方法论严谨性：

靶点选择策略：

TL1A, OX40L, IL-36R, TROP-2, B7-H3, ROR1, NaPi2b, Claudin 18.2, FAP, GPRC5D
选择标准：免疫学/肿瘤学多样性、中等关注度、已知存在显著长尾管线

五系统对比：

系统	后端模型	搜索能力	输出限制
💎 Gosset	专有解析器 + curated index	无实时网络	最多200行
🤖 GPT + web	GPT 5.5 (Azure)	web_search_preview, 20 budget	JSON schema
🔮 Gemini + web	Gemini 3.1 Pro	Google Search grounding, 20 budget	JSON schema
🧠 Claude + web	Claude Opus 4.7 (API)	hosted web_search, 20 budget	JSON schema
🔍 Perplexity	sonar-pro	search_context_size="high"	JSON schema

*表1：五系统的技术配置。所有 frontier 系统接收相同的自然语言提示和 JSON 输出 schema。*

统一提示与输出格式：所有系统接收相同的提示，要求返回 {name, sponsor, modality, phase, indication} 的 JSON 列表，并显式包含 aliases 字段以支持别名感知去重。

三、定量结果：Recall 差距与精度对比

经过三层验证流程（见第四部分）后的 aggregate counts 如下：

系统	Verified Drugs	Precision	Recall (vs 451 union)	Hallucinated
💎 Gosset	451	1.000	100.0%	0
🤖 GPT + web	140	1.000	31.0%	0
🔮 Gemini + web	~120	1.000	~26.6%	0
🧠 Claude + web	~110	0.992	~24.4%	1
🔍 Perplexity	~80	0.975	~17.7%	2

*表2：验证后的核心结果。Recall 计算为各系统 verified drugs 数量除以五系统并集（451个）。*

Recall 差距分析：

Gosset 与最佳 frontier 系统（GPT + web）之间存在 3.2 倍 的 verified drug 数量差距
该差距在长尾靶点（如 TL1A、B7-H3、NaPi2b、Claudin 18.2）上尤为显著——这些靶点拥有大量临床前和亚洲开发者项目
在已获批/三期的锚点药物上，所有系统表现一致（late-stage parity），验证了 frontier LLM 对高可见度信息的检索能力

幻觉分析：

GPT + web 和 Gemini + web 实现了 perfect precision（1.000），无幻觉
Claude + web 出现 1 个 hallucinated drug（precision 0.992）
Perplexity 出现 2 个 hallucinated drug（precision 0.975）
幻觉类型包括：canonical-name collision（不同分子共享开发者代码）和 wrong-target attribution（如 rocatinlimab 被误标为 OX40L 靶点，实际结合 OX40 受体）

延迟对比：

Gosset：sub-second（单次数据库查询）
Frontier 系统：orders of magnitude slower（多次网络搜索 + 生成）

$$\text{Latency Ratio} = \frac{T_{\text{frontier}}}{T_{\text{Gosset}}} \approx 10^2 \text{ to } 10^3$$

四、三层验证流程：从系统输出到可信数字

论文建立了一套严格的三层验证架构，以确保结果的可信度和可复现性：

第一层：Deterministic Auto-Pass

具有行业级证据的药物（活跃临床试验、FDA批准、赞助商承诺）自动标记为 verified
无需 LLM 调用，清除大部分 uncontroversial 案例

第二层：Three-AI-Judge Cross-Check

剩余案例由 Claude Opus 4.7、GPT 5.5、Gemini 3.1 Pro 各自独立评估（均配备 web search）
采用 LLM-as-a-judge 模式，2/3 多数产生初步 verdict：verified / hallucinated / unsure
分歧案例和 unsure 案例进入第三层

第三层：Human Expert Sign-Off

具有制药管线背景的审稿人审核所有边缘案例
处理 canonical-name collisions、间接通路注释、错误靶点归属等复杂情况
所有论文数字反映 post-review 状态

> 📌 注释：Alias-Aware Union-Find 去重 > 为防止系统通过别名打包虚增计数（如将 "Tecotabart vedotin (LM-302, TPX-4589, BMS-986476)" 计为多个条目），论文要求每个系统返回显式的 aliases 列表，并在评分时应用别名感知的 union-find 算法：如果两个药物的别名集合共享任何非平凡成员，则视为同一分子。这一机制确保 recall 计算不受输出风格差异的干扰。

五、索引问题 vs. 模型问题：机制分析

论文的核心论点是：recall gap 不是模型质量问题，而是索引问题。

Frontier LLM 在实验中的行为模式支持这一判断：

1. 推理能力未受质疑：所有 frontier 系统在结构化输出、自然语言理解、多步推理方面表现正常 2. Late-stage parity：在高度可见的批准/三期药物上，所有系统都能正确检索——证明检索机制本身有效 3. 长尾盲区：差距集中在 preclinical 和 early-clinical 项目上——这些项目存在于赞助商网站、会议海报、专利和中文材料中，但未被搜索引擎充分索引

这一发现对 MCP（Model Context Protocol）架构有重要启示。Gosset 将 curated index 暴露为 MCP server，意味着 frontier LLM 可以在不改变自身的情况下，通过工具调用切换信息源：

$$\text{Effective Recall} = f(\text{Model Reasoning}, \text{Index Coverage})$$

当 Index Coverage 存在结构性缺口时，Model Reasoning 的改进无法弥补 recall 的不足。

六、对行业应用的启示

该研究对依赖 LLM 进行专业领域情报工作的组织提出了四项核心建议：

第一，区分"处理长度"与"回忆覆盖"。 行业宣传中的"支持1M token上下文"衡量的是模型能处理多长的输入，而非能从多长历史中回忆多少事实。对于需要 exhaustive enumeration 的任务，应单独测量有效 recall。

第二，评估信息源的覆盖盲区。 在使用通用LLM进行竞争情报之前，组织应明确其信息源的边界：开放网络覆盖了目标领域的百分之多少？长尾信息（区域开发者、学术项目、预印本）的缺失是否会影响决策质量？

第三，考虑 curated index 作为 MCP 工具。 论文证明，将 curated index 包装为 LLM 可调用的工具（而非替换 LLM），可以在保留模型推理能力的同时，从根本上提升信息检索质量。这种"模型+ curated 索引"的混合架构可能是专业领域应用的最优解。

第四，建立领域特定的验证流程。 三层验证架构（自动通过 → AI 交叉检查 → 人类专家）可以作为专业领域 LLM 应用的通用模板，尤其是在高 stakes 决策场景中。

七、局限性与未来方向

本研究的局限性包括：① 靶点选择可能偏向 Gosset 数据丰富的领域，对于广泛覆盖的靶点（如 PD-1、HER2），差距可能更小；② 验证法官本身是 LLM，继承了一定的校准误差；③ 绝对 pipeline recall 不可测量——cross-system union 只反映了 discoverable universe，而非真实世界中的全部管线。

未来研究方向包括：① 将 frontier LLM 与 Gosset MCP server 结合的 benchmark（即将进行的后续研究）；② 将实验框架扩展到其他专业领域（如法律判例、专利布局、供应链情报）；③ 开发自动化的 curated index 构建管线，降低专业索引的生产成本。

---

📚 论文详细信息

标题：*Curated AI beats frontier LLMs at pharma asset discovery*
arXiv ID：2605.04908
发表日期：2026-05-06
作者：Łukasz Kidziński, Kevin Thomas
页数：5 pages, 5 figures, 1 table
系统对比：Gosset (curated drug-asset index, no live web) vs Claude Opus 4.7 + web_search (20 budget) vs GPT 5.5 + web_search_preview (20 budget) vs Gemini 3.1 Pro + Google Search grounding (20 budget) vs Perplexity sonar-pro (high context)
10个测试靶点：TL1A, OX40L, IL-36R, TROP-2, B7-H3, ROR1, NaPi2b, Claudin 18.2, FAP, GPRC5D——选择标准为多样性（免疫学/肿瘤学）和已知长尾
核心数据：Gosset 451 verified drugs vs GPT+web 140 (3.2x)；Gosset precision 1.000 / recall 100% vs cross-system union of 451；Claude+web 1 hallucination (P=0.992), Perplexity 2 hallucinations (P=0.975)
验证流程：三层——deterministic auto-pass (industry-grade evidence: active trials, FDA approvals, sponsor commitments) → three-AI-judge cross-check (Claude/GPT/Gemini with web search, 2-of-3 majority) → human expert sign-off (pharma-pipeline background reviewer)
去重机制：Alias-aware union-find，要求每个系统返回显式 aliases 列表，两个药物共享任何非平凡别名成员则视为同一分子
延迟：Gosset sub-second（MongoDB round-trip）；frontier systems 约两个数量级更慢（多次 web search + generation）
架构创新：Gosset 暴露 curated index 为 MCP (Model Context Protocol) server，任何 frontier LLM 可调用来做工具调用，无需替换模型本身
核心洞察：recall gap 不是模型质量问题，是索引问题——开放网络不编录专业长尾；frontier LLM 的推理能力正常，但输入存在结构性缺口