💊 制药资产发现的残酷真相：Curated AI 3.2x 碾压 Claude、GPT、Gemini 和 Perplexity

💊 通用前沿LLM + 网络搜索在专业领域的长尾知识上是一纸空文。 这不是模型不够聪明的问题，是它们读的东西——开放网络——本来就漏掉了专业世界里最重要的那部分。

2026年5月，Łukasz Kidziński 和 Kevin Thomas 发布了一篇只有5页却极具破坏力的论文。他们用一个叫 Gosset 的AI平台——本质上是一个有着聊天界面的 curated 制药资产数据库——对决了四个当前最强的大模型+搜索组合：Claude Opus 4.7 + web、GPT 5.5 + web、Gemini 3.1 Pro + web、Perplexity sonar-pro。

battlefield 选得极其刁钻：10个 niche 的肿瘤/免疫学靶点——TL1A、OX40L、IL-36R、TROP-2、B7-H3、ROR1、NaPi2b、Claudin 18.2、FAP、GPRC5D。这些地方的特点是：绝大多数药物管线藏在长尾里——小型生物技术公司、中国开发者、学术项目，它们在主流媒体上几乎没有存在感。

结果像一记闷棍 🥊：

系统	Verified Drugs	Precision	Recall (vs union)	Hallucinations
💎 Gosset (curated)	451	1.000	100%	0
🤖 GPT 5.5 + web	140	1.000	~31%	0
🔮 Gemini 3.1 Pro + web	~120	1.000	~27%	0
🧠 Claude Opus 4.7 + web	~110	0.992	~24%	1
🔍 Perplexity sonar-pro	~80	0.975	~18%	2

*表1：10个niche靶点查询后的 aggregate counts（经人类专家验证后）。数据来源：论文Table 1及Figure 1-2。*

Gosset 返回了 451 个 verified drugs。最好的 frontier 系统（GPT + web）只返回了 140 个——不到前者的三分之一。 3.2 倍的差距不是小数点后的优化，是生死存亡级别的信息缺失。如果你在制药行业做竞争情报，这意味着 GPT 漏掉了三分之二的竞争对手管线。

> 📌 注释：什么是 "verified drug"？ > 论文建立了一套三层验证流程来定义"verified"：第一层是确定性自动通过——有活跃临床试验、FDA批准或赞助商承诺的药物直接标记为verified；第二层是三AI法官交叉检查——Claude、GPT、Gemini各自独立评估，2/3多数决定初步 verdict；第三层是人类专家签字——具有制药管线背景的审稿人审核所有边缘案例。所有数字都反映的是 post-review 状态，不是系统原生的输出数量。

更讽刺的是 late-stage parity。在那些已经被广泛报道的批准/三期锚点药物上，五个系统表现一致——前沿LLM确实能搜到新闻稿里的东西。但问题在于，一个典型靶点的临床前和早期临床管线长度是晚期锚点的10倍，而 web-indexed 的来源对这些长尾覆盖极其稀疏。

这不是模型推理能力的差距，这是索引覆盖率的差距。GPT-5.5 可能是地球上最聪明的推理器，但它读的是和你在 Google 上搜到的一样的网页。如果一个中国生物技术公司的 Claudin 18.2 管线只在行业会议海报上出现过一次、从来没有被英文媒体报道过——那它对这个系统就是不存在的。

$$\text{Recall Gap} = \frac{|\text{Discoverable Universe}| - |\text{Web-Indexed Universe}|}{|\text{Discoverable Universe}|} \approx 69\% \text{ (for GPT)}$$

幻觉虽然少，但存在。 Claude + web 有1个 hallucinated drug（precision 0.992），Perplexity 有2个（precision 0.975）。绝对数量很小，但方向令人不安：当你要求模型生成 exhaustive 的命名实体列表时，即使配备了检索增强，生成模型的幻觉倾向也会被激活。Gosset 的 structured filters 从根本上杜绝了这个问题——它不可能 hallucinate 一个不存在的数据库条目。

> 📌 注释：Hallucination 在专业枚举中的危害 > 在制药场景中，一个 hallucinated drug 不是无害的创意——它可能是被错误归属的分子（如论文提到的 rocatinlimab 被误标为 OX40L 靶点，实际它结合的是 OX40 受体），或者是 canonical-name collision（两个不同分子共享同一个开发者代码如 IMB101 或 SAR446309）。这些错误如果进入决策流程，会导致错误的竞争评估、错误的并购尽职调查、错误的投资决策。

延迟差距同样触目惊心。 Gosset 的回答时间是 sub-second——一次 MongoDB 查询的 round-trip。而四个 frontier 系统需要多次 web 搜索 + 生成，慢了大约两个数量级。这不是"快一点"和"慢一点"的区别，这是"交互式工作流"和"等待-再看"工作流的区别。

现在来看论文最有价值的洞察：这个 recall gap 是索引问题，不是模型问题。

Gosset 把自己的 curated asset index 暴露为一个 MCP (Model Context Protocol) server——任何前沿模型都可以像调用 web search 一样调用它。这意味着 Claude、GPT、Gemini 不需要被替换，它们只需要在背后换一个数据源。同样的 prompt，同样的自然语言理解能力，同样的总结和推理——只是把"读开放网络"换成"读 curated 索引"。

> 📌 注释：Model Context Protocol (MCP) > MCP 是 Anthropic 于2024年提出的开放标准，允许AI系统以统一的方式连接外部数据源和工具。在 MCP 架构下，LLM 通过标准化的接口调用外部能力——无论是 web search、数据库查询、还是专有API。Gosset 将 curated index 包装成 MCP server 的意义在于：它不改变用户使用模型的方式（仍然是自然语言聊天），但彻底改变了模型获取信息的质量和覆盖范围。

这引出了那个不舒服的问题 💰：

如果你的企业正在用 GPT/Claude/Gemini 做竞争情报、市场调研、尽职调查——你确定你问到的答案不是只覆盖了被新闻报道过的那三分之一吗？如果你的投资决策、战略规划、研发优先级是基于这些系统的输出，那你的信息基础本身就有一个 69% 的盲区。

这篇论文的真正贡献不是"Gosset 很好"——这几乎是个同义反复。它的贡献是提供了一个可量化的对照实验，证明了在专业知识的长尾领域， curated index 相对于 generic web search 的压倒性优势。这不是关于模型大小的竞赛，这是关于信息基础设施的竞赛。

通用LLM是了不起的推理引擎。但推理引擎的质量取决于它的输入。如果你喂给它的是被搜索引擎优化过的、被媒体过滤过的、被英语霸权筛选过的信息——那么再聪明的推理也只能在残缺的画布上作画 🎨。

在制药资产发现这个游戏里，知道存在什么比推理出什么更重要。而知道存在什么，需要的是有人去把那些散落在会议海报、中文赞助商网站、专利文件和学术预印本里的碎片——一片片捡起来，编进索引里。

curated 索引不会取代 LLM。但它正在重新定义 LLM 的战场。

---

📚 论文详细信息

标题：*Curated AI beats frontier LLMs at pharma asset discovery*
arXiv ID：2605.04908
发表日期：2026-05-06
作者：Łukasz Kidziński, Kevin Thomas
页数：5 pages, 5 figures, 1 table
系统对比：Gosset (curated drug-asset index) vs Claude Opus 4.7 + web_search (20 budget) vs GPT 5.5 + web_search_preview (20 budget) vs Gemini 3.1 Pro + Google Search grounding (20 budget) vs Perplexity sonar-pro (high context)
10个测试靶点：TL1A, OX40L, IL-36R, TROP-2, B7-H3, ROR1, NaPi2b, Claudin 18.2, FAP, GPRC5D
核心数据：Gosset 451 verified drugs vs GPT+web 140 (3.2x)；Gosset precision 1.000 / recall 100% vs union of 451；Claude+web 1 hallucination, Perplexity 2 hallucinations
验证流程：三层——deterministic auto-pass (industry-grade evidence) → three-AI-judge cross-check (Claude/GPT/Gemini, 2-of-3 majority) → human expert sign-off (pharma-pipeline background reviewer)
架构：Gosset 暴露 curated index 为 MCP server，任何 frontier LLM 可调用来做工具调用
关键洞察：recall gap 不是模型质量问题，是索引问题；开放网络不编录专业长尾

💊 制药资产发现的残酷真相：Curated AI 3.2x 碾压 Claude、GPT、Gemini 和 Perplexity

🌟 智谱 GLM-5 已上线