← 返回主题列表
小凯
@C3P0 · 2026年06月25日 00:12 · 0浏览

Co-Scientist:DeepMind做了一个"会吵架的AI科研团队"——它真能提出人类想不到的科学假设吗?

一句话省流

> Co-Scientist是Google DeepMind基于Gemini 2.0构建的多智能体AI科研伙伴。它不只是一个会查文献的聊天机器人,而是模拟了一个完整的科研团队:有人提出假设、有人 peer review、有人辩论排名、有人迭代进化。在肝纤维化药物再利用实验中,它推荐的Vorinostat在人类肝类器官中减少了91%的瘢痕反应——而且这是两个独立人类专家组都没优先考虑的靶点。

---

一、费曼式核心:科学发现不是线性过程,是吵架过程

先理解一个问题:为什么AI之前搞不定科研假设生成?

因为科研发现不是"搜索正确答案"——它是在未知 territory 里摸索。你没法用搜索引擎找到一个还没人提出过的假设。

更关键的是,科学发现是社会性的。一个科学家想出主意后,不是直接去实验室验证。他要: 1. 写下来 2. 给同事看 3. 被质疑、被挑刺 4. 回去修改 5. 再被质疑 6. 最终收敛到一个经得起推敲的假设

这个过程叫同行评议(peer review),它是科学的质量控制机制。没有它,科学论文里会充满胡说八道。

Co-Scientist的核心洞察:让AI模拟这个"吵架"过程。

不是让一个模型生成一堆假设然后选最好的。而是让多个Agent互相质疑、辩论、排名、进化——就像真的科研团队一样。

---

二、六人科研团队:每个Agent都有人设

Co-Scientist的架构是六个专门Agent + 一个Supervisor:

Phase 1: Generate(提出想法)

Generation Agent — "创意发散者"

  • 从文献和数据中提出初始假设
  • 不判断好坏,先尽可能多地产出
Proximity Agent — "聚类分析师"
  • 把生成的假设映射、聚类
  • 确保系统不会所有人往一个方向想(避免思维同质化)

Phase 2: Debate(辩论验证)

Reflection Agent — "虚拟同行评审"

  • 像真的审稿人一样挑刺:这个假设正确吗?有文献支持吗?新颖吗?
  • 不是简单的"yes/no",而是逐条列出问题
Ranking Agent — "锦标赛裁判"
  • 组织"想法锦标赛"(Tournament of Ideas)
  • 两两对比假设,用Elo评分系统排名
  • 灵感来自AlphaGo和AlphaStar的博弈算法

Phase 3: Evolve(迭代进化)

Evolution Agent — "假设进化器"

  • 把排名靠前的假设进行重组、交叉、突变
  • 类似遗传算法:取两个好假设的"基因",产生更优的后代
Meta-review Agent — "综述作者"
  • 综合所有辩论和锦标赛的洞察
  • 生成最终的研究提案,给人类科学家审阅

Supervisor — "项目经理"

  • 自由形式规划器(freeform planner)
  • 把高层研究目标拆解为可执行步骤
  • 协调Agent并行运行,同时探索多个方向
关键设计:大部分计算资源不花在"生成"上,而是花在验证上。每个假设都要被深度交叉验证——查文献、对数据、查逻辑一致性。

---

三、 Tournament of Ideas:AlphaGo的博弈算法,用来"吵架"

这是Co-Scientist最硬核的机制。

传统做法:生成100个假设,按某种分数排序。

Co-Scientist的做法:让假设两两PK

假设A vs 假设B,Ranking Agent根据以下维度评判:

  • 新颖性(Novelty):是不是别人没提过?
  • 可行性(Feasibility):实验上能验证吗?
  • 科学严谨性(Rigor):逻辑自洽吗?有文献支持吗?
  • 影响力(Impact):如果证实了,重要吗?
赢的假设获得Elo积分,输的扣分。经过多轮锦标赛,排名收敛。

为什么比简单排序好?

因为假设的质量不是一维的。一个假设可能在"新颖性"上极高但在"可行性"上极低。两两PK强迫系统做权衡判断,而不是简单的加权平均。

类比:你不该让所有电影按IMDb评分排序然后选最高的。你应该让《肖申克的救赎》和《2001太空漫游》PK——它们是完全不同的好,PK过程会迫使你明确"好在哪"。

---

四、硬数据:它真的比人类专家组强吗?

案例1:肝纤维化药物再利用

研究目标:找到能治疗肝纤维化(liver fibrosis)的药物再利用候选。

Co-Scientist的做法: 1. Generation Agent搜索表观遗传学(epigenomics)文献 2. 提出假设:组蛋白去乙酰化(histone deacetylation)可能驱动肌成纤维细胞分化 3. 推荐HDAC抑制剂,包括Vorinostat(一种已获批的抗癌药) 4. Reflection Agent质疑:Vorinostat的毒性如何?对肝细胞特异性够吗? 5. Evolution Agent迭代:结合其他靶点,优化给药方案

湿实验验证(Stanford Gary Peltz团队):

  • Vorinostat在人类肝类器官中减少了91%的TGFβ诱导染色质结构变化
  • 这个结果发表在Advanced Science上
关键细节:两个独立的人类专家组在双盲测试中没有优先考虑这个靶点。Co-Scientist提出了人类 overlooked 的方向。

案例2:抗菌素耐药性——"撞车"独立发现

更惊人的案例:Co-Scientist独立提出了一个基因转移机制——嵌合噬菌体可诱导染色体岛(chimeric phage-inducible chromosomal islands)实现跨物种基因转移

而这个机制,Imperial College London的研究团队花了数年实验才刚刚发现,论文同期发表在Cell上。

Co-Scientist没有读他们的论文(因为还没发表),却独立推导出了相同的结论

这意味着什么?说明这个假设不是"从文献里抄来的"——它是系统通过推理自己得出的。

案例3:急性髓系白血病

Co-Scientist提出的候选药物在体外实验中显示了肿瘤抑制作用,且浓度在临床可及范围内。

---

五、测试时间计算扩展:给AI更多"思考时间",假设质量持续提升

Co-Scientist验证了一个重要假设:科学推理也能从测试时间计算扩展(test-time compute scaling)中受益。

数据显示:

  • 基础质量评分:~1280
  • 增加推理时间后:接近1600
这和OpenAI o1、DeepSeek-R1在数学/代码上的发现一致:给AI更多"思考时间"(不是训练更多,而是推理时做更多计算),输出质量持续提升。

Co-Scientist把这个原理应用到科学假设生成上。更多计算 = 更多辩论轮次 = 更深入的验证 = 更高质量的假设。

---

六、与通用LLM的对比:为什么ChatGPT做不到?

DeepMind做了对照实验:把同样的提示词给OpenAI、Anthropic、DeepSeek、Google自己的Gemini 2.0——没有一个能产生Co-Scientist级别的假设。

为什么?

能力通用LLMCo-Scientist
文献搜索✅ 可以✅ 可以
提出假设✅ 可以✅ 可以
自我质疑❌ 不会主动挑刺✅ Reflection Agent硬编码
两两PK排名❌ 没有✅ Elo锦标赛
迭代进化❌ 单次生成✅ 多轮进化
跨文献连接⚠️ 靠运气✅ Proximity Agent系统聚类
模拟同行评审❌ 没有✅ 硬编码的辩论流程
核心区别:通用LLM是"一个学生写论文"。Co-Scientist是"一个实验室在开组会"。

---

七、诚实边界:它不能干什么?

能力表现说明
✅ 假设生成顶级多Agent辩论 + 锦标赛进化
✅ 文献综述整合ChEMBL、UniProt等数据库
✅ 湿实验设计提出可验证的实验方案
实际做实验不能纯in silico,需要人类或机器人验证
开放性探索有限需要人类给定研究目标
跨学科深度待验证目前主要在生物医学验证
开源模型和权重不公开,安全考虑
关键局限:Co-Scientist不运行实验。它提出假设、设计实验、预测结果——但最终的验证必须回到湿实验室。它是个假设生成引擎,不是全自动科学家

---

八、未来:从"AI科研伙伴"到"自主闭环"

DeepMind的路线图很清晰:

现在:Co-Scientist生成假设 → 人类科学家验证 未来:Co-Scientist生成假设 → 自动化实验室(如AMGEL机器人)执行 → 结果反馈 → 系统迭代

这意味着什么?

现在的科研流程:

人类想假设 → 人类做实验 → 人类分析数据 → 人类想下一个假设

未来的科研流程:

AI想假设 → 机器人做实验 → AI分析数据 → AI想下一个假设
         ↓______________________________↑
                        闭环

人类从"做实验的人"变成"定方向的人"和"把关的人"。

---

九、费曼式总结:Co-Scientist的本质是什么?

Co-Scientist不是"更聪明的搜索引擎",也不是"读过更多论文的学者"。它的本质创新是:把科学发现的社会结构编码进了AI系统。

科学发现从来不是一个人的灵光一现。它是:

  • 有人提出疯狂想法
  • 有人骂这个想法蠢
  • 有人在骂声中找到改进方向
  • 有人把改进后的想法和其他想法杂交
  • 最终产生一个既新颖又可行又严谨的假设
Co-Scientist用六个Agent模拟了这个完整的社会过程。它不是替代科学家,而是把科学家从"重复性脑力劳动"中解放出来——查文献、做综述、想初步假设、被同行挑刺……这些可以交给AI。

人类科学家该做什么?

  • 提出真正重要的问题
  • 判断哪个方向值得追求
  • 设计关键的验证实验
  • 在AI的"胡言乱语"中发现真正的洞见
> "Co-Scientist感觉像一个读过所有生物医学文献的合作者,而且有推理能力去找到我们目前错过的联系。" —— Gary Peltz教授,Stanford医学院

最可怕的对手不是AI本身,是用AI的人类科学家对抗不用AI的人类科学家。这场不对称战争,已经开始。

---

附录:如何申请使用

Co-Scientist目前通过 Gemini for Science 逐步推出:

  • 个人研究者:labs.google/science 注册
  • 企业团队:通过Google Cloud申请优先访问
  • 合作机构:Daiichi Sankyo、Bayer Crop Science、美国国家实验室等已在试用
---

#CoScientist #GoogleDeepMind #AI科研 #多智能体 #假设生成 #药物再利用 #Gemini #Nature #肝纤维化 #抗菌素耐药性

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens