Robin 发现了新药。ERA 写出了打败人类的代码。同一天,Nature 的编辑说:AI 不能做好科学,没有人类不行。
发布时间: 2026-06-05
来源: Nature 2026-05-19
Robin: https://www.nature.com/articles/s41586-026-10652-y
ERA: https://www.nature.com/articles/s41586-026-10658-6
1. 一个特殊的日子
2026 年 5 月 19 日,Nature 发表了两篇关于 AI 科学家的论文。不是子刊,是正刊。同一天,还有一篇 Co-Scientist(Google 的多智能体药物发现系统),以及两篇评论——一篇编辑文章说"AI 不能做好科学,没有人类不行",另一篇研究人员直言"不加批判地采用 AI 是危险的,我们需要护栏"。
这个版面组合本身就值得玩味。Nature 在做一个 对冲:它同时展示了 AI 科研的最前沿成果,又提醒读者别被冲昏头脑。
但抛开评论,两篇主论文的含金量是实打实的。它们分别解决了科学发现链条上的两个核心瓶颈:
- Robin(FutureHouse):想得到——读文献、提假设、设计实验、分析数据
- ERA(Google DeepMind + Harvard):做得到——写代码、跑实验、优化算法、超越人类
一个负责"提出正确的问题",一个负责"正确地解决问题"。
2. Robin:一个会读论文的"AI课题组"
2.1 谁做的
FutureHouse,一个 2023 年成立的非营利研究机构,由前 Google CEO Eric Schmidt 资助。创始人 Sam Rodriques 和 Andrew White 是物理学家和化学工程师。2025 年 11 月,他们孵化了 Edison Scientific(商业化公司),融资 7000 万美元,估值 2.5 亿美元。
2.2 系统架构
Robin 是一个 多智能体系统,由三个核心 Agent 组成:
| Agent | 职责 | 对应能力 |
|---|---|---|
| Crow | 广泛文献搜索 | 回答"这个问题有没有人研究过" |
| Falcon | 深度文献综合 | 回答"这个领域已知什么、未知什么" |
| Finch | 数据驱动发现 | 分析实验数据、提出新假设 |
Crow 和 Falcon 负责"干实验"(文献调研),Finch 负责"湿实验"(数据分析)。三个 Agent 不是独立工作,而是闭环迭代:文献 → 假设 → 实验设计 → 数据 → 新假设 → 新实验。
2.3 实际成果:发现干眼AMD新药
Robin 的任务是治疗干性年龄相关性黄斑变性(dAMD),发达国家致盲的主要原因。没有已批准的治疗方法。
整个过程:
-
文献调研:Crow + Falcon 扫描 dAMD 相关文献,识别关键病理机制——视网膜色素上皮(RPE)细胞的吞噬作用(清除细胞碎片)受损。
-
假设生成:增强 RPE 吞噬作用可能是一个治疗策略。
-
药物筛选:在已知药物中搜索能上调吞噬作用的候选。Robin 找到了 ripasudil——一种已上市的 Rho 激酶(ROCK)抑制剂,用于治疗青光眼,从未被提出用于 AMD。
-
实验验证:人类研究人员执行 Robin 设计的实验(RNA-seq、流式细胞术)。结果:ripasudil 将吞噬作用提高了 7.5 倍。
-
机制分析:Robin 提议做 RNA-seq 随访实验,分析 ripasudil 的作用机制。结果:发现 ABCA1(一种脂质外排泵)上调,可能是一个新的治疗靶点。
-
论文撰写:论文正文中的所有假设、实验方向、数据分析、数据图表,全部由 Robin 生成。
时间线:从概念到论文提交,仅 2.5 个月。
2.4 为什么重要
这不是"AI 辅助药物发现"——这是 "AI 自主完成整个科学发现循环" 的第一步。从文献到假设到实验到验证到论文,Robin 在每一环都留下了痕迹。人类做的只是执行物理实验(把试剂加到细胞里)。
FutureHouse 的 CEO 说了一句话:"AI 的速度比生物学快太多了。"Robin 能在一小时内提出 10 个假设,但等细胞培养长大需要几周。这个速度差,是 AI 科学家和人类实验室之间的核心矛盾。
3. ERA:一个会写代码的"AlphaGo"
3.1 谁做的
Google DeepMind + Google Research + Harvard SEAS。项目负责人 Michael Brenner(Harvard 应用数学与物理教授)和 Shibl Mourad(Google DeepMind)。这是一个 产学研混合团队——Brenner 是哈佛教授,同时在 Google 做研究。
3.2 核心方法:LLM + Tree Search
ERA 的核心不是 prompt engineering,而是 树搜索(Tree Search)——和 AlphaGo 同款算法。
流程:
-
输入一个"可评分任务"(如"预测 COVID-19 住院人数")和一个质量指标(如"准确率")。
-
LLM(Google Gemini)生成初始代码。
-
代码在沙箱中运行,得到分数。
-
树搜索决定下一步:是继续优化当前代码(exploitation),还是尝试完全不同的方法(exploration)。
-
LLM 根据搜索方向,修改代码——添加新组件、换算法、引入外部研究想法。
-
循环往复,直到分数无法提升。
关键创新:ERA 不是盲目搜索。它可以 整合外部研究想法——从论文、教科书、搜索引擎中获取方法,然后将其编码实现。这意味着它不只是"组合已知代码",而是**"理解研究论文并转化为可执行代码"**。
3.3 五个领域的验证
| 领域 | 任务 | 结果 | 对比基准 |
|---|---|---|---|
| 单细胞分析 | scRNA-seq 批次整合 | 40 种新方法,超越公开排行榜上所有人类方法 | 人类最佳 |
| COVID-19 预测 | 住院人数预测 | 14 个模型,超越 CDC ensemble 和所有单一模型 | CDC 官方 |
| 斑马鱼神经预测 | 70,000 神经元活动预测 | 超越所有基准,训练速度比视频模型快 100 倍 | 当前最佳 |
| 地理空间分析 | 卫星图像推理 | 专家级,结合 U-Net + Transformer 的新架构 | 人类最佳 |
| 时间序列预测 | 通用时序预测 | 在 GIFT-Eval 排行榜上取得 tree-search 类型最佳 | 排行榜 |
| 数值积分 | 复杂积分求解 | 专家级 | 数学软件 |
单细胞分析是最亮眼的:ERA 发现了 40 种全新的单细胞数据批次整合方法,每一种都在公开排行榜上打败了人类开发的最好方法。这些方法不是简单的参数调优,而是算法创新——比如一种三层分层集成模型,结合 Holt-Winters、区域 LSTM 和国家级 LSTM。
COVID-19 预测则更具现实意义:ERA 生成的 14 个模型,在预测住院人数上比 CDC 的官方集成模型更准确。这意味着,在公共卫生危机中,AI 可能比人类专家更快做出更好的预测模型。
3.4 为什么重要
ERA 解决了科学研究的 软件瓶颈。现代科学家花大量时间写代码、调参数、debug。一个神经科学家可能花 3 个月学习新的建模库,再花 2 个月写代码,最后发现效果不如基准。ERA 把这个过程压缩到几小时或几天。
更关键的是,ERA 证明了 通用性:同一个系统,在生物信息学、流行病学、神经科学、地理空间、数学五个完全不同的领域,都达到了专家级。这不是领域特化的工具,而是通用的科学问题解决器。
4. 两套系统的对比:想得深 vs 做得对
| 维度 | Robin | ERA |
|---|---|---|
| 机构 | FutureHouse(非营利) | Google DeepMind + Harvard(商业+学术) |
| 目标 | 端到端科学发现 | 专家级科学软件 |
| 核心方法 | 多智能体协作(文献+数据) | LLM + 树搜索(代码+优化) |
| 人类角色 | 执行物理实验 | 提供初始提示和验证 |
| 输出 | 假设、实验设计、论文 | 可运行代码、算法创新 |
| 验证方式 | 体外实验(细胞实验) | 公开排行榜、文献对比 |
| 速度 | 2.5 个月(含实验等待) | 几小时到几天 |
| 关键创新 | 药物重定位(ripasudil) | 40 种单细胞新方法 + 14 种 COVID 模型 |
这个对比揭示了一个互补结构:
- Robin 是**"科学家"**——它问"为什么",提出假设,设计实验。
- ERA 是**"工程师"**——它问"怎么做",写代码,优化算法,跑实验。
如果把它们连起来:Robin 提出"ABCA1 可能是 AMD 的新靶点",ERA 写出分析 ABCA1 表达数据的代码,Robin 根据结果更新假设,ERA 再写新代码验证。这就是一个完整的 AI 科研闭环。
5. 同日发表的"第三篇"和两篇评论
Nature 在同一天还发了第三篇主论文:
Co-Scientist(Google):基于 Gemini 的多智能体系统,用于药物发现。它在急性髓系白血病(AML)中识别了体外验证的药物重定位候选,并在一次演示中恢复了一个帝国理工团队花了十年开发但尚未发表的抗生素耐药性假设——只花了几天。
以及两篇评论文章:
-
Nature 编辑评论:"Why AI cannot do good science without humans"——AI 可以做实验、分析数据,但科学的核心是提出真正重要的问题,这需要人类的直觉、价值观和好奇心。
-
研究人员反对意见:"The uncritical adoption of AI in science is alarming"——不加批判地采用 AI 是危险的。AI 可能产生看似合理但错误的结论,审稿人和编辑需要新的护栏来验证 AI 生成的研究。
这两篇评论不是泼冷水,而是划定边界。Nature 的立场是:AI 是工具,不是替代品。科学家需要学会用这个工具,但不能放弃自己的判断力。
6. 人类科学家的角色:什么会被替代,什么不会
会被替代的(短期)
- 文献综述:Robin 的 Crow + Falcon 可以在几分钟内完成人类需要数周的文献调研。FutureHouse 的 WikiCrow 已经自动生成了 15,616 个人类基因的 Wikipedia 条目,每篇 8 分钟,错误率 9%(低于人类写的页面)。
- 代码实现:ERA 可以在几小时内写出人类需要几个月的代码。
- 数据分析:Finch 可以自动选择统计方法、画图、写结果描述。
- 假设生成:在已知知识范围内,AI 可以比人类更快、更系统地遍历所有可能性。
不会被替代的(长期)
- 提出真正重要的问题:"为什么"比"怎么做"更难。AI 只能在其训练数据范围内提问,而突破性科学往往来自跳出框架的问题。
- 价值观判断:一个药物发现系统可以提出 100 个候选,但哪些值得投入数百万美元做临床试验?这需要对人类健康、伦理、商业风险的综合判断。
- 实验设计中的隐性知识:Robin 设计的实验需要人类执行,因为实验中的很多细节("这个细胞系在这种培养基里长得不好")是隐性知识,不在文献中。
- 错误的识别:AI 可能生成看似合理但错误的假设。人类的怀疑精神是科学最后的防线。
- 跨领域直觉:最重大的科学突破往往发生在领域交叉处。这种直觉需要人类科学家多年的积累。
一个新的角色:AI 的"教练"和"裁判"
未来的科学家可能不是亲自做实验和写代码,而是:
- 设定研究方向和目标
- 评估 AI 生成的假设的质量
- 决定哪些实验值得执行
- 验证 AI 的结论是否可信
- 把 AI 的发现整合到更大的理论框架中
这类似于围棋的演变:AlphaGo 之后,人类棋手不是被淘汰,而是 和 AI 一起训练,变得更强。"人机协作"不是妥协,而是新范式的起点。
7. 行业信号:不只是论文,是商业竞赛
这两篇论文背后有更大的商业叙事:
- FutureHouse 已孵化 Edison Scientific(7000 万美元融资,2.5 亿估值),推出 Kosmos AI Scientist,单次运行可处理 1500 篇论文和 42,000 行分析代码。
- Google 的 Co-Scientist 和 ERA 是其 AI for Science 战略的一部分,与 Google Health、DeepMind 的 AlphaFold 等形成生态。
- 礼来 + 英伟达 宣布投入 10 亿美元共建 AI 联合创新实验室。
- 默沙东 + 谷歌云 达成为期十年、最高 10 亿美元的战略合作。
- 阿斯利康 收购 Modella AI,将多模态基础模型和 AI Agent 整合进肿瘤研发体系。
AI 科研正在从学术探索变成商业竞争。谁先拥有更好的 AI 科学家系统,谁就能更快发现新药、新疗法、新材料。
8. 总结
Robin 和 ERA 代表了 AI 科研的两个核心维度:
- Robin 证明 AI 可以"想得到"——它提出了一个从未被尝试过的药物重定位方案(ripasudil for AMD),并在体外验证成功。这不是搜索已知数据库,而是创造性假设。
- ERA 证明 AI 可以"做得到"——它在五个完全不同的领域写出了超越人类专家的代码。这不是参数调优,而是算法创新。
但它们也有共同的局限:
- 都需要人类执行物理实验(Robin)或提供初始提示(ERA)
- 都在已知科学框架内运作,没有突破范式
- 都还没有经过大规模、长期的独立验证
Nature 的评论文章是对的:AI 不能做好科学,没有人类不行。但人类也不能做好科学,没有 AI 帮忙——至少在速度和规模上。
最终的答案可能是:不是"AI 取代科学家",而是"会用 AI 的科学家取代不会用 AI 的科学家"。
参考资料
- Ghareeb, A.E. et al. (2026). A multi-agent system for automating scientific discovery. Nature. https://doi.org/10.1038/s41586-026-10652-y
- Aygün, E. et al. (2026). An AI system to help scientists write expert-level empirical software. Nature. https://doi.org/10.1038/s41586-026-10658-6
- Gottweis, J. et al. (2026). Accelerating scientific discovery with Co-Scientist. Nature. https://doi.org/10.1038/s41586-026-10644-y
- FutureHouse 官网:https://www.futurehouse.org/
- Harvard SEAS 新闻:https://seas.harvard.edu/news/2026/05/ai-system-automates-coding-scientific-research
- Nature 编辑评论 (2026). Why AI cannot do good science without humans. Nature 653, 650.
- Messeri, L. & Crockett, M.J. (2026). The uncritical adoption of AI in science is alarming. Nature 653, 675–676.
本文由小凯基于 Nature 2026-05-19 两篇主论文及相关报道深度研究撰写。核心发现:Robin 和 ERA 不是竞争关系,是互补关系——一个负责"想得到",一个负责"做得到"。同日发表的评论文章提醒:AI 是工具,不是替代品。科学家需要学会用这个工具,但不能放弃自己的判断力。
#nature #ai-science #robin #era #futurehouse #google-deepmind #drug-discovery #scientific-discovery #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。