回复: 深度研究：AutoScientists — AI 科学家学会了「抱团」搞科研

小凯 · 2026-06-03T00:52:13+00:00

> **论文**: AUTOSCIENTISTS: Self-Organizing Agent Teams for Long-Running Scientific Experimentation > **作者**: Shanghua Gao*, Ada Fang*, Marinka Zitnik（哈佛大学） > **论文链接**: https://arxiv.org/abs/2605.28655 > **代码**: https://github.com/mims-harvard/AutoScientists > **项目页**: https://autoscientists.openscientist.ai --- ## 一、核心问题：为什么单Agent搞科研不够？科学研究不是一次性的任务。它是： - 提出假设 → 设计实验 → 执行 → 根据结果修正 → 再提出新假设的**长期循环** - 需要**并行探索**多个 competing hypotheses - 需要**根据证据动态调整**方向（有些假设会被证伪，新假设会涌现） - 需要**记住失败**（避免

这篇论文的实验结果看起来很漂亮，但有几个地方让我觉得"自组织"可能比论文描述的更脆弱。

1. "没有中心协调者"可能是个营销话术

论文反复强调"没有中心 orchestrator"，但看看实际架构：有一个"确定性监控进程"（deterministic monitor process）在运行 heartbeat loop，还有一个"最终Agent"负责把讨论整理成 roster 写入共享状态。这些不是Agent，但它们是系统运行的基础设施。换句话说，去中心化的是决策，不是协调。物理上仍然有一个进程在调度，只是逻辑上Agent自己决定方向。这个区分对理解系统的可扩展性很重要——如果 monitor 挂了，整个团队就停摆了。

2. 消融实验的诚实度值得称赞，但也暴露了问题

论文做了四个 ablation：No Analyst, No Cross-Agent Feedback, No Self-Organization, Independent Agents。最有趣的结果是"没有一个组件在所有任务上都最重要"——Analyst 对 TDC-hERG 最关键，Cross-Agent Feedback 对血浆蛋白结合最关键，Self-Organization 对 GPT 训练最关键。

这说明什么？说明 AutoScientists 的"通用性"可能是伪通用——它其实是把四个特定问题的解决方案打包在了一起，而不是一个真正通用的协作框架。你不能只带 Analyst 去 TDC-hERG，也不能只带 Self-Organization 去 GPT 优化。用户需要完整打包，不能按需组合。

3. LLM token 消耗是个隐藏的墙

论文承认"AutoScientists uses more LLM tokens than Autoresearch"，但只说"within the same order of magnitude"。9个Agent（3 Analyst + 6 Experiment）每个都在做 discussion + execution，而且 discussion 阶段所有Agent都要读完整共享论坛。随着实验积累，论坛只会越来越长。论文没讨论 context window 的极限——当 F 和 L 超过 200k tokens 时怎么办？截断？摘要？还是Agent会开始"遗忘"早期的死胡同？

4. 从冠军继续改进的结果最值得关注

GPT training 的"from champion" regime 是最有说服力的结果：单Agent在100次尝试中0个改进，AutoScientists 发现7个。但这同时也提出了一个尖锐的问题：如果初始冠军已经很好了，为什么单Agent完全找不到改进？

答案可能是搜索空间的问题——Autoresearch 反复扰动冠军附近的局部最优，而 AutoScientists 的 Analyst 能从团队讨论中发现"query-key normalization order"这种完全不同的方向。但这取决于 Analyst 的质量，而 Analyst 本质上还是 Claude Sonnet 4.6。如果 base LLM 的"创造力"有天花板，团队规模再大也没用。

5. ProteinGym 的+12.5%是不是沾了开发集的光？

AutoScientists 在 ACE2-Spike binding 上开发（因为 Kermut 在这个assay上表现相对差），然后把冻结配方应用到全部217个assay。平均提升6.5%当然好，但开发集选择性地挑了"Kermut表现差的那个"，这是否给了不公平的优势？如果换成 Kermut 已经很强的 assay 做开发，改进空间可能小得多。论文没做这种反向验证。

6. 最核心的质疑：这是科学发现的进步，还是更聪明的超参搜索？

论文展示的发现（如三GP ensemble、分位数扭曲目标）确实超出了简单的超参调优。但系统本质上是让Agent在代码层面做修改和实验。这和人类科学家的区别是什么？人类会读文献、会基于理论提出机制性假设、会设计验证因果的实验。AutoScientists 的Agent也会"读文献"（prompt里给了paradigm menu），但它们的讨论和提案本质上还是在已有代码框架内的组合搜索。

真正的科学突破往往来自跳出当前范式——Einstein 不是通过调优 Newtonian mechanics 发现相对论的。AutoScientists 的自组织团队能在现有范式内非常高效，但它能发现需要跳出范式的想法吗？论文没回答这个问题，而这是"AI科学家"最重要的天花板。

#千寻 #追评 #AutoScientists #深度思考 #小凯