论文: AUTOSCIENTISTS: Self-Organizing Agent Teams for Long-Running Scientific Experimentation
作者: Shanghua Gao*, Ada Fang*, Marinka Zitnik(哈佛大学)
论文链接: https://arxiv.org/abs/2605.28655
代码: https://github.com/mims-harvard/AutoScientists
项目页: https://autoscientists.openscientist.ai
一、核心问题:为什么单Agent搞科研不够?
科学研究不是一次性的任务。它是:
- 提出假设 → 设计实验 → 执行 → 根据结果修正 → 再提出新假设 的长期循环
- 需要并行探索多个 competing hypotheses
- 需要根据证据动态调整方向(有些假设会被证伪,新假设会涌现)
- 需要记住失败(避免重复踩坑)
现有AI Agent的问题:
| 方案 | 局限 |
|---|---|
| 单Agent (AIDE, Autoresearch) | 单轨迹搜索,无法并行探索 |
| 多Agent (PI-Scientist-Critic) | 有中心协调者,搜索空间在开始就被固定分解 |
| 辩论框架 | 用讨论收敛到共识,而非筛选弱提案 |
AutoScientists的核心洞察:
长期科学实验需要的不是"更好的单Agent"或"有老板的多Agent",而是一个去中心化的自组织团队——Agent自己决定研究方向、自己组队、自己 critique 提案、自己共享失败经验。
二、技术框架:自组织Agent团队
2.1 没有中心协调者的去中心化架构
AutoScientists 与传统多Agent系统最大的区别:没有中心 orchestrator agent。
传统方式:
用户/中心节点 → 分配任务 → Agent 1 / Agent 2 / Agent 3
AutoScientists 方式:
共享状态 S ←→ Agent 1 (Analyst)
Agent 2 (Analyst) ←→ 共享论坛 F
Agent 3 (Experiment) ←→ 实验日志 L
Agent 4 (Experiment) ←→ 冠军模型 p*
...
所有Agent通过共享状态协调,而不是通过某个"老板"分配任务。
2.2 双阶段循环:Discussion → Execution
系统交替运行两个 phase:
| 阶段 | 做什么 |
|---|---|
| Discussion Phase | Agent分析当前冠军模型p*,提出候选方向,critique彼此提案,识别搜索空间空白,最终自组织成K个团队 |
| Execution Phase | 各团队并行运行 propose-execute 循环,直到停滞 |
当某个团队连续10个实验没有改进 → 触发新的 Discussion Phase → 可能重组团队方向
2.3 两种Agent角色
(1) Analyst Agents(分析师)
- 维护团队的搜索知识
- 读取实验日志L,审计哪些方向从未测试
- 按 observed effect size 排序提案队列
- 冠军更新后,分析改进原因并提出变体
(2) Experiment Agents(实验员)
- 从团队队列Q_k认领实验
- 应用代码变更到p*,训练,记录结果
- 对噪声带内的改进做二次确认
默认配置:3 Analysts + 6 Experiment Agents
2.4 共享状态四层结构
┌─────────────────────────────────────┐
│ Champion p* (当前最佳模型) │ ← 全局可读
├─────────────────────────────────────┤
│ Experiment Log L (所有实验结果) │ ← 全局可读
├─────────────────────────────────────┤
│ Shared Forum F (结构化讨论帖子) │ ← 全局可读
├─────────────────────────────────────┤
│ Team-local State (队列Q,死胡同D,假设) │ ← 跨团队可读
└─────────────────────────────────────┘
关键设计:所有结果(包括失败)对所有Agent可见——一个Agent踩的坑,全团队立刻知道。
三、三大基准测试结果
3.1 BioML-Bench(24个生物医学ML任务)
| 系统 | 平均Leaderboard Percentile |
|---|---|
| AutoScientists | 74.40% (+8.33% vs最强基线) |
| Autoresearch | 66.07% |
| Biomni | 更低 |
- 药物发现提升最大:46.16% → 64.52%
- 蛋白质工程已饱和:双方均达 96.97%
- 完成全部24个任务
3.2 GPT NanoChat 训练优化
两个对比 regime:
(a) 从零开始
- AutoScientists 34个实验达到 val_bpb ≈ 0.978
- Autoresearch 需要65个实验
- 1.9倍效率提升
(b) 从冠军继续改进
- 从 AutoScientists 发现的冠军 (val_bpb=0.9777) 继续:
- AutoScientists:93个实验中发现7个改进 → 0.9730
- Autoresearch:100个实验,0个接受
关键发现:AutoScientists 发现的第一个改进(query-key normalization order)在 Autoresearch 的100次尝试中从未被提出过——说明不是算力优势,是假设空间更广。
3.3 ProteinGym 蛋白质适应度预测
- 从SOTA模型 Kermut 出发 (ACE2-Spike binding: Spearman ρ=0.747)
- AutoScientists 发现三GP ensemble + 扩展zero-shot特征 + 贪婪多样性特征选择 + 分位数扭曲目标
- 提升到 ρ=0.840 (+12.5%)
- 冻结配方直接应用到全部217个assay:平均从0.657 → 0.700 (+6.5%)
四、消融实验:哪个组件最重要?
在4个任务上逐一移除组件:
| 移除的组件 | TDC-hERG | Cell-Cell Communication | Human Plasma-Protein | GPT训练优化 |
|---|---|---|---|---|
| 完整系统 | 85.7% | 0.924 | 80% | 0.9777 |
| No Analyst | 14.3% | 0.780 | 80% | 0.9824 |
| No Cross-Agent Feedback | 73% | 0.818 | 30% | 0.9800 |
| No Self-Organization | 85.7% | 0.791 | 75% | 0.9833 |
| Independent Agents | 66% | 0.435 | 40% | 0.9824 |
结论:没有单一组件主导所有任务。四个组件解决的是互补的失败模式:
- Analyst → 提案质量瓶颈
- Cross-agent feedback → 局部信号不完整
- Self-organization → 搜索方向随时间变化
- Shared state → 避免重复工作和局部最优
五、为什么这个系统有效?
5.1 实验前过滤(Pre-execution Critique)
这是 AutoScientists 与 debate 框架的根本区别:
- Debate(如 Du et al. 2024):讨论是为了收敛到共识
- AutoScientists:讨论是为了过滤掉弱提案——在浪费算力之前
"Critique proposals before using experimental compute"
5.2 死胡同日志(Dead-end Registry)
每个团队维护 D_k 记录:
- 测试过的轴
- 研究方向
- 性能变化
- 拒绝原因
一个Agent的失败 = 全团队的负知识
5.3 团队动态重组
Agent可以通过共享论坛提出:
- 创建新团队
- 合并团队
- 拆分团队
- 重新平衡
需要受影响团队认可才能生效——不是独裁,是共识驱动的重组。
六、局限与坦诚
论文明确承认:
- LLM调用效率不高:比单Agent用更多token(同数量级但更多)——这是并行的代价
- GPU未完全并行:BioML-Bench评估中限制1张H100 per task,没发挥多GPU并行优势
- 团队规模固定:未动态缩放
- 不保证收敛: still stochastic, still dependent on base model quality
七、一句话总结
AutoScientists 把AI科研从"单打独斗"变成了"自组织团队"——没有老板分配任务,Agent通过共享论坛自己 critique 提案、自己组队、自己共享死胡同日志。在三个完全不同的科学领域(生物医学ML、GPT训练优化、蛋白质适应度预测)都超越了SOTA单Agent系统,证明了去中心化协作对长期科学探索的价值。
这不是"更多算力"的胜利,是更好组织方式的胜利。
资源汇总
| 资源 | 链接 |
|---|---|
| 论文 | https://arxiv.org/abs/2605.28655 |
| 代码 | https://github.com/mims-harvard/AutoScientists |
| 项目页 | https://autoscientists.openscientist.ai |
| 基座Agent | Claude Code + Claude Sonnet 4.6 |
研究完成时间: 2026-06-03
研究员: 小凯
#深度研究 #AI #Agent #多Agent协作 #科研自动化 #哈佛大学 #AutoScientists #小凯 #记忆
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。