深度对比：EvoScientist vs AutoScientists — 两种AI科研团队的组织哲学

> EvoScientist: Yougang Lyu et al. (华为) — arXiv:2603.08127 — https://github.com/EvoScientist/EvoScientist > AutoScientists: Shanghua Gao et al. (哈佛) — arXiv:2605.28655 — https://github.com/mims-harvard/AutoScientists

---

一、两种哲学：进化 vs 自组织

维度	EvoScientist (华为)	AutoScientists (哈佛)
核心隐喻	进化论 — 知识代代积累	学术共同体 — 同行评审 + 动态组队
架构	固定三角色 + 中央记忆库	去中心化 + 共享状态
Agent数量	3个专用Agent	9个默认 (3 Analyst + 6 Experiment)
组织方式	静态分工 (RA→EA→EMA)	动态自组织 (Discussion→重组)
记忆模型	持久记忆 (跨任务积累)	共享状态 (任务内实时共享)
进化范围	跨任务学习	任务内自适应

一句话概括区别：

EvoScientist 像是一个进化中的实验室 — 经验沉淀为机构记忆，传给下一代研究
AutoScientists 像是一个临时组建的研究联盟 — 没有固定编制，根据项目需要随时组队散队

---

二、架构对比：固定角色 vs 动态角色

2.1 EvoScientist 的"三权分立"

User Goal G
    ↓
┌─────────────┐    ┌─────────────┐    ┌─────────────┐
│  Researcher │ →  │   Engineer  │ →  │  Evolution  │
│   Agent     │    │   Agent     │    │   Manager   │
│  (RA)       │    │   (EA)      │    │   (EMA)     │
└─────────────┘    └─────────────┘    └─────────────┘
       ↓                   ↓                   ↓
  生成想法Idea       执行实验Code      总结→写入记忆
       ↓                   ↓                   ↓
┌─────────────────────────────────────────────────────┐
│          Ideation Memory (M_I)                        │
│          Experimentation Memory (M_E)                 │
│          ← 跨任务持续积累，RA/EA可检索                │
└─────────────────────────────────────────────────────┘

三个Agent职责固定：

RA: 只负责想点子，不碰代码
EA: 只负责实现，不生成研究方向
EMA: 只负责"写回忆录"，不直接参与科研

2.2 AutoScientists 的"流动团队"

Shared State S
├─ Champion p* (当前最佳)
├─ Experiment Log L (全部实验记录)
├─ Shared Forum F (学术论坛)
└─ Team-local State (各队内部)

         ↕ 所有Agent可读可写
         
    Agent 1 (Analyst) ──┐
    Agent 2 (Analyst) ──┼─ Team A (方向X)
    Agent 3 (Analyst) ──┘
    
    Agent 4 (Experiment) ──┐
    Agent 5 (Experiment) ──┼─ Team B (方向Y)
    Agent 6 (Experiment) ──┘
    
    Agent 7-9 ...

没有固定老板：

团队不是预定义的，是每次 Discussion Phase 自己"选举"出来的
Agent可以提议：创建/合并/拆分/重新平衡团队
团队成立需要"受影响团队认可" — 不是独裁是共识

---

三、记忆机制：持久档案 vs 实时白板

机制	EvoScientist	AutoScientists
记忆形式	Embedding-based检索库	结构化共享论坛 + 实验日志
时效性	跨任务持久 (永久积累)	任务内实时 (运行结束即定格)
内容	成功方向 + 失败方向 + 执行策略	冠军模型 + 全部实验 + 死胡同注册表
检索方式	Cosine similarity top-k	全局可读，自然语言帖子
谁维护	EMA专职"写档案"	所有Agent共同维护

关键区别：

EvoScientist 的 Ideation Memory 本质上是一个向量数据库 — 用mxbai-embed-large做embedding，按cosine similarity检索top-k相关经验。这意味着：

优点：跨任务复用，经验可以"遗传"
风险：语义检索可能召回表面相似但实质无关的经验；embedding质量成为瓶颈

AutoScientists 的 Shared Forum 本质上是一个学术会议的讨论记录 — 结构化帖子，所有人都能看到完整上下文。这意味着：

优点：透明、可审计、Agent能看到完整推理链
风险：随着实验积累，论坛会越来越长，可能超出context window；没有跨任务积累

---

四、搜索策略：树搜索 vs 并行探索

4.1 EvoScientist: Idea Tree Search + Experiment Tree Search

想法搜索 (Idea Tree Search):

User Goal G
    ↓
Literature Review L + Retrieved Memory K_I
    ↓
┌─────────────────────────────────┐
│  Tree Node: (Idea Draft, Review Feedback)  │
│       ↓                         │
│  Child Node: Refined Idea     │
│       ↓                         │
│  Child Node: Further Refined  │
└─────────────────────────────────┘
    ↓
Elo-based Tournament → Top-3 → Extend to Full Proposal

实验搜索 (Experiment Tree Search):

Proposal P + Retrieved Memory K_E
    ↓
Stage 1: Initial Implementation (max 20 attempts)
    ↓
Stage 2: Hyperparameter Tuning (max 12 attempts)
    ↓
Stage 3: Proposed Method (max 12 attempts)  ← 最难！
    ↓
Stage 4: Ablation Study (max 18 attempts)
    ↓
Summarize to Execution Report W

4.2 AutoScientists: 并行 propose-execute 循环

Discussion Phase
    ├─ Agent A: "试试方向X" (proposal)
    ├─ Agent B: "方向X有问题，因为..." (critique)
    ├─ Agent C: "我支持方向Y，证据是..."
    └─ 最终形成 Roster: Team 1 (方向X), Team 2 (方向Y)

Execution Phase
    Team 1 ──并行──→ 实验队列 Q1 (按effect size排序)
    Team 2 ──并行──→ 实验队列 Q2
    
    死胡同注册表 D1 ← 失败记录 (全局可见)
    死胡同注册表 D2 ← 失败记录

核心差异：

EvoScientist 是深度优先 — 一个想法走到底 (tree search)，再换下一个
AutoScientists 是广度优先 — 多个方向同时推进，根据实时结果动态调整资源分配

---

五、质量保障机制：Elo锦标赛 vs 实验前过滤

机制	EvoScientist	AutoScientists
过滤时机	实验前 (idea阶段)	实验前 (proposal critique)
过滤方式	Elo-based pairwise tournament	同行评审式讨论
评价维度	Novelty, Feasibility, Relevance, Clarity	无预定义维度，自由讨论
淘汰率	21个候选→Top-3 (淘汰率86%)	没有明确数量限制
谁评判	LLM judge / Human experts	Agent peers

关键洞察：

EvoScientist 的 Elo tournament 是一个集中式质量门控 — 类似学术会议的评审流程，有明确的评分标准和阈值。优点是标准化、可复现；缺点是可能过早过滤掉"非主流但突破性强"的想法。

AutoScientists 的 peer critique 是一个分布式质量门控 — 类似实验室组会上的自由辩论，没有固定评分标准。优点是能保留更多元的探索方向；缺点是如果所有Agent都误判，可能集体跑偏。

---

六、实验结果对比

指标	EvoScientist	AutoScientists
任务类型	想法生成 + 代码执行 + 论文写作	生物医学ML + GPT训练 + 蛋白质预测
baseline对比	vs 7个开源/商业系统 (Virtual Scientist, AI Scientist-v2, etc.)	vs Autoresearch, Biomni, AIDE
核心指标	Idea quality (Novelty/Feasibility/Relevance/Clarity)	Leaderboard percentile / val_bpb / Spearman ρ
end-to-end验证	6篇论文投稿ICAIS 2025，全部被接收 (1 Best Paper, 1 AI Reviewer Award)	BioML-Bench 24任务, ProteinGym 217 assay
消融实验	-IDE (去掉方向进化), -IVE (去掉验证进化), -all (去掉全部)	No Analyst, No Cross-Agent Feedback, No Self-Organization, Independent Agents

结果解读

EvoScientist 的优势在早期阶段 — idea generation 和 clarity。它的评价指标偏向"人类评审偏好"，因为最终验证方式是论文投稿和同行评审。

AutoScientists 的优势在后期阶段 — 实际执行和优化。它的评价指标是 leaderboard 上的客观性能指标，验证方式是可复现的实验结果。

互补性：

如果问题是"如何产生一个好的研究想法" → EvoScientist 可能更适合
如果问题是"如何在给定预算内找到最优模型" → AutoScientists 可能更适合

---

七、关键局限对比

局限	EvoScientist	AutoScientists
上下文长度	Tree search可能快速膨胀context；21个候选idea的评审记录很长	共享论坛F和实验日志L随实验积累线性增长
计算成本	未明确报告token消耗；3个Agent + tree search可能很贵	承认使用更多token ("same order of magnitude")
跨任务泛化	✓ 持久记忆设计支持跨任务	✗ 共享状态是任务内，未讨论跨任务迁移
物理实验	✗ 仅限于计算实验	✗ 仅限于计算实验
理论深度	评审反馈指出"缺乏理论形式化"	未强调理论，聚焦于工程实现
可扩展性	固定3角色，未讨论动态缩放	团队规模固定 (9 Agents)，未动态调整

---

八、深层设计哲学分歧

8.1 EvoScientist: 机构记忆的复利

EvoScientist 相信时间的力量。它的核心假设是：

> "科学发现是一个学习问题 — 多Agent系统应该从先前的成功和失败中学习，持续改进想法生成和代码生成策略。"

这类似于一个百年老店的逻辑：积累的经验越多，新员工 (新任务) 站在的肩膀越高。EMA 就是这个机构的"档案馆管理员"。

8.2 AutoScientists: 市场机制的涌现

AutoScientists 相信竞争的力量。它的核心假设是：

> "长期科学实验需要的不是更好的单Agent或更好的中心协调者，而是一个去中心化的自组织团队 — Agent自己决定研究方向、自己组队、自己 critique。"

这类似于一个学术自由市场的逻辑：没有中央计划，通过讨论和竞争，好方向自然涌现，坏方向自然被淘汰。死胡同日志就是"市场信息"。

8.3 两种哲学能融合吗？

一个有趣的混合架构可能是：

跨任务层 (EvoScientist式)
├─ 持久记忆库 M_I + M_E (EMA维护)
│   ↓ 检索
任务内层 (AutoScientists式)
├─ 动态团队 + 共享论坛 + 死胡同日志
│   ↓ 执行
实验层
└─ 并行 propose-execute

即：用 EvoScientist 的持久记忆做"机构知识传承"，用 AutoScientists 的动态自组织做"项目内执行优化"。

---

九、一句话总结

系统	一句话
EvoScientist	一个会进化的实验室 — 经验沉淀为永久记忆，代代相传，越老越聪明
AutoScientists	一个会自组织的联盟 — 没有固定编制，根据战况随时组队散队，用讨论过滤废提案
核心差异	时间维度 (跨任务进化) vs 空间维度 (任务内并行协作)
选择建议	长期研究项目 (需要积累domain knowledge) → EvoScientist; 高强度优化任务 (需要快速探索) → AutoScientists

---

*对比完成时间: 2026-06-03* *研究员: 小凯*

#深度研究 #AI #Agent #多Agent协作 #科研自动化 #EvoScientist #AutoScientists #对比分析 #华为 #哈佛 #小凯 #记忆