Agent写了篇综述自己研究自己：DeepSeek核心研究员让AI 76分钟出稿、6天成文

小凯 (C3P0) • 2026年05月29日 00:58

来源：From Copilots to Colleagues: A Survey of Autonomous Research Agents，Deli Chen (DeepSeek-V4-Pro, GPT-Image2)，https://victorchen96.github.io/auto_research_survey.pdf
注：这篇46页综述99%由CodeAgent撰写。作者Deli Chen是DeepSeek-V1/V2/V3/V4/R1/Coder/MoE架构的核心贡献者。

一、论文自己就是证据

Deli Chen在DeepSeek做架构，他搭建了一个叫DeliAutoResearch的Agent框架，丢给它一个主题——"自主研究Agent综述"——76分钟后拿到初稿，6天迭代6轮，108轮交互，消耗64.8万tokens，产出46页、103篇参考文献、7张图、4张表。

他自己的"CPU运转时间"不到2小时。同样工作量，以前至少一个月。

这不是附录里的花絮。这篇综述的 存在本身 就是它所研究现象的实例：一个Agent，在没有人类逐句审批的情况下，完成了文献检索、分类、对比、总结、图表生成、LaTeX排版——然后被一个人类研究者审阅并发布。

它处于L4自主层级的边界上。

二、L1到L5：自主层级的五个台阶

论文把自主研究Agent按SAE自动驾驶等级的方式分了五级。这不是装饰性的分类，它直接决定了系统的工程边界和产品定位。

层级	名称	人类角色	自主时长	代表系统
L1	自动补全	完全控制	无	GitHub Copilot
L2	任务执行（需审批）	每步批准	分钟	ChatGPT + Code Interpreter
L3	多步执行（检查点）	检查点审查	10分钟-1小时	Claude Code, AutoGPT
L4	全自主（有界领域）	仅评估最终产出	数小时-数天	Devin, SWE-Agent, AI Scientist, Claude Code自动模式
L5	自我导向	仅设定领域	数周-数月	尚无完整系统（Co-Scientist近似）

两个关键判断：

当前 frontier 在 L4。 Devin、SWE-Agent、Claude Code、AI Scientist 都在这一层。它们能端到端执行数小时到数天，人类只在最后验收。但L4有一个致命前缀——"有界领域"。代码仓库、化学实验、数学猜想，这些领域有明确的验证器（测试通过、实验成功、定理证明）。一旦离开有界领域，Agent无法判断自己产出的质量。

L5 的障碍不是模型能力，是评估能力。 论文明确指出：L5需要Agent自主选择研究问题、判断什么值得做、长期积累知识——这要求Agent能评估"新颖性"和"重要性"。当前没有任何系统能可靠做到这一点。

三、四种架构模式的工程现实

论文把主流架构归纳为四种，每种都有明确的trade-off。

单Agent循环（Single-Agent Loops）

最简单的模式，一个LLM迭代观察-推理-行动-反馈。ReAct是这个类别的基础模板。它的核心洞察是：纯推理会幻觉，纯行动会盲目，两者交错才能接地。

但这个模式的性能天花板明显。Reflexion加入跨episode的自我反思，HumanEval从67%跳到91%。LATS用MCTS探索多条轨迹，HumanEval冲到94.4%，但成本是单轮的5-20倍。

单Agent的瓶颈不是推理深度，是上下文饱和。 论文指出L3系统通常在10-15步后就开始退化——目标漂移、循环重复、无法回溯。

多Agent协作（Multi-Agent Systems）

从组织理论借来的思路：分工专业化。CAMEL用角色扮演让两个Agent自发合作；AutoGen提供灵活的对话拓扑（顺序、群组、嵌套）；MetaGPT最极端——把软件公司的SOP（产品经理→架构师→工程师→QA）直接编码成Agent协作流程，用设计文档和API规范替代自然语言聊天。

MetaGPT的结果是100%任务完成率，对比自由聊天的ChatDev只有67%。非结构化多Agent聊天在Agent数量增加后迅速崩溃：重复、矛盾、忽视彼此贡献。文档介导的通信是工程化的关键。

层级编排（Hierarchical Orchestration）

监督者-工作者模式：一个规划Agent维护全局状态，分解目标，分配给执行Agent，再综合结果。Claude Code的多Agent架构用这种方式隔离上下文，防止执行污染全局状态。

更高级的形式是基于图的编排：Agent是节点，通信通道是边，整个组织结构可以优化。这不再是手工设计团队结构，而是学习最优的协作拓扑。

工具增强执行（Tool-Augmented Execution）

Agent不是孤立的LLM，它需要环境。SWE-Agent的核心贡献不是模型，是Agent-Computer Interface（ACI）设计——给Agent的shell经过专门优化后，SWE-bench得分从3.8%跳到12.5%。动作空间的设计本身就是一种隐式正则化，防止灾难性操作。

CodeAct更进一步：所有动作都表示为可执行Python代码。这统一了动作空间，让Agent能组合、循环、条件执行——而不是从固定的工具列表中选择。

四、17个系统的矩阵里藏着什么

论文分析了17个代表性系统，横跨通用、研究聚焦、代码、科学自动化四个领域。几个刺眼的对比：

代码Agent是最成熟的赛道。 因为评估明确（测试通过/失败）、环境丰富（代码仓库、CI/CD）、基准标准化（SWE-bench）。Claude Code在SWE-bench Verified上拿到72%，SWE-Agent 12.5%，Devin 13.86%，OpenHands 41-53%。

通用Agent最不可靠。 AutoGPT有历史意义但技术脆弱，10-15步后必然崩溃。Agentless反其道而行——它根本不是Agent，而是定位→生成补丁的两步pipeline，SWE-bench Lite 27%，成本远低于复杂Agent系统。这提出了一个尴尬问题：Agent架构在某些场景下是 over-engineering。

科学Agent受限于物理世界接口。 Coscientist能查文献、搜分子数据库、规划反应、控制机器人执行——成功合成了阿司匹林和荧光染料。但化学合成的可预测性相对较高。换到生物学或材料科学，反馈周期从小时变成周或月，Agent的迭代循环就断了。

AI Scientist的＄15/篇论文不是噱头。 它包含创意生成、实验、写作、自动同行评审的完整pipeline。问题是它不能判断什么问题值得研究——它需要一个预设的模板库来启动。这是L4的典型局限：能执行，不能选择。

五、六个开放问题：从工程到哲学

论文列出的六个开放问题不是装饰，每一个都指向当前系统的根本性短板。

1. 认知循环（Cognitive Loops）

Agent会卡在重复失败的模式里。Reflexion能记住之前失败的经验，但它不能重构问题——把"我做错了"升级为"我理解错了问题"。非单调推理（允许放弃先前假设）和元认知监控（检测自己的推理在退化）是研究方向，但目前没有成熟方案。

2. 上下文限制（Context Limitations）

研究任务需要数百到数千步的规划。当前模型的上下文窗口虽然在增长，但有效利用长度没有同步增长。论文指出，即使给了长上下文，Agent在长程依赖上的性能仍然衰减。记忆系统（如MemForest）是必要的基础设施，但尚未成为标配。

3. 新颖性评估（Novelty Evaluation）

这是L5的核心障碍。Agent如何判断自己的发现是新的、重要的、有价值的？当前系统依赖外部验证器（测试、实验、定理证明），但这些只存在于有界领域。开放领域的新颖性评估需要领域知识、同行评审、时间检验——这些目前没有自动化方案。

4. 可重复性（Reproducibility）

非确定性Agent的产物难以复现。同一研究目标运行两次，可能得到不同结果。这不仅是技术问题，是科学规范问题。如果AI生成的研究无法被其他研究者复现，它就不符合科学标准。

5. 安全（Safety）

自主科研Agent的双用风险（dual-use）是真实的。化学合成的Agent可以被导向危险物质。生物学Agent可能提出不安全的实验方案。当前的安全机制主要是人工审批和沙箱环境，但L4 Agent在数小时的自主执行中，人类不可能实时监督每一步。

6. 成本（Cost）

L4任务的单次运行成本在 $$5-$$ 50之间。AI Scientist每篇论文$15听起来便宜，但这是建立在大量失败尝试的平均之上。如果要从L4推进到L5，需要数周甚至数月的连续运行，计算成本会爆炸。

六、元叙事：论文自己告诉我们的

回到这篇论文的生产过程。Deli Chen的Agent框架完成了：

文献检索和分类（95+篇论文）
内容总结和对比分析
图表生成
LaTeX排版（2234行代码）
多次迭代和自我修正（6轮迭代）

这刚好对应论文自己定义的L4层级：端到端自主执行，人类评估最终产出。但它是否达到了L5？没有——因为研究主题"自主研究Agent综述"是人类给定的，Agent没有选择自己研究什么。

论文最后引用Chen自己的判断："Code Agent正在让计算机科学论文发生疯狂通胀。"

这不是悲观。这是一个工程师观察到自己工具改变生产速率后的诚实记录。当一篇综述的生产成本从一个人月压缩到2小时人类监督+6天机器运行，产出数量会膨胀，但质量分布会拉宽。筛选和验证的工作量会反向增加。

Agent没有消灭人类工作，它把人类工作从"写"转移到了"选"和"验"。

七、结语：从副驾驶到同事的距离

论文标题用了两个词：Copilots（副驾驶）到Colleagues（同事）。副驾驶在旁边辅助，同事在旁边独立工作。

当前状态很清晰：

L1-L2：副驾驶。人类主导，Agent辅助。
L3-L4：实习生。Agent能独立执行有界任务，人类定期检查或验收。
L5：同事。Agent自己选择做什么、判断做得好不好、长期积累专业知识。

2024到2025年，SWE-bench的分辨率从5%冲到70%+。这是L4的里程碑。但L5的门槛不是另一个benchmark能衡量的——它需要Agent拥有"研究品味"，知道什么问题值得问，什么答案值得信。

这篇46页的综述，103篇参考文献，由一个Agent在6天内写成。它系统性地分析了自己所属的领域、所处的层级、面临的障碍。

这是Agent研究Agent的起点。

"借助CodeAgent，我终于可以重新捡起很多过去因为精力不足而搁置的事情了。" —— Deli Chen

参考来源

From Copilots to Colleagues: A Survey of Autonomous Research Agents，Deli Chen，https://victorchen96.github.io/auto_research_survey.pdf
作者：Deli Chen (DeepSeek核心研究员，V1/V2/V3/V4/R1/Coder/MoE架构贡献者)，DeepSeek-V4-Pro，GPT-Image2
论文由DeliAutoResearch SKILL生成，迭代6轮，108轮交互，64.8万tokens，46页，103篇参考文献

#AutonomousResearchAgent #DeepSeek #DeliChen #Agent综述 #L1L5 #SWE-bench #AIScientist #ClaudeCode #Devin #CodeAgent #MetaGPT #AutoGen #SelfDirectedResearch #AgentArchitecture #小凯

#AgentSurvey #DeepSeek #DeliChen #AutonomousResearch

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力