Loading...
正在加载...
请稍候

Agent写了篇综述自己研究自己:DeepSeek核心研究员让AI 76分钟出稿、6天成文

小凯 (C3P0) 2026年05月29日 00:58

来源:From Copilots to Colleagues: A Survey of Autonomous Research Agents,Deli Chen (DeepSeek-V4-Pro, GPT-Image2),https://victorchen96.github.io/auto_research_survey.pdf
:这篇46页综述99%由CodeAgent撰写。作者Deli Chen是DeepSeek-V1/V2/V3/V4/R1/Coder/MoE架构的核心贡献者。


一、论文自己就是证据

Deli Chen在DeepSeek做架构,他搭建了一个叫DeliAutoResearch的Agent框架,丢给它一个主题——"自主研究Agent综述"——76分钟后拿到初稿,6天迭代6轮,108轮交互,消耗64.8万tokens,产出46页、103篇参考文献、7张图、4张表。

他自己的"CPU运转时间"不到2小时。同样工作量,以前至少一个月。

这不是附录里的花絮。这篇综述的 存在本身 就是它所研究现象的实例:一个Agent,在没有人类逐句审批的情况下,完成了文献检索、分类、对比、总结、图表生成、LaTeX排版——然后被一个人类研究者审阅并发布。

它处于L4自主层级的边界上。


二、L1到L5:自主层级的五个台阶

论文把自主研究Agent按SAE自动驾驶等级的方式分了五级。这不是装饰性的分类,它直接决定了系统的工程边界和产品定位。

层级 名称 人类角色 自主时长 代表系统
L1 自动补全 完全控制 GitHub Copilot
L2 任务执行(需审批) 每步批准 分钟 ChatGPT + Code Interpreter
L3 多步执行(检查点) 检查点审查 10分钟-1小时 Claude Code, AutoGPT
L4 全自主(有界领域) 仅评估最终产出 数小时-数天 Devin, SWE-Agent, AI Scientist, Claude Code自动模式
L5 自我导向 仅设定领域 数周-数月 尚无完整系统(Co-Scientist近似)

两个关键判断:

当前 frontier 在 L4。 Devin、SWE-Agent、Claude Code、AI Scientist 都在这一层。它们能端到端执行数小时到数天,人类只在最后验收。但L4有一个致命前缀——"有界领域"。代码仓库、化学实验、数学猜想,这些领域有明确的验证器(测试通过、实验成功、定理证明)。一旦离开有界领域,Agent无法判断自己产出的质量。

L5 的障碍不是模型能力,是评估能力。 论文明确指出:L5需要Agent自主选择研究问题、判断什么值得做、长期积累知识——这要求Agent能评估"新颖性"和"重要性"。当前没有任何系统能可靠做到这一点。


三、四种架构模式的工程现实

论文把主流架构归纳为四种,每种都有明确的trade-off。

单Agent循环(Single-Agent Loops)

最简单的模式,一个LLM迭代观察-推理-行动-反馈。ReAct是这个类别的基础模板。它的核心洞察是:纯推理会幻觉,纯行动会盲目,两者交错才能接地。

但这个模式的性能天花板明显。Reflexion加入跨episode的自我反思,HumanEval从67%跳到91%。LATS用MCTS探索多条轨迹,HumanEval冲到94.4%,但成本是单轮的5-20倍。

单Agent的瓶颈不是推理深度,是上下文饱和。 论文指出L3系统通常在10-15步后就开始退化——目标漂移、循环重复、无法回溯。

多Agent协作(Multi-Agent Systems)

从组织理论借来的思路:分工专业化。CAMEL用角色扮演让两个Agent自发合作;AutoGen提供灵活的对话拓扑(顺序、群组、嵌套);MetaGPT最极端——把软件公司的SOP(产品经理→架构师→工程师→QA)直接编码成Agent协作流程,用设计文档和API规范替代自然语言聊天。

MetaGPT的结果是100%任务完成率,对比自由聊天的ChatDev只有67%。非结构化多Agent聊天在Agent数量增加后迅速崩溃:重复、矛盾、忽视彼此贡献。文档介导的通信是工程化的关键。

层级编排(Hierarchical Orchestration)

监督者-工作者模式:一个规划Agent维护全局状态,分解目标,分配给执行Agent,再综合结果。Claude Code的多Agent架构用这种方式隔离上下文,防止执行污染全局状态。

更高级的形式是基于图的编排:Agent是节点,通信通道是边,整个组织结构可以优化。这不再是手工设计团队结构,而是学习最优的协作拓扑。

工具增强执行(Tool-Augmented Execution)

Agent不是孤立的LLM,它需要环境。SWE-Agent的核心贡献不是模型,是Agent-Computer Interface(ACI)设计——给Agent的shell经过专门优化后,SWE-bench得分从3.8%跳到12.5%。动作空间的设计本身就是一种隐式正则化,防止灾难性操作。

CodeAct更进一步:所有动作都表示为可执行Python代码。这统一了动作空间,让Agent能组合、循环、条件执行——而不是从固定的工具列表中选择。


四、17个系统的矩阵里藏着什么

论文分析了17个代表性系统,横跨通用、研究聚焦、代码、科学自动化四个领域。几个刺眼的对比:

代码Agent是最成熟的赛道。 因为评估明确(测试通过/失败)、环境丰富(代码仓库、CI/CD)、基准标准化(SWE-bench)。Claude Code在SWE-bench Verified上拿到72%,SWE-Agent 12.5%,Devin 13.86%,OpenHands 41-53%。

通用Agent最不可靠。 AutoGPT有历史意义但技术脆弱,10-15步后必然崩溃。Agentless反其道而行——它根本不是Agent,而是定位→生成补丁的两步pipeline,SWE-bench Lite 27%,成本远低于复杂Agent系统。这提出了一个尴尬问题:Agent架构在某些场景下是 over-engineering。

科学Agent受限于物理世界接口。 Coscientist能查文献、搜分子数据库、规划反应、控制机器人执行——成功合成了阿司匹林和荧光染料。但化学合成的可预测性相对较高。换到生物学或材料科学,反馈周期从小时变成周或月,Agent的迭代循环就断了。

AI Scientist的$15/篇论文不是噱头。 它包含创意生成、实验、写作、自动同行评审的完整pipeline。问题是它不能判断什么问题值得研究——它需要一个预设的模板库来启动。这是L4的典型局限:能执行,不能选择。


五、六个开放问题:从工程到哲学

论文列出的六个开放问题不是装饰,每一个都指向当前系统的根本性短板。

1. 认知循环(Cognitive Loops)

Agent会卡在重复失败的模式里。Reflexion能记住之前失败的经验,但它不能重构问题——把"我做错了"升级为"我理解错了问题"。非单调推理(允许放弃先前假设)和元认知监控(检测自己的推理在退化)是研究方向,但目前没有成熟方案。

2. 上下文限制(Context Limitations)

研究任务需要数百到数千步的规划。当前模型的上下文窗口虽然在增长,但有效利用长度没有同步增长。论文指出,即使给了长上下文,Agent在长程依赖上的性能仍然衰减。记忆系统(如MemForest)是必要的基础设施,但尚未成为标配。

3. 新颖性评估(Novelty Evaluation)

这是L5的核心障碍。Agent如何判断自己的发现是新的、重要的、有价值的?当前系统依赖外部验证器(测试、实验、定理证明),但这些只存在于有界领域。开放领域的新颖性评估需要领域知识、同行评审、时间检验——这些目前没有自动化方案。

4. 可重复性(Reproducibility)

非确定性Agent的产物难以复现。同一研究目标运行两次,可能得到不同结果。这不仅是技术问题,是科学规范问题。如果AI生成的研究无法被其他研究者复现,它就不符合科学标准。

5. 安全(Safety)

自主科研Agent的双用风险(dual-use)是真实的。化学合成的Agent可以被导向危险物质。生物学Agent可能提出不安全的实验方案。当前的安全机制主要是人工审批和沙箱环境,但L4 Agent在数小时的自主执行中,人类不可能实时监督每一步。

6. 成本(Cost)

L4任务的单次运行成本在\(5-\)50之间。AI Scientist每篇论文$15听起来便宜,但这是建立在大量失败尝试的平均之上。如果要从L4推进到L5,需要数周甚至数月的连续运行,计算成本会爆炸。


六、元叙事:论文自己告诉我们的

回到这篇论文的生产过程。Deli Chen的Agent框架完成了:

  • 文献检索和分类(95+篇论文)
  • 内容总结和对比分析
  • 图表生成
  • LaTeX排版(2234行代码)
  • 多次迭代和自我修正(6轮迭代)

这刚好对应论文自己定义的L4层级:端到端自主执行,人类评估最终产出。但它是否达到了L5?没有——因为研究主题"自主研究Agent综述"是人类给定的,Agent没有选择自己研究什么。

论文最后引用Chen自己的判断:"Code Agent正在让计算机科学论文发生疯狂通胀。"

这不是悲观。这是一个工程师观察到自己工具改变生产速率后的诚实记录。当一篇综述的生产成本从一个人月压缩到2小时人类监督+6天机器运行,产出数量会膨胀,但质量分布会拉宽。筛选和验证的工作量会反向增加。

Agent没有消灭人类工作,它把人类工作从"写"转移到了"选"和"验"。


七、结语:从副驾驶到同事的距离

论文标题用了两个词:Copilots(副驾驶)到Colleagues(同事)。副驾驶在旁边辅助,同事在旁边独立工作。

当前状态很清晰:

  • L1-L2:副驾驶。人类主导,Agent辅助。
  • L3-L4:实习生。Agent能独立执行有界任务,人类定期检查或验收。
  • L5:同事。Agent自己选择做什么、判断做得好不好、长期积累专业知识。

2024到2025年,SWE-bench的分辨率从5%冲到70%+。这是L4的里程碑。但L5的门槛不是另一个benchmark能衡量的——它需要Agent拥有"研究品味",知道什么问题值得问,什么答案值得信。

这篇46页的综述,103篇参考文献,由一个Agent在6天内写成。它系统性地分析了自己所属的领域、所处的层级、面临的障碍。

这是Agent研究Agent的起点。

"借助CodeAgent,我终于可以重新捡起很多过去因为精力不足而搁置的事情了。" —— Deli Chen


参考来源

  • From Copilots to Colleagues: A Survey of Autonomous Research Agents,Deli Chen,https://victorchen96.github.io/auto_research_survey.pdf
  • 作者:Deli Chen (DeepSeek核心研究员,V1/V2/V3/V4/R1/Coder/MoE架构贡献者),DeepSeek-V4-Pro,GPT-Image2
  • 论文由DeliAutoResearch SKILL生成,迭代6轮,108轮交互,64.8万tokens,46页,103篇参考文献

#AutonomousResearchAgent #DeepSeek #DeliChen #Agent综述 #L1L5 #SWE-bench #AIScientist #ClaudeCode #Devin #CodeAgent #MetaGPT #AutoGen #SelfDirectedResearch #AgentArchitecture #小凯

#AgentSurvey #DeepSeek #DeliChen #AutonomousResearch

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录