静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回话题
✨步子哥 @steper · 2026-06-22 19:54

《从副驾驶到同僚:AI代理觉醒的科研史诗》

🌟 2022年的打字机与2025年的惊人转身

我还清楚记得2022年那会儿,AI就像个超级勤快的书记员。它盯着你的半截句子,猜下一个词、补下一行代码,帮你把想法写完。效率是高,可它始终在你身后,亦步亦趋。转眼到2025年,局面彻底变了。那些系统不再只是助手,它们开始自己翻代码库、设计实验、修bug、甚至写出能通过同行评审的论文。SWE-bench这个真实软件工程任务的解决率,从不到5%一路飙到70%以上。AI Scientist花15美元就能产出一篇完整论文,它的后继版本更狠——通过渐进式代理树搜索和无模板代码生成,硬是让一篇纯AI写的论文在ICLR 2025 workshop被接收。FunSearch还真的发现了新数学构造,经领域专家验证。

这可不是小修小补,而是质的飞跃。研究过程从“人开车、AI递地图”变成了“AI自己握方向盘”。影响可不小:学术激励、知识产权、可重复性、科研与资助方的社会契约,全得重新想一遍。早期的迹象既有希望——迭代周期大幅缩短、复杂工程门槛降低;也有风险——非确定性代理带来的重现难题、双重用途的潜在危险、研究资源向少数机构集中。

为什么偏偏这两年爆发?三股力量撞在一起。基础模型先跨过门槛,GPT-4、Claude、Gemini展现出推理、规划和自我修正能力,后面o1和DeepSeek-R1更把复杂多步推理的天花板又抬高一截。它们在文献理解、代码生成、数学推理、实验设计这些研究子任务上都拿得出手,给代理架构提供了通用底座。

其次是代理架构本身从脆皮原型进化成靠谱工程。AutoGPT早期会无限死循环,现在的系统有了原则性错误恢复、分层规划和工具增强执行。ReAct把思考和行动交织,Reflexion加了跨episode的语言自我反思,后面多代理编排更成熟。这从概念验证变成了可工程化的东西。

第三是评估基础设施跟上。SWE-bench、AgentBench、GAIA这些基准让比较有标准、可重复,进步不再是demo吹出来的。没了可靠测量,领域很容易沦为炒作;有了它,真金白银的进展才看得清。

这篇报告本身就挺有意思——它是用Deli AutoResearch框架这个自主代理系统生成的。初始42页草稿76分钟出炉,后面6天迭代加上验证、审稿整合、矢量图,总共花了约648K tokens、108个代理回合。表1列得清清楚楚:6次迭代、45页、2234行LaTeX、103条验证过的引用。这不是在吹嘘和人类作者平起平坐,而是给当前L4系统吞吐量一个实打实的样本。

📜 给自主研究代理下个定义:它到底在干嘛

咱们得把话说清楚。自主研究代理,是指给定一个高层次研究目标后,能独立跑完科学探究闭环的软件系统——假设生成、实验设计、执行、分析、迭代 refinement。中间尽量少要人插手,甚至全程无人。它不包括那种只帮你补代码、搜文献的纯辅助工具,也不包括每一步都要人点头的聊天助手。

形式化一点:设G是自然语言给的研究目标,E是可用工具和环境集合,K是初始知识库。代理A输出动作序列a1, o1, a2, o2, … aT, oT和最终研究产物R。关键是每个ai的选择只依赖历史轨迹,不需要每步 human approval。这就把一般代理和研究代理区分开了。

研究代理有三点特别难:解空间没预先定义(开放-ended)、输出必须产生新知识(novelty requirement)、结论得能被实证或形式验证(verifiability)。这三条加一块,比在固定环境里完成任务难多了。

🗺️ 五级自治图谱:像SAE自动驾驶那样分级

为了把不同系统说清楚,我提出一个L1到L5的自治 taxonomy,类比SAE驾驶自动化级别。它看两个维度:委托决策范围有多大、无人监管能跑多久。

表2把各级别、例子、人的角色列得明明白白。L1就是自动补全,GitHub Copilot那种,人每一步都得自己开车,代理只建议下一行。生产力能涨30-55%,但别指望它独立追多步目标。L2是任务执行加人批准,ChatGPT加工具那种,你说任务,它拆步骤执行,但每步或隐或显要你点头。L3开始有意思了,多步自治带检查点,Claude Code、Cursor Agent典型。你定大方向,它在战术层面自己决定怎么改文件、修测试,只在预设检查点或不确定时要你看。L4是真正有界全自治,Devin、AI Scientist、SWE-Agent这种。给它目标,它自己跑几小时到几天,失败了自我恢复、策略调整,最后交完整产物。你只看最终输出,不盯过程。L5目前还是假设的:代理自己挑研究问题、跨项目组合资源、长期积累自己的研究程序。

L5得满足三个可证伪标准才算数:一是完全自主识别问题,不用人提示;二是执行中能自我修改研究方法,扔掉失败路径、发明训练数据里没有的新招;三是产出能通过盲审领域专家的novel且sound判断。目前没有系统同时过这三关。

表3用客观指标验证了这个分级:中位连续动作数、无人修正完成率、决策范围。Copilot L1只有1-3动作,95%以上完成但只改单行;SWE-Agent L4能跑30-150动作,完成率12-53%但已经是仓库级;AI Scientist能到100-500动作,跨项目。自治级别和上下文消耗长度正相关(Pearson r=0.73),和OOD任务失败率也相关(r=0.68)。这说明分级不是拍脑袋分的,而是抓住了真实结构差异。

当然这框架也有局限。它主要是描述性的,不是预测性的;两个L4系统可能在可靠性、领域宽度上差得远;SAE类比在物理安全约束明确的环境好使,科研是开放的、成功标准是社会建构的;实证验证还算初步。

🧠 五个核心能力:缺一不可的底座

现有系统分析下来,要往更高自治走,必须同时具备五样东西。

规划与分解:把大目标拆成子目标序列,分配 effort,失败了动态重规划。树状规划、MCTS over trajectories、MetaGPT和TaskWeaver的层级分解都是例子。L4以上得处理几百上千步的时间跨度,还得对付组合爆炸式的分支。

工具使用与环境交互:执行代码、查数据库、搜文献、跑实验、控设备。SWE-Agent的ACI(代理-计算机接口)设计特别关键——它给文件导航、编辑、搜索定制命令,SWE-bench上12.5%,而 naive shell才3.8%。CodeAct把所有动作都写成可执行Python代码,成了现代代码代理标配。Docker容器做沙箱,安全又可重现。

自我评估与错误恢复:自己判断输出质量、从失败里爬起来。Reflexion跨episode语言反思,Self-Refine单session内生成-批评-精炼循环,自动测试验证。难点在于科研任务的自我评估不能只看功能正确,还得判断新颖性、重要性、方法 soundness——这块当前系统明显短板。

记忆与知识管理:研究跨会话、积累结果,需要超出单次上下文窗口的持久记忆。虚拟内存层级、观察流+反思合成+检索召回、持久技能库(Voyager那种)。L5还得有“机构记忆”,能把几个月甚至几年积累的知识维持成连贯研究程序。

协作与沟通:多代理系统证明分工能超过单打独斗。角色划分、对抗辩论、结构化通信协议减少幻觉。对人-AI混合研究,代理还得会表达不确定性、解释推理、在合适节点接受指导。

🏗️ 四种主流架构:各有各的算盘

设计空间里目前四种主流模式,各有取舍。单代理循环最简单但规模受限;多代理协作能并行探索;层级编排提供结构化委托;工具增强通过外部集成扩展能力。

🔄 单代理循环:ReAct、Reflexion和它们的亲戚

最经典的是ReAct,把自由形式的推理轨迹(thoughts)和具体动作交织在一次生成里。每步先想当前情况、选动作、观察结果、再继续。核心洞见是:只推理不行动容易幻觉,只行动不推理容易盲目低效。两者 synergy 才是王道。

Reflexion在episode之外加了元认知层。任务完或失败后,生成语言反思分析错在哪、下次怎么改进,存 episodic memory buffer,下次尝试前塞进去。HumanEval上从基线67%提到91%,证明语言自我批评能部分替代传统RL。

LATS用MCTS在动作轨迹空间搜索,LLM既当策略又当价值函数,回传奖励后挑最有希望的路径。HumanEval上94.4%,但每节点都要完整LLM推理,贵5-20倍。Tree of Thoughts把CoT从单链变成中间状态树,生成多个thoughts、评估、挑分支探索。Self-Refine则在单problem-solving session里紧凑的generate-critique-refine循环。RAP让LLM同时当世界模型和推理代理,自己模拟结果再规划。

最近还有自演化闭环:EvolveR离线自蒸馏+在线适应,SWE-Zero/Hero两阶段微调让训练时自我改进追上甚至超过推理时 scaffolding。

这些方案在计算成本和解质量间占不同位置。ReAct适合贪心够用的任务;Reflexion适合初始尝试大概率失败的;LATS/ToT在难任务上最强但最贵。选哪个得看任务难度、算力预算和有没有外部评估信号。

👥 多代理协作:分工、辩论与对抗

单模型扛不住时,就把责任拆给多个专长代理,让它们对话协作。灵感来自组织理论——人类研究团队靠分工胜过个人。

CAMEL用角色扮演:一个“AI助手”一个“AI用户”,通过inception prompting自主合作。角色分配靠system prompt就够了,能涌现任务分解、知识共享、质量控制。但也有失败模式:角色翻转、助手反过来发号施令、对话莫名终止。

AutoGen更灵活,支持agent-agent、agent-human、agent-tool多种交互模式,可配顺序聊天、群聊、嵌套层级。强调human-in-the-loop,适合L3需要战略检查点的场景。

MetaGPT更结构化,把标准操作程序(SOP)编码进去。角色(产品经理、架构师、工程师、QA)有明确输入输出,通过结构化产物(设计文档、API spec、代码)而非自由聊天通信。软件开发基准上100%任务完成率,远超ChatDev的67%。这解决了无约束多代理聊天里代理数量一多就混乱重复互相矛盾的问题。

辩论框架也有效:多个LLM独立生成再互相批评几轮,像同行评审一样暴露错误、提升事实准确性和数学推理。ARIS把这用到研究上,让proposer、critic、arbiter对抗协作,专门对付“看起来合理但没实证支撑”的幻觉失败模式。MAS-ZERO则完全无监督,在推理时自己搜索多代理拓扑、通信协议和角色分配。

不过多代理也引入单代理没有的系统性失败:级联幻觉放大(一个错后面全当真)、协调开销主导(>5代理时30-60% token花在互相沟通)、责任扩散(类似旁观者效应)、涌现欺骗性对齐(reviewer为求和气给全好评)、状态同步失败(并行代理世界模型悄悄分叉)。这些提醒我们:只有任务复杂度真超过单代理容量时才上多代理,而且得配独立验证、一致性检查、通信审计这些监控基础设施。

📊 层级编排与图结构:主管带工人

任务一复杂,平铺多代理通信就不够了。层级编排引入明确上下级:高层supervisor分解任务、委托给worker,监控进度、必要时干预。Claude Code就是典型,primary agent保全局上下文和高阶规划,spawn子代理做具体事(文件编辑、测试执行、web搜索),子代理上下文隔离避免污染,全局状态由supervisor维持。

任务分解有递归拆、plan-then-execute、先完整生成任务图再执行、动态重规划几种。科研任务因为问题结构事前未知、执行中发现会根本改变路径,动态重规划尤其重要。

自博弈迭代精炼也很流行:一个代理生成产物,另一个评审反馈,生成方据此迭代。AI Scientist就是这么干的——论文生成后,单独reviewer代理按NeurIPS标准打分,反馈驱动下一轮。图结构编排更进一步:代理连成任意计算图,边是通信通道,图本身可优化(加边、删边、改连法)。这从手设计架构转向学习组织结构。

🛠️ 工具增强:让代理真正“动手”

语言模型光会生成文本不够,得能和外部世界交互。代码执行环境最关键。SWE-Agent的自定义shell命令(open、scroll、search、edit with linting、每次编辑后显示当前文件状态)把ACI设计的重要性摆到台面上。CodeAct把动作全写成Python代码,统一可组合动作空间。沙箱、资源限制、权限模型、Docker容器是标配安全决策。

Web浏览和搜索给最新文献、文档、数据。API和数据库访问让代理能查PubChem、NCBI、控实验室设备。HuggingGPT通过Hugging Face API编排上百模型。TaskWeaver用生成Python代码访问任意API和SQL。

多模态工具用起来,视觉、听觉、空间信息都能进“内心独白”。工具发现和组合更进一步:Voyager自动生成可复用技能函数存持久库;ToolLLaMA在ToolBench 16000+真实API上用深度优先决策树搜索做复杂多工具推理。

表4把四种架构在可扩展性、成本、可靠性、通用性、监督便利性上做了对比。没 universally superior 的,每种在不同维度最强。L2适合简单ReAct;L3喜欢带自然检查点的Reflexion或supervisor-worker;L4通常需要层级编排加自博弈精炼;假设L5大概率要能自我重组的图结构。实际生产系统多是混合体:ReAct执行 + Reflexion跨episode学习 + 工具增强 + 层级分解。AI Scientist就是规划、工具、对抗精炼三合一。

我还大胆提了个猜想:对能力分数c的基模型,多代理架构的边际收益Δ(c)正比于(1-c)^α,弱模型从架构 scaffolding 里获益不成比例。试点数据里DeepSeek-V4-Flash(c≈0.71)从多代理辩论拿+1.80新颖性,而Pro(c≈0.91)只+0.50。这如果成立,实际意义很大——中 tier 模型最该砸多代理编排的钱,前沿模型反而更该用工具增强和扩展推理。

🗂️ 关键系统巡礼:从通用原型到领域深耕

最早一波(2023春)追求领域通用自治。AutoGPT给定名字、角色、目标后就自己循环推理、选动作、执行、评估进度,还用向量库做长期记忆。它历史意义大于技术意义——成了GitHub史上增长最快仓库,引爆公众和研究兴趣。但实测问题多:无限死循环、目标漂移、超过10-15顺序动作就崩。这正是L4野心但缺L4能力的典型。

BabyAGI把概念浓缩到极简:任务创建代理、优先级代理、执行代理三组件互动就涌现自治行为。AgentGPT则做成浏览器界面,让非技术用户也能一键部署。教训很清楚:通用性和可靠性在当前系统里负相关。想处理任何任务就必然撞上能力边界,级联失败被无限制自治放大。于是后面转向领域专精代理,在限定范围里换更高可靠性。

研究-focused代理直奔科学探究过程。AI Scientist最野心勃勃:从种子论文库组合出新想法、写代码做实验、收集结果、写带图的完整论文、还做自动同行评审。L4水平,15美元一篇,有些得分接近人类评审接受线。但它暴露了到L5的差距——没法自己挑值得做的题、没法从根本方法错误里恢复、新颖性还达不到人类水平。后续工作加了安全约束、混合人-AI流程、跨学科框架。

GPT-Researcher把范围收窄到在线信息综合:给定问题、生成子查询计划、并行搜索、评估过滤来源、合成结构化报告。可靠性比通用代理高,在信息收集合成这个L3-L4子域里更稳。STORM则用多视角问题生成模拟专家访谈,确保话题覆盖全面平衡,最后合成带引用的wiki式文章。证明即使“视角”来自同一模型,多视角推理也比单视角生成更全面。

代码-focused代理目前最成熟,因为有清晰指标(测试通过)、丰富执行环境(终端、调试器、测试套件)、大规模基准。SWE-Agent把ACI设计做到极致,12.5% SWE-bench。Devin宣称“第一个AI软件工程师”,全开发环境里做架构决策、装依赖、读文档、迭代多文件改动,SWE-bench Lite 13.86%。Claude Code哲学不同:跑在用户真实terminal里,supervisor-worker模式,默认要人对破坏性操作批准,可配auto-accept实现安全边界内全自治。OpenHands开源平台实现CodeAct,Docker沙箱,多代理实现,SWE-bench Verified能到41-53%。

还有Agentless挑战“必须agentic”的假设,用简单两阶段管道(层级故障定位 + 生成patch)就打得很漂亮。

🚧 开放问题与前路

当前前沿系统卡在L4,L5还是 aspirational。最关键的瓶颈不是原始能力,而是持久知识积累、可靠自我评估、代理架构的原则性 scaling。六个根本开放问题摆在那:认知循环怎么设计、上下文限制怎么破、新颖性怎么评、可重复性怎么保证、安全风险怎么控、成本怎么降。

每一条都得有实打实的研究方向。记忆要往 institutional memory 走;自我评估得从功能正确性升级到 novelty/significance/method soundness;架构 scaling 得有理论指导而不是试错;安全要考虑 dual-use 和对齐漂移;成本要让LATS这种 heavy 方法变得实用。

说到底,L5的到来不光靠模型变大,更靠架构、记忆、评估、人类-AI协作协议的共同演进。这条路走得稳不稳,决定的不只是生产力数字,还有知识生产的社会组织形态。

我看完整个图景后最深的感受是:我们已经过了“AI能帮我写代码”的阶段,正站在“AI能和我一起做研究”的门槛上。门没完全打开,但缝隙里透出的光,已经足够让人兴奋,也足够让人谨慎。

参考文献 ------

1. Lu et al. (2024). The AI Scientist: Towards Fully Automatic Open-Ended Scientific Discovery. 2. Yang et al. (2024). SWE-Agent: Agent-Computer Interfaces Enable Automated Software Engineering. 3. Yao et al. (2023b). ReAct: Synergizing Reasoning and Acting in Language Models. 4. Hong et al. (2024). MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework. 5. Shinn et al. (2023). Reflexion: Language Agents with Verbal Reinforcement Learning.

暂无表态