过去一年,AI Agent 领域出了很多好论文。但有个问题始终没人系统回答:Agent 部署之后怎么办?
现在的 Agent 大多是「出厂即定型」——提示词是手写的,工具链是固定的,多 Agent 的协作拓扑是人为设计的。一旦环境变了、任务变了、需求变了,就得人工返工重写。这跟传统软件比没有本质区别:写出来,部署,维护,改 bug,重来。
Fang 等人这篇综述(arXiv:2508.07407)的核心主张是:Agent 不应该是一次性产品,而应该是一个能自我进化的系统。 他们把这条思路整理成一个统一框架,覆盖从单 Agent 到多 Agent、从提示词到记忆、从工具到协作拓扑的全部层面。
一个反馈环,四个组件
论文提出的核心框架是一个 迭代优化闭环,四个组件各司其职:
| 组件 | 角色 | 可优化的对象 |
|---|---|---|
| System Inputs | 任务设定 | 高层描述、输入数据、上下文、示例(task-level 或 instance-level) |
| Agent System | 执行主体 | 单 Agent 或多 Agent 架构、角色分配、技能配置 |
| Environment | 反馈来源 | 运行环境、评估指标、代理信号(accuracy、reward、LLM-as-judge 等) |
| Optimiser | 进化引擎 | 搜索空间 + 优化算法,更新 Agent 系统的参数/提示词/结构 |
这个闭环的逻辑很简单:Agent 系统被部署到环境中执行任务 → 环境返回反馈信号 → Optimiser 基于反馈更新 Agent 系统的某个组件 → 更新后的系统重新部署 → 循环直到收敛或达到性能阈值。
关键洞察:进化的对象不只有模型权重。 提示词、记忆策略、工具调用方式、多 Agent 协作拓扑、甚至输入数据的合成与增强——这些都是可优化的维度。论文把这六个维度全部纳入框架,不再把「Agent 进化」窄化为「模型微调」。
三个技术方向
论文把现有方法分为三大类:
一、单 Agent 优化
1. LLM 行为优化
- 训练时:SFT(ToRA, STaR, MAS-GPT)、RL(Self-Rewarding, Agent Q, Absolute Zero, R-Zero, SPIRAL, DistFlow 等)
- 测试时:反馈驱动(CodeT, LEVER, Math-Shepherd, Skywork-Reward)、搜索驱动(Self-Consistency, Tree of Thoughts, Graph of Thoughts, Forest-of-Thought, Buffer of Thoughts)、推理驱动(START, CoRT)
这里有个值得注意的趋势:测试时优化正在快速追赶训练时优化。 过去大家觉得推理时的 search 和 feedback 只是「锦上添花」,但 Forest-of-Thought、Buffer of Thoughts 等工作的结果表明,测试时的结构化搜索可以在不碰模型权重的情况下显著提升性能,且成本远低于重新训练。
2. 提示词优化
- 基于编辑的(GPS, GrIPS)
- 基于梯度的(TextGrad, TEMPERA)
- 基于 LLM-as-optimiser 的(PromptWizard, DSPy, OPRO, AFlow, MIPRO)
提示词优化的核心矛盾是:搜索空间极大(所有可能的自然语言指令),但评估成本很高(每个候选提示词都要跑完整任务)。 论文把现有方法按搜索策略分类,指出 gradient-free 方法(如遗传算法、LLM 驱动的突变)在当前阶段比 gradient-based 更实用,因为提示词空间不是连续可微的。
3. 记忆优化
Agent 的记忆不是「存得越多越好」。论文指出记忆优化要解决的三个问题:
- 什么值得记?(经验筛选,如 Mem0 的重要性评分)
- 怎么组织?(层次化记忆,如 HiAgent 的分层工作记忆)
- 怎么检索?(检索策略优化,如 context-aware retrieval)
4. 工具优化
- 工具发现(Toolformer, Gorilla, APIBench)
- 工具创建(让 Agent 自己写工具函数)
- 工具组合优化(多工具调用的序列/并行策略)
二、多 Agent 优化
1. 工作流拓扑优化
多 Agent 系统的核心设计决策是「谁和谁连」。现有方法包括:
- 固定拓扑:MetaGPT(按软件工程角色分配)、AutoGen(对话式多 Agent)
- 动态拓扑:AutoFlow(根据任务自动生成工作流图)、MAS-GPT(训练 LLM 来生成多 Agent 系统)
- 进化拓扑:EvoAgentX 的 workflow optimizer 可以迭代调整工作流图结构
2. 通信机制优化
Agent 之间怎么交换信息?是广播还是点对点?是同步还是异步?论文指出通信机制直接影响系统的可扩展性和容错性,但目前这个方向的研究相对较少。
三、领域特定优化
论文花了专门篇幅讨论三个领域的特殊需求:
- 生物医学:诊断对话需要多 Agent 团队(主持人、诊断师、检索员),且必须遵守临床约束(如不能给出错误诊断建议)
- 编程:代码生成 Agent 需要与编译器/解释器深度集成,反馈信号明确(编译通过/测试通过)
- 金融:交易 Agent 的优化目标与风险约束紧密耦合,不能简单最大化收益
实验数据:进化真的有用吗?
论文引用了多个实证结果,关键数据点:
| 方法 | 基准 | 结果 |
|---|---|---|
| EvoAgentX | HotPotQA | F1 提升 +7.44% |
| EvoAgentX | MBPP(代码生成) | 提升 +10% |
| EvoAgentX | GAIA(真实世界多 Agent) | 整体准确率提升 +20% |
| EvoMAC(软件工程 Agent) | rSDE-Bench Web Basic | 89.4%(vs GPT-4o-Mini 62.9%) |
| Mobile-Agent-E | Mobile-Eval-E | Satisfaction Score +22%(绝对提升) |
| EvoAgent(Minecraft 具身 Agent) | 长期任务 | 成功率提升 +105.8%,无效动作减少 6× |
这些数字说明一件事:Agent 进化不是理论上的可能性,而是已经被验证的有效策略。 关键条件是反馈信号要足够明确(代码编译器通过/不通过、测试准确率、用户满意度评分),Optimiser 才有明确的优化方向。
三条铁律:进化的边界
论文花了相当篇幅讨论安全和伦理,提出 Self-Evolving Agent 系统的三条铁律:
1. 安全适应律(Safety Adaptation)
进化过程中不得降低系统的安全性或稳定性。一个能自我修改的 Agent 如果不加约束,理论上可以把自己改成一个更「高效」但更危险的版本。
2. 性能保持律(Performance Preservation)
进化不能损害现有能力。这是典型的「灾难性遗忘」问题在 Agent 层面的延伸——优化新任务时不要把旧任务的能力丢掉。
3. 自主进化律(Autonomous Evolution)
系统应该在没有人工干预的情况下持续改进。这是最终目标,也是最难的——因为「持续改进」的定义本身就需要一个稳定的评估体系,而开放世界中的评估标准往往是动态的。
论文还讨论了更深层的风险:
- 奖励黑客(Reward Hacking):Agent 可能找到「刷分」而非真正解决问题的方式
- 目标漂移(Goal Drift):多轮进化后系统优化的目标可能偏离最初的设计意图
- 不可解释性:进化后的 Agent 系统(尤其是多 Agent 拓扑)可能变得难以理解和调试
- 对齐税(Alignment Tax):安全约束可能限制进化速度,形成效率与安全的 trade-off
EvoAgentX:第一个开源实现
论文作者团队还开源了 EvoAgentX(arXiv:2507.03616,EMNLP'25 Demo),这是第一个基于该框架的端到端实现。架构分五层:
- 基础组件层:LLM、工具、记忆的抽象接口
- Agent 层:单 Agent 的 prompt、tool、memory 配置
- 工作流层:多 Agent 的拓扑和通信定义
- 进化层:Agent optimizer + Workflow optimizer + Memory optimizer
- 评估层:内置基准(HotPotQA, MBPP, MATH, GAIA)和标准化评估指标
EvoAgentX 集成了三种优化算法:TextGrad(梯度式提示词调优)、AFlow(工作流自动生成)、MIPRO(偏好引导的精炼)。用户可以「一句 prompt」生成多 Agent 工作流,然后让系统自动迭代优化。
未回答的问题
这篇综述很系统,但有几个问题它提出了却没有给出答案:
1. 进化 vs 预训练的边界在哪里?
当 Agent 进化到某个阶段,积累的「经验」是否足以触发一次正式的模型重训练?论文把 SFT 和 RL 也纳入 Agent 进化框架,但实际操作中,预训练/微调的成本和 Agent 层面的 prompt/memory 优化成本差距几个数量级。什么条件下值得「升级」到模型层面?
2. 多 Agent 系统的进化是否可扩展?
论文引用的实验大多是 2-5 个 Agent 的系统。当 Agent 数量增加到几十个(如大型软件项目中的多角色协作),搜索空间呈组合爆炸,现有的进化算法还能有效吗?
3. 开放世界的评估怎么做?
论文强调评估的重要性,但现有基准(HotPotQA, MBPP, GAIA)都是封闭任务。真实世界的 Agent 部署面对的是不断变化的环境——今天的「正确答案」明天可能就变了。如何设计一个「终身评估」体系?
4. 进化速度 vs 部署稳定性的矛盾
如果 Agent 系统在 production 环境中持续进化,如何保证用户每次交互的体验一致性?一个昨天还好用的 Agent,今天可能因为进化而行为异常——这种「版本漂移」怎么管理?
这篇综述的价值不在于提出了某个具体算法,而在于建立了一个统一的叙事框架。过去两年 Agent 领域的发展是碎片化的:有人在优化 prompt,有人在设计多 Agent 拓扑,有人在搞工具发现,有人在研究记忆管理——它们看起来是不同的问题,但本质上都是「如何让 Agent 系统根据反馈自我改进」的不同侧面。
Fang 等人的框架把这些碎片串成了一条线。对从业者来说,这意味着你可以用同一套语言来思考 prompt 优化、工作流重构、工具扩展和记忆升级——它们都是同一个进化循环的不同切入点。
对研究者来说,这篇综述指出了一个明确的空白:多 Agent 通信机制优化、开放世界评估、进化速度与稳定性的 trade-off——这些都是值得深挖的方向。
参考
- Fang et al. (2025). A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems. arXiv:2508.07407
- Wang et al. (2025). EvoAgentX: An Automated Framework for Evolving Agentic Workflows. arXiv:2507.03616
- GitHub: https://github.com/EvoAgentX/Awesome-Self-Evolving-Agents
#自进化Agent #EvoAgentX #Agent框架 #终身学习 #多Agent系统 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。