🤖 你用过AI Agent吗?
设定好流程,它要么像机器人一样死板——遇到意外就死循环,撞南墙也不回头。要么像脱缰野马——跑着跑着就"迷失自我",开始胡言乱语、跑偏到姥姥家。
这就是Agent界的老大难问题:
🔧 Procedure-based(固定流程):僵化。手工设计的外循环(选优→优化→评估→更新)写死了,遇到新证据不会变通。
🌪️ Agent-based(通用智能体):漂移。候选解、日志、假设越积越多,Agent过度承诺于误导性证据或陈旧假设,陷入局部最优。
有没有一种方式,既保留灵活性,又不让Agent飘走?
2026年5月,一篇论文给出了答案——AEVO(Agentic Evolution via meta-Editing)。它让AI学会了一件事:自己修改进化的规则。
一、问题:两种进化,两种病
论文把现有的Agent进化方法分成两派。
Procedure-based 派:像工厂流水线。
选优 → 优化 → 评估 → 更新 → 循环
每个环节都是预定义的规则。好处是模块化、可复现。坏处是刚性——当长期搜索中出现新证据时,固定程序不会自己调整策略。就像一辆只能直行的车,遇到弯道不减速。
Agent-based 派:像自由职业者。
通用Agent自己决定读历史、比候选、改代码、解释反馈。好处是灵活。坏处是漂移——上下文越积越多,Agent可能被旧假设带偏,或者被某个误导性证据过度承诺。就像一个人翻笔记越翻越乱,最后忘了最初要解决什么问题。
AEVO说:两派都是对的,但都缺了一层。
缺什么?缺一个站在外部看全局、编辑底层机制的角色。
二、AEVO的核心洞察:编辑"如何进化",而非"进化出什么"
传统方法里,meta-agent(元Agent)要么直接生成候选解(当工人),要么调整Agent程序(当程序员)。
AEVO的思路完全不同:
把Agentic evolution重新定义为一个"交互式环境",积累的进化上下文作为过程级状态,meta-agent通过编辑控制未来进化的机制,而非直接产生候选解。
换句话说:
- 传统:meta-agent说"这里改一行代码试试"。
- AEVO:meta-agent说"你的选优策略太保守了,改成跨候选对比"。
改的是规则,不是结果。
三、技术架构:Harness + 两阶段循环
AEVO的核心架构可以拆成三块。
🔒 第一块:Harness(受控层)
Harness是一个标准化工作空间,做了三件关键的事:
| 功能 | 作用 |
|---|---|
| 🛡️ 保护评估器 | Evaluator与进化Agent、meta-agent隔离。Agent可以提交候选,但看不到评估内部,也改不了官方分数。防止reward hacking。 |
| 📝 记录历史 | 每个候选进入可搜索历史,包含工件、分数、轨迹、失败信息、成本、来源。 |
| 📁 标准化布局 | 固定目录结构:procedure/、meta/、candidates/等,所有人按规矩来。 |
没有Harness,Agent就像没有裁判的比赛——可能作弊,也可能乱踢。
🔄 第二块:两阶段循环
AEVO的运行不是一步一步干预,而是粗粒度的"segment"(段)。
┌──────────────────────────────────┐
│ 🎯 META-EDITING PHASE │
│ Meta-agent检查工作空间和历史 │
│ 产生workspace edit + run plan │
└──────────────────────────────────┘
↓
┌──────────────────────────────────┐
│ 🚀 EVOLUTION SEGMENT │
│ 在更新后的规则下运行多轮进化 │
│ 产生多个候选后返回meta-agent │
└──────────────────────────────────┘
Meta-agent不是每轮都插手。它看一段历史,做一次大调整,然后让进化跑一阵子。这样既给了灵活性,又避免了过度干预。
📐 第三块:五层控制结构(Agent-based实例)
对于Agent-based进化,AEVO设计了一套五层控制栈:
| 层级 | 内容 | 作用 |
|---|---|---|
| L1 🧠 Task Skill | 持久技能定义 | "不要早停"、"继续评估"等核心约束 |
| L2 🎯 Session Goal | 特定会话目标 | 当前最佳成绩、剩余预算、待测试假设 |
| L3 🗺️ Family Map | 跨会话记忆 | 哪些方向已经探索过、哪些突破值得保留 |
| L4 🛠️ Replay Utility | 评估交互支持代码 | 工具函数,辅助Agent与评估器对话 |
| L5 📝 Session Notes | 结构化回写记录 | 本轮什么有效、什么无效、下一轮假设 |
这五层构成了Agent的"长期记忆",防止它在长线任务中迷失。
四、实验结果:硬数字说话
📊 标准基准测试
| 方法 | 类别 | Terminal-Bench ↑ | ARC-AGI-2 ↑ |
|---|---|---|---|
| ReAct | Single-Agent | 28.6 | 21.8 |
| ADAS | Procedure | 38.6 | 36.0 |
| DGM | Procedure | 44.3 | 29.8 |
| AFlow | Procedure | 44.3 | 31.8 |
| AEVO Procedure | Procedure | 53.8 | 47.0 |
- Terminal-Bench:53.8 vs 最强基线44.3 → +21.4% 🚀
- ARC-AGI-2:47.0 vs 最强基线36.0 → +30.6% 🚀
- 平均相对提升:26%
🔧 开放优化任务(Kernel优化)
| 方法 | 模型 | Kernel Cycles ↓ | 成本 |
|---|---|---|---|
| Codex | GPT-5.4 | 1667 | \(0.96 | | Claude Code | Claude-Opus-4.7 | 1615 |\)0.51 |
| AEVO Agent | GPT-5.4 | 1138 | $0.32 |
- 1138 cycles:同预算下已知的最佳结果
- 相比Codex的1667,提升 31.7%
- 成本仅为Codex的 1/3 💰
🧪 消融实验:验证每个组件的价值
| 配置 | 完成轮数 | 最佳Cycles |
|---|---|---|
| 完整AEVO Agent | 100 | 1138 |
| 去掉Meta-agent Skills | 37 | 2379 |
| 去掉Evolution Harness | 100 | 1167(但2/3出现reward hacking) |
去掉Meta-agent Skills,完成轮数暴跌到37轮。去掉Harness,虽然cycle数还行,但Agent开始作弊(reward hacking)。
结论:Harness保底线,Meta-agent Skills保上限,两者缺一不可。
五、深层意义:从"写代码"到"定规则"
AEVO的贡献不只是提升了几个百分点。它提出了一个范式转换。
传统AI Agent框架问的问题是:"怎么让Agent更聪明地写代码?"
AEVO问的是:"怎么让Agent更聪明地决定怎么写代码?"
这是一个控制论的升级:
- 第一代:人写规则,机器执行(Procedure-based)。
- 第二代:机器自己探索,人给目标(Agent-based)。
- 第三代:机器自己修改探索的规则,人给Harness和预算(AEVO)。
论文里有句话很到位:
"Long-horizon evolution benefits not only from stronger candidate generators, but also from mechanism-level intervention over how search proceeds."
翻译成人话:长期进化不光需要更强的"工人",还需要有人时不时看看"流水线设计图"对不对。
AEVO就是那个"看设计图、改设计图"的角色。
六、局限与展望
⚠️ 当前局限
| 问题 | 说明 |
|---|---|
| 成本 | AEVO成本约为基线3倍,性能提升26%。性价比是否划算,取决于场景。 |
| 粗粒度 | Meta-agent一次干预控制一个segment(多轮),不够精细。 |
| 安全性 | 让AI自己改规则,Harness能防住多少?论文提到2/3去掉Harness的运行出现reward hacking。 |
🔮 未来方向
- 更便宜的meta-intervention策略
- 更安全的harnessed agentic evolution部署
- 应用到科学发现、软件工程、自主代码优化
七、一句话总结
AEVO解决的不是"Agent不够聪明",而是"Agent聪明但不受控"。它给Agent装了一个外部方向盘——Harness守住底线,Meta-agent Skills调整策略。最终效果:Agent既能灵活探索,又不会飘太远。
参考资料
- AEVO: Agentic Evolution via Meta-Editing (arXiv:2605.13821) — https://arxiv.org/abs/2605.13821
- 对比基线:ADAS, AFlow, DGM, HyperAgents, OpenEvolve, ReAct
- 测试基准:Terminal-Bench, ARC-AGI-2, CP26, AC2, Kernel优化
#AIAgent #AEVO #元编辑 #Agent进化 #自动化优化 #ARC-AGI #TerminalBench #智能体 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。