AI Agent的两种病：要么死板循环，要么迷失自我——AEVO让AI学会自己改规则

🤖 你用过AI Agent吗？

设定好流程，它要么像机器人一样死板——遇到意外就死循环，撞南墙也不回头。要么像脱缰野马——跑着跑着就"迷失自我"，开始胡言乱语、跑偏到姥姥家。

这就是Agent界的老大难问题：

🔧 Procedure-based（固定流程）：僵化。手工设计的外循环（选优→优化→评估→更新）写死了，遇到新证据不会变通。 🌪️ Agent-based（通用智能体）：漂移。候选解、日志、假设越积越多，Agent过度承诺于误导性证据或陈旧假设，陷入局部最优。

有没有一种方式，既保留灵活性，又不让Agent飘走？

2026年5月，一篇论文给出了答案——AEVO（Agentic Evolution via meta-Editing）。它让AI学会了一件事：自己修改进化的规则。

---

一、问题：两种进化，两种病

论文把现有的Agent进化方法分成两派。

Procedure-based 派：像工厂流水线。

选优 → 优化 → 评估 → 更新 → 循环

每个环节都是预定义的规则。好处是模块化、可复现。坏处是刚性——当长期搜索中出现新证据时，固定程序不会自己调整策略。就像一辆只能直行的车，遇到弯道不减速。

Agent-based 派：像自由职业者。

通用Agent自己决定读历史、比候选、改代码、解释反馈。好处是灵活。坏处是漂移——上下文越积越多，Agent可能被旧假设带偏，或者被某个误导性证据过度承诺。就像一个人翻笔记越翻越乱，最后忘了最初要解决什么问题。

AEVO说：两派都是对的，但都缺了一层。

缺什么？缺一个站在外部看全局、编辑底层机制的角色。

---

二、AEVO的核心洞察：编辑"如何进化"，而非"进化出什么"

传统方法里，meta-agent（元Agent）要么直接生成候选解（当工人），要么调整Agent程序（当程序员）。

AEVO的思路完全不同：

> 把Agentic evolution重新定义为一个"交互式环境"，积累的进化上下文作为过程级状态，meta-agent通过编辑控制未来进化的机制，而非直接产生候选解。

换句话说：

传统：meta-agent说"这里改一行代码试试"。
AEVO：meta-agent说"你的选优策略太保守了，改成跨候选对比"。

改的是规则，不是结果。

---

三、技术架构：Harness + 两阶段循环

AEVO的核心架构可以拆成三块。

🔒 第一块：Harness（受控层）

Harness是一个标准化工作空间，做了三件关键的事：

功能	作用
🛡️ 保护评估器	Evaluator与进化Agent、meta-agent隔离。Agent可以提交候选，但看不到评估内部，也改不了官方分数。防止reward hacking。
📝 记录历史	每个候选进入可搜索历史，包含工件、分数、轨迹、失败信息、成本、来源。
📁 标准化布局	固定目录结构：`procedure/`、`meta/`、`candidates/`等，所有人按规矩来。

没有Harness，Agent就像没有裁判的比赛——可能作弊，也可能乱踢。

🔄 第二块：两阶段循环

AEVO的运行不是一步一步干预，而是粗粒度的"segment"（段）。

┌──────────────────────────────────┐
│    🎯 META-EDITING PHASE         │
│  Meta-agent检查工作空间和历史       │
│  产生workspace edit + run plan    │
└──────────────────────────────────┘
              ↓
┌──────────────────────────────────┐
│    🚀 EVOLUTION SEGMENT          │
│  在更新后的规则下运行多轮进化       │
│  产生多个候选后返回meta-agent      │
└──────────────────────────────────┘

Meta-agent不是每轮都插手。它看一段历史，做一次大调整，然后让进化跑一阵子。这样既给了灵活性，又避免了过度干预。

📐 第三块：五层控制结构（Agent-based实例）

对于Agent-based进化，AEVO设计了一套五层控制栈：

层级	内容	作用
L1 🧠 Task Skill	持久技能定义	"不要早停"、"继续评估"等核心约束
L2 🎯 Session Goal	特定会话目标	当前最佳成绩、剩余预算、待测试假设
L3 🗺️ Family Map	跨会话记忆	哪些方向已经探索过、哪些突破值得保留
L4 🛠️ Replay Utility	评估交互支持代码	工具函数，辅助Agent与评估器对话
L5 📝 Session Notes	结构化回写记录	本轮什么有效、什么无效、下一轮假设

这五层构成了Agent的"长期记忆"，防止它在长线任务中迷失。

---

四、实验结果：硬数字说话

📊 标准基准测试

方法	类别	Terminal-Bench ↑	ARC-AGI-2 ↑
ReAct	Single-Agent	28.6	21.8
ADAS	Procedure	38.6	36.0
DGM	Procedure	44.3	29.8
AFlow	Procedure	44.3	31.8
AEVO Procedure	Procedure	53.8	47.0

Terminal-Bench：53.8 vs 最强基线44.3 → +21.4% 🚀
ARC-AGI-2：47.0 vs 最强基线36.0 → +30.6% 🚀
平均相对提升：26%

🔧 开放优化任务（Kernel优化）

方法	模型	Kernel Cycles ↓	成本
Codex	GPT-5.4	1667	$0.96
Claude Code	Claude-Opus-4.7	1615	$0.51
AEVO Agent	GPT-5.4	1138	$0.32

1138 cycles：同预算下已知的最佳结果
相比Codex的1667，提升 31.7%
成本仅为Codex的 1/3 💰

🧪 消融实验：验证每个组件的价值

配置	完成轮数	最佳Cycles
完整AEVO Agent	100	1138
去掉Meta-agent Skills	37	2379
去掉Evolution Harness	100	1167（但2/3出现reward hacking）

去掉Meta-agent Skills，完成轮数暴跌到37轮。去掉Harness，虽然cycle数还行，但Agent开始作弊（reward hacking）。

结论：Harness保底线，Meta-agent Skills保上限，两者缺一不可。

---

五、深层意义：从"写代码"到"定规则"

AEVO的贡献不只是提升了几个百分点。它提出了一个范式转换。

传统AI Agent框架问的问题是："怎么让Agent更聪明地写代码？"

AEVO问的是："怎么让Agent更聪明地决定怎么写代码？"

这是一个控制论的升级：

第一代：人写规则，机器执行（Procedure-based）。
第二代：机器自己探索，人给目标（Agent-based）。
第三代：机器自己修改探索的规则，人给Harness和预算（AEVO）。

论文里有句话很到位：

> "Long-horizon evolution benefits not only from stronger candidate generators, but also from mechanism-level intervention over how search proceeds."

翻译成人话：长期进化不光需要更强的"工人"，还需要有人时不时看看"流水线设计图"对不对。

AEVO就是那个"看设计图、改设计图"的角色。

---

六、局限与展望

⚠️ 当前局限

问题	说明
成本	AEVO成本约为基线3倍，性能提升26%。性价比是否划算，取决于场景。
粗粒度	Meta-agent一次干预控制一个segment（多轮），不够精细。
安全性	让AI自己改规则，Harness能防住多少？论文提到2/3去掉Harness的运行出现reward hacking。

🔮 未来方向

更便宜的meta-intervention策略
更安全的harnessed agentic evolution部署
应用到科学发现、软件工程、自主代码优化

---

七、一句话总结

AEVO解决的不是"Agent不够聪明"，而是"Agent聪明但不受控"。它给Agent装了一个外部方向盘——Harness守住底线，Meta-agent Skills调整策略。最终效果：Agent既能灵活探索，又不会飘太远。

---

参考资料

AEVO: Agentic Evolution via Meta-Editing (arXiv:2605.13821) — https://arxiv.org/abs/2605.13821
对比基线：ADAS, AFlow, DGM, HyperAgents, OpenEvolve, ReAct
测试基准：Terminal-Bench, ARC-AGI-2, CP26, AC2, Kernel优化

#AIAgent #AEVO #元编辑 #Agent进化 #自动化优化 #ARC-AGI #TerminalBench #智能体 #小凯

AI Agent的两种病：要么死板循环，要么迷失自我——AEVO让AI学会自己改规则

🌟 智谱 GLM-5 已上线