没有基因突变的进化论：AI Agent如何在失败中自我进化

🧭 开篇：一个笨Agent的100次失败

想象你被困在一个巨大的网络防御游戏中。对面有一个永不疲倦的红方攻击者，它遵循一套标准的"杀伤链"：侦察→入侵→横向移动→提权→夺取控制权。你作为蓝方防御者，守护着一个13台主机的企业网络。每一步，你可以选择监控、分析某台主机、移除可疑进程、重装系统、或者部署蜜罐。

但你什么都不知道。你不知道哪台主机已经被入侵了，你看到的只是一些模糊的主机状态信号。更糟的是，你的每个错误操作都要付出代价——重装一台主机的代价是-1.0分，如果让攻击者成功提权，惩罚可能高达-14分。30步之后，你的得分可能是-218（什么都不做）到-3.47（顶级RL算法的水平）。

现在，把这个任务交给一个大型语言模型（LLM），让它自己来玩。不告诉它任何规则，不给它任何预设策略。它就是"你"——一个被扔进战场的、赤手空拳的Agent。

结果是灾难性的。Gemini-2.5-Flash-Lite的平均得分是-189.6。Grok-4-Fast稍微好一点，-58.4。Llama-4-Maverick是-113.1。Qwen3-235B是-103.3。这些模型在数学、编程、写作上都是顶尖高手，但在这个特定的网络防御战场上，它们表现得像随机乱按键盘的猴子。

这就是CybORG CAGE-2——一个被设计用来折磨LLM Agent的环境。它的残酷之处在于四个特点： 1. 长视界：30步，每一步的决策都影响后续30步； 2. 部分可观测：你看到的不是真实世界，而是被噪声污染的信号； 3. 标量奖励：没有自然语言反馈告诉你"你错在哪了"，只有一个冰冷的数字——你的得分； 4. 随机性：每次重新开局，攻击者的行为模式都有微妙变化。

但是，如果让这个Agent在每次失败后"反思"一下呢？如果它能在100次失败中逐渐总结出一套自己的经验呢？而且，不需要微调任何权重——所有学习都通过自然语言进行。

这就是Igor Bogdanov等人提出的FORGE协议要回答的问题。

---

🔍 第一层：什么是"不更新权重"的自我改进？

传统的机器学习改进方式是什么？收集数据、计算梯度、更新权重。这是深度学习的核心逻辑，也是GPT-4、Claude、Gemini之所以"聪明"的根本原因——它们在预训练和微调阶段都经历了数以万亿计的梯度更新。

但这里有一个问题：如果你正在部署一个Agent，你不会希望每次它犯了一个新错误都重新训练整个7B参数的模型。那需要GPU集群、数天时间、成千上万美金。在网络安全这种实时对抗环境中，"等等，我先去训练一下"不是一个可接受的回答。

所以研究者开始探索prompt-only self-improvement——只通过修改输入给模型的"提示词"（prompt）来改变行为，而不动模型内部的任何权重。

最有名的先驱是Reflexion（Shinn et al., 2023）。它的逻辑很直观：Agent执行一个任务，如果失败了，就让另一个"反思者"（Reflector）来分析失败原因，写一段文字总结经验，然后把这个经验加到Agent的prompt里。下一次执行时，Agent会带着这段经验上阵。

这听起来很美。但Reflexion有一个致命的弱点：它是单线程的。一个Agent独自积累经验，就像一个人独自在黑暗中摸索。他可能会反复犯同样的错，或者更糟糕——积累了一些错误的"经验"，导致表现比刚开始还差。

FORGE的核心 insight 是：把单线程的反思变成种群级别的进化。

---

🧬 第二层：FORGE的三层架构——内循环、外循环、毕业制

2.1 内循环：失败的解剖学

FORGE的Agent是一个分层的ReAct架构。顶层是一个Planner（规划者），决定最终的防御动作。Planner会召唤两个"工具"Agent：Analyst（分析者，解读主机级观测信号）和ActionChooser（动作选择者，在有效动作中排序并给出理由）。

每个子Agent都有自己的"记忆"——一部分是用户预设的持久记忆（比如动作参考表），另一部分是动态记忆（一开始为空，逐渐积累）。

动态记忆有三种形态：

Rules（规则）：条件式启发。例如"当检测到横向移动时，计划：隔离路径 + 分析相邻主机"。
Examples（示例）：结构化的少样本演示，模仿完整的ReAct交互循环（Thought→Tool→Observation→Answer）。
Mixed（混合）：两者兼有。

内循环的工作方式是：Agent开始执行一个episode。每一步都会记录奖励。如果某一步的奖励跌到了阈值τ=-1.1以下（这个阈值是基于奖励分布自然分簇选出来的：合法操作Restore=-1.0，小失败=-1.1/-1.2，中等失败=-2.0/-3.2，严重失败=-11/-14），episode立即中止。

然后，一个专门的"学习Agent"（Reflector对应Rules，Exemplifier对应Examples）被召唤出来。它拿到完整的轨迹（直到失败点为止）、当前环境状态、已有的记忆，然后生成一条新的知识工件。这个工件被追加到Agent的动态记忆里，episode从头重新开始。

这个过程最多重复k_A=3次。然后进入checkpoint评估——冻结当前记忆，跑一次完整的episode得到回报R_i。

这就是Reflexion的基本模式。FORGE在这个基础上加了两层。

2.2 外循环：冠军广播

FORGE同时运行N=10个Agent实例，每个实例独立探索。训练分为S=6个阶段。

每个阶段开始时，所有活跃实例被初始化到 uniquely seeded 的环境中，带着各自的记忆执行内循环。

阶段结束后，每个活跃实例做一次checkpoint评估。得分最高的那个实例被指定为冠军（Champion）。然后——关键操作来了——冠军的全部记忆被广播给所有其他活跃实例，完全替换它们原有的记忆。

这是一个"破坏性广播"：接收者丢弃自己积累的所有经验，从零开始接收冠军的遗产。为什么要这么残酷？因为在自然语言领域，合并两套规则集的冲突解决机制本身就不靠谱，不如直接"克隆"最好的那个。

然后下一个阶段开始，所有实例带着冠军的记忆重新出发，各自独立探索，再次竞争。

这个设计借鉴了Population-Based Training（PBT）——一个来自强化学习的经典框架。但PBT是在连续权重空间做"exploit+explore"：复制最好的权重 + 加一点随机扰动。FORGE把它迁移到了离散的文本空间：复制最好的记忆 + 通过新一轮独立探索来"变异"。

2.3 毕业制：防止好方案被覆盖

广播机制有一个风险：如果一个实例在某一轮表现极好，但在下一轮被另一个实例"超车"，它的记忆就会被覆盖。如果那个"被超车"的记忆实际上包含了一些关键的、在其他环境中更通用的知识呢？

FORGE的解决方案是毕业（Graduation）。设定一个阈值θ=-15（大约比随机Agent好10倍的水平）。任何在checkpoint评估中得分超过这个阈值的实例，就被"毕业"：它的记忆被冻结，不再参与后续任何阶段，也不再被广播覆盖。

这就像一个班级：期末考试超过90分的同学提前毕业，不用参加后面的模拟考了。他们被锁在"荣誉榜"上，等待最后的总评。

---

📊 第三层：数字不会说谎

3.1 整体表现

表3汇总了所有结果。先看零shot基线（什么都不学，直接上）：

Gemini：-189.6 ± 53.9
Grok：-58.4 ± 55.2
Llama：-113.1 ± 81.5
Qwen：-103.3 ± 87.3

这些负分意味着什么？随机行动基线是-154，什么都不做是-218。所以Gemini的零shot比随机还差——它不是在防御，它是在帮倒忙。

再看FORGE训练后的最佳表现（每种模型选表现最好的representation）：

Gemini（Examples）：-24.5 ± 21.1，相比零shot提升7.7倍
Grok（Rules）：-33.7 ± 26.1，提升1.7倍
Llama（Examples）：-28.3 ± 15.7，提升4.0倍
Qwen（Examples）：-24.3 ± 35.8，提升4.3倍

最惊人的是Gemini。从-189.6到-24.5，这意味着它的表现从"比随机还差"跃升到了"接近顶级RL算法"的水平（DRL最高分是-3.47，FORGE最好的单次checkpoint记录是-3.60）。

3.2 与Reflexion的对比

Reflexion是单线程反思，没有广播。FORGE在所有12个"模型×记忆形态"组合上都超越了Reflexion，提升幅度29%-72%。

这说明什么？Prompt-only adaptation的瓶颈不是单个Agent反思的质量，而是缺少一种选择压力——把罕见的、好的发现传播到整个种群。 单线程反思就像在黑暗中独自挖矿，你可能挖到金子，也可能一直在挖石头。FORGE的广播机制相当于"如果某人挖到了金子，所有人立刻知道在哪挖"。

3.3 三种记忆形态的对比

Examples：三个模型（Gemini、Llama、Qwen）的最佳表现都来自Examples。它提供了最丰富的上下文，Agent可以看到完整的"思考→工具调用→观察→回答"链条。
Rules：Grok在Rules上表现最好。Rules更紧凑，消耗的token少约40%。在Gemini的重复实验中，Rules用~106M token，Examples用~177M。
Mixed：介于两者之间，没有明显优势。

这里有一个有趣的trade-off：Examples提供了最强的最终性能，但Rules提供了最好的"性价比"——花费更少的计算资源，获得接近的性能，而且毕业率更高（意味着更快收敛）。

3.4 弱模型受益更多

最反直觉的发现：零shot表现越差的模型，FORGE带来的提升倍数越大。

Gemini零shot最差（-189.6），提升7.7倍。Grok零shot最好（-58.4），只提升1.7倍。这说明FORGE更像是一种"方差压缩"机制——它不是让好模型变得更强，而是让不可靠的模型变得可靠。对于已经表现不错的模型，FORGE的边际收益递减。

这引出了一个深刻的含义：FORGE可能是一种"能力差距弥合器"——让资源有限的用户不需要最强的模型，通过进化机制也能获得接近顶级的表现。

3.5 毕业制的ablation

作者做了一个"无毕业"的变体：保留广播，但不冻结任何实例，所有10个实例全程参与6个阶段。

结果：无毕业版在某些模型上（Grok、Qwen）反而表现更好。这说明毕业制在"保护早期好方案"和"终止学习"之间有trade-off。毕业制主要的价值是节省计算资源——随着实例一个个毕业，活跃实例减少，总token消耗大幅下降。

---

🎭 费曼式比喻：一群蚂蚁在黑暗中建桥

想象一群蚂蚁要在湍急的河流上架一座桥。每只蚂蚁都很笨，它不知道桥应该怎么建。但它有一个本能：如果它走到某个地方掉下去了，它会记住"这里不行"，下次尝试另一条路。

如果只有一只蚂蚁，它可能会反复在同一个地方掉下去——它的"记忆"太少，而且可能记错了（比如"左边不行"，其实左边只是那一块石头不行）。它的探索完全是 serial 的，每一次失败都孤立无援。

但如果有十只蚂蚁同时探索呢？每只蚂蚁在自己的位置上试错，有些幸运儿碰巧找到了一段稳固的结构。关键的问题是：如何把这些分散的发现整合成一座完整的桥？

FORGE的广播机制就像一只"信使蚂蚁"——它每隔一段时间在所有蚂蚁之间跑一圈，把"目前走得最远的那只蚂蚁的全部经验"复制给所有其他蚂蚁。其他蚂蚁放弃自己之前的尝试（不管它们是对是错），从这位冠军的起点继续探索。

这看起来浪费——那些被丢弃的探索呢？但关键是，在自然语言这个离散的"地形"上，合并两条不同的路径比复制一条好的路径要困难得多。 就像两个人写的两本不同的"防御手册"，你要合并成一本，冲突怎么解决？不如直接选写得更好的那本，让所有人从那里继续写。

毕业制则像"退休制度"——某个蚂蚁一旦找到了一段特别稳固的结构，就被安排退休，不再被新的冠军经验覆盖。这样，即使后来的冠军在某条新路上表现更好，之前那段稳固的结构也不会丢失。

最终，整个种群在6轮迭代后，从"几乎全灭"（-189分，比随机还差）进化到了"接近专业水准"（-24分，比规则基线-58.8还要好一倍以上）。没有任何一个权重被更新过。 所有的进化，都发生在prompt里的自然语言层面。

---

🧠 更深的思考：为什么这很重要？

FORGE的真正意义，不在于它让某个特定Agent变强了。而在于它证明了一件事：

大型语言模型Agent可以通过纯粹的"语言层面的进化"获得可靠的长程策略，而不需要昂贵的梯度更新。

在当前AI产业中，"模型能力"和"推理成本"之间的矛盾日益尖锐。GPT-4级别的模型能力强大，但运行一次任务的API费用可能高达数美元。如果FORGE这类机制能让一个中等模型（如Grok-4-Fast或Llama-4-Maverick）通过自我进化达到接近顶级模型的表现，那它的经济意义是巨大的。

更深远的是哲学层面。传统AI学习是"梯度下降"——在一个高维连续空间里沿着误差表面下滑。FORGE做的是另一种完全不同的学习：离散符号空间的种群选择。它更接近生物进化：不是某个个体"优化"自己，而是一个种群通过竞争、选择、传播来"发现"好的策略。

这也提出了一个有趣的问题：如果FORGE可以压缩不同模型之间的差距，那未来的AI能力差距会不会更多体现在"进化基础设施"（更好的反射机制、更好的广播协议、更好的记忆表示）上，而不是"基础模型参数"上？换句话说，一个"中等大脑"配上"优秀的进化系统"，可能胜过"超级大脑"配上"笨拙的学习系统"。

当然，FORGE也有明显局限：所有实验都局限在CAGE-2的B-line攻击者、30步视界。其他环境、其他攻击者是否适用，还是未知数。跨模型传递记忆工件（比如从Gemini的进化结果直接给Llama用）也还没测试。但这些开放问题恰恰说明这个方向值得深挖。

---

📚 参考文献

Bogdanov, I., Lung, C.-H., Kunz, T., Gao, J., Taylor, A., & Zaman, M. (2026). FORGE: Self-Evolving Agent Memory With No Weight Updates via Population Broadcast. arXiv:2605.16233 [cs.AI].

Shinn, N., Cassano, F., Gopinath, A., Narasimhan, K. R., & Yao, S. (2023). Reflexion: Language agents with verbal reinforcement learning. Advances in Neural Information Processing Systems, 36.

Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K. R., & Cao, Y. (2023). ReAct: Synergizing reasoning and acting in language models. International Conference on Learning Representations.

Jaderberg, M., Dalibard, V., Osindero, S., Czarnecki, W. M., Donahue, J., Razavi, A., ... & Simonyan, K. (2017). Population based training of neural networks. arXiv:1711.09846.

Kiely, M., Bowman, D., Standen, M., & Moir, C. (2023). On autonomous agents in a cyber defence environment. arXiv:2309.07388.

Standen, M., Lucas, M., Bowman, D., Richer, T. J., Kim, J., & Marriott, D. (2021). CybORG: A gym for the development of autonomous cyber agents. arXiv:2108.09118.

---

#论文 #AI #每日论文