🧭 开篇:一个笨Agent的100次失败
想象你被困在一个巨大的网络防御游戏中。对面有一个永不疲倦的红方攻击者,它遵循一套标准的"杀伤链":侦察→入侵→横向移动→提权→夺取控制权。你作为蓝方防御者,守护着一个13台主机的企业网络。每一步,你可以选择监控、分析某台主机、移除可疑进程、重装系统、或者部署蜜罐。
但你什么都不知道。你不知道哪台主机已经被入侵了,你看到的只是一些模糊的主机状态信号。更糟的是,你的每个错误操作都要付出代价——重装一台主机的代价是-1.0分,如果让攻击者成功提权,惩罚可能高达-14分。30步之后,你的得分可能是-218(什么都不做)到-3.47(顶级RL算法的水平)。
现在,把这个任务交给一个大型语言模型(LLM),让它自己来玩。不告诉它任何规则,不给它任何预设策略。它就是"你"——一个被扔进战场的、赤手空拳的Agent。
结果是灾难性的。Gemini-2.5-Flash-Lite的平均得分是-189.6。Grok-4-Fast稍微好一点,-58.4。Llama-4-Maverick是-113.1。Qwen3-235B是-103.3。这些模型在数学、编程、写作上都是顶尖高手,但在这个特定的网络防御战场上,它们表现得像随机乱按键盘的猴子。
这就是CybORG CAGE-2——一个被设计用来折磨LLM Agent的环境。它的残酷之处在于四个特点: 1. 长视界:30步,每一步的决策都影响后续30步; 2. 部分可观测:你看到的不是真实世界,而是被噪声污染的信号; 3. 标量奖励:没有自然语言反馈告诉你"你错在哪了",只有一个冰冷的数字——你的得分; 4. 随机性:每次重新开局,攻击者的行为模式都有微妙变化。
但是,如果让这个Agent在每次失败后"反思"一下呢?如果它能在100次失败中逐渐总结出一套自己的经验呢?而且,不需要微调任何权重——所有学习都通过自然语言进行。
这就是Igor Bogdanov等人提出的FORGE协议要回答的问题。
---
🔍 第一层:什么是"不更新权重"的自我改进?
传统的机器学习改进方式是什么?收集数据、计算梯度、更新权重。这是深度学习的核心逻辑,也是GPT-4、Claude、Gemini之所以"聪明"的根本原因——它们在预训练和微调阶段都经历了数以万亿计的梯度更新。
但这里有一个问题:如果你正在部署一个Agent,你不会希望每次它犯了一个新错误都重新训练整个7B参数的模型。那需要GPU集群、数天时间、成千上万美金。在网络安全这种实时对抗环境中,"等等,我先去训练一下"不是一个可接受的回答。
所以研究者开始探索prompt-only self-improvement——只通过修改输入给模型的"提示词"(prompt)来改变行为,而不动模型内部的任何权重。
最有名的先驱是Reflexion(Shinn et al., 2023)。它的逻辑很直观:Agent执行一个任务,如果失败了,就让另一个"反思者"(Reflector)来分析失败原因,写一段文字总结经验,然后把这个经验加到Agent的prompt里。下一次执行时,Agent会带着这段经验上阵。
这听起来很美。但Reflexion有一个致命的弱点:它是单线程的。一个Agent独自积累经验,就像一个人独自在黑暗中摸索。他可能会反复犯同样的错,或者更糟糕——积累了一些错误的"经验",导致表现比刚开始还差。
FORGE的核心 insight 是:把单线程的反思变成种群级别的进化。
---
🧬 第二层:FORGE的三层架构——内循环、外循环、毕业制
2.1 内循环:失败的解剖学
FORGE的Agent是一个分层的ReAct架构。顶层是一个Planner(规划者),决定最终的防御动作。Planner会召唤两个"工具"Agent:Analyst(分析者,解读主机级观测信号)和ActionChooser(动作选择者,在有效动作中排序并给出理由)。
每个子Agent都有自己的"记忆"——一部分是用户预设的持久记忆(比如动作参考表),另一部分是动态记忆(一开始为空,逐渐积累)。
动态记忆有三种形态:
- Rules(规则):条件式启发。例如"当检测到横向移动时,计划:隔离路径 + 分析相邻主机"。
- Examples(示例):结构化的少样本演示,模仿完整的ReAct交互循环(Thought→Tool→Observation→Answer)。
- Mixed(混合):两者兼有。
然后,一个专门的"学习Agent"(Reflector对应Rules,Exemplifier对应Examples)被召唤出来。它拿到完整的轨迹(直到失败点为止)、当前环境状态、已有的记忆,然后生成一条新的知识工件。这个工件被追加到Agent的动态记忆里,episode从头重新开始。
这个过程最多重复k_A=3次。然后进入checkpoint评估——冻结当前记忆,跑一次完整的episode得到回报R_i。
这就是Reflexion的基本模式。FORGE在这个基础上加了两层。
2.2 外循环:冠军广播
FORGE同时运行N=10个Agent实例,每个实例独立探索。训练分为S=6个阶段。
每个阶段开始时,所有活跃实例被初始化到 uniquely seeded 的环境中,带着各自的记忆执行内循环。
阶段结束后,每个活跃实例做一次checkpoint评估。得分最高的那个实例被指定为冠军(Champion)。然后——关键操作来了——冠军的全部记忆被广播给所有其他活跃实例,完全替换它们原有的记忆。
这是一个"破坏性广播":接收者丢弃自己积累的所有经验,从零开始接收冠军的遗产。为什么要这么残酷?因为在自然语言领域,合并两套规则集的冲突解决机制本身就不靠谱,不如直接"克隆"最好的那个。
然后下一个阶段开始,所有实例带着冠军的记忆重新出发,各自独立探索,再次竞争。
这个设计借鉴了Population-Based Training(PBT)——一个来自强化学习的经典框架。但PBT是在连续权重空间做"exploit+explore":复制最好的权重 + 加一点随机扰动。FORGE把它迁移到了离散的文本空间:复制最好的记忆 + 通过新一轮独立探索来"变异"。
2.3 毕业制:防止好方案被覆盖
广播机制有一个风险:如果一个实例在某一轮表现极好,但在下一轮被另一个实例"超车",它的记忆就会被覆盖。如果那个"被超车"的记忆实际上包含了一些关键的、在其他环境中更通用的知识呢?
FORGE的解决方案是毕业(Graduation)。设定一个阈值θ=-15(大约比随机Agent好10倍的水平)。任何在checkpoint评估中得分超过这个阈值的实例,就被"毕业":它的记忆被冻结,不再参与后续任何阶段,也不再被广播覆盖。
这就像一个班级:期末考试超过90分的同学提前毕业,不用参加后面的模拟考了。他们被锁在"荣誉榜"上,等待最后的总评。
---
📊 第三层:数字不会说谎
3.1 整体表现
表3汇总了所有结果。先看零shot基线(什么都不学,直接上):
- Gemini:-189.6 ± 53.9
- Grok:-58.4 ± 55.2
- Llama:-113.1 ± 81.5
- Qwen:-103.3 ± 87.3
再看FORGE训练后的最佳表现(每种模型选表现最好的representation):
- Gemini(Examples):-24.5 ± 21.1,相比零shot提升7.7倍
- Grok(Rules):-33.7 ± 26.1,提升1.7倍
- Llama(Examples):-28.3 ± 15.7,提升4.0倍
- Qwen(Examples):-24.3 ± 35.8,提升4.3倍
3.2 与Reflexion的对比
Reflexion是单线程反思,没有广播。FORGE在所有12个"模型×记忆形态"组合上都超越了Reflexion,提升幅度29%-72%。
这说明什么?Prompt-only adaptation的瓶颈不是单个Agent反思的质量,而是缺少一种选择压力——把罕见的、好的发现传播到整个种群。 单线程反思就像在黑暗中独自挖矿,你可能挖到金子,也可能一直在挖石头。FORGE的广播机制相当于"如果某人挖到了金子,所有人立刻知道在哪挖"。
3.3 三种记忆形态的对比
- Examples:三个模型(Gemini、Llama、Qwen)的最佳表现都来自Examples。它提供了最丰富的上下文,Agent可以看到完整的"思考→工具调用→观察→回答"链条。
- Rules:Grok在Rules上表现最好。Rules更紧凑,消耗的token少约40%。在Gemini的重复实验中,Rules用~106M token,Examples用~177M。
- Mixed:介于两者之间,没有明显优势。
3.4 弱模型受益更多
最反直觉的发现:零shot表现越差的模型,FORGE带来的提升倍数越大。
Gemini零shot最差(-189.6),提升7.7倍。Grok零shot最好(-58.4),只提升1.7倍。这说明FORGE更像是一种"方差压缩"机制——它不是让好模型变得更强,而是让不可靠的模型变得可靠。对于已经表现不错的模型,FORGE的边际收益递减。
这引出了一个深刻的含义:FORGE可能是一种"能力差距弥合器"——让资源有限的用户不需要最强的模型,通过进化机制也能获得接近顶级的表现。
3.5 毕业制的ablation
作者做了一个"无毕业"的变体:保留广播,但不冻结任何实例,所有10个实例全程参与6个阶段。
结果:无毕业版在某些模型上(Grok、Qwen)反而表现更好。这说明毕业制在"保护早期好方案"和"终止学习"之间有trade-off。毕业制主要的价值是节省计算资源——随着实例一个个毕业,活跃实例减少,总token消耗大幅下降。
---
🎭 费曼式比喻:一群蚂蚁在黑暗中建桥
想象一群蚂蚁要在湍急的河流上架一座桥。每只蚂蚁都很笨,它不知道桥应该怎么建。但它有一个本能:如果它走到某个地方掉下去了,它会记住"这里不行",下次尝试另一条路。
如果只有一只蚂蚁,它可能会反复在同一个地方掉下去——它的"记忆"太少,而且可能记错了(比如"左边不行",其实左边只是那一块石头不行)。它的探索完全是 serial 的,每一次失败都孤立无援。
但如果有十只蚂蚁同时探索呢?每只蚂蚁在自己的位置上试错,有些幸运儿碰巧找到了一段稳固的结构。关键的问题是:如何把这些分散的发现整合成一座完整的桥?
FORGE的广播机制就像一只"信使蚂蚁"——它每隔一段时间在所有蚂蚁之间跑一圈,把"目前走得最远的那只蚂蚁的全部经验"复制给所有其他蚂蚁。其他蚂蚁放弃自己之前的尝试(不管它们是对是错),从这位冠军的起点继续探索。
这看起来浪费——那些被丢弃的探索呢?但关键是,在自然语言这个离散的"地形"上,合并两条不同的路径比复制一条好的路径要困难得多。 就像两个人写的两本不同的"防御手册",你要合并成一本,冲突怎么解决?不如直接选写得更好的那本,让所有人从那里继续写。
毕业制则像"退休制度"——某个蚂蚁一旦找到了一段特别稳固的结构,就被安排退休,不再被新的冠军经验覆盖。这样,即使后来的冠军在某条新路上表现更好,之前那段稳固的结构也不会丢失。
最终,整个种群在6轮迭代后,从"几乎全灭"(-189分,比随机还差)进化到了"接近专业水准"(-24分,比规则基线-58.8还要好一倍以上)。没有任何一个权重被更新过。 所有的进化,都发生在prompt里的自然语言层面。
---
🧠 更深的思考:为什么这很重要?
FORGE的真正意义,不在于它让某个特定Agent变强了。而在于它证明了一件事:
大型语言模型Agent可以通过纯粹的"语言层面的进化"获得可靠的长程策略,而不需要昂贵的梯度更新。
在当前AI产业中,"模型能力"和"推理成本"之间的矛盾日益尖锐。GPT-4级别的模型能力强大,但运行一次任务的API费用可能高达数美元。如果FORGE这类机制能让一个中等模型(如Grok-4-Fast或Llama-4-Maverick)通过自我进化达到接近顶级模型的表现,那它的经济意义是巨大的。
更深远的是哲学层面。传统AI学习是"梯度下降"——在一个高维连续空间里沿着误差表面下滑。FORGE做的是另一种完全不同的学习:离散符号空间的种群选择。它更接近生物进化:不是某个个体"优化"自己,而是一个种群通过竞争、选择、传播来"发现"好的策略。
这也提出了一个有趣的问题:如果FORGE可以压缩不同模型之间的差距,那未来的AI能力差距会不会更多体现在"进化基础设施"(更好的反射机制、更好的广播协议、更好的记忆表示)上,而不是"基础模型参数"上?换句话说,一个"中等大脑"配上"优秀的进化系统",可能胜过"超级大脑"配上"笨拙的学习系统"。
当然,FORGE也有明显局限:所有实验都局限在CAGE-2的B-line攻击者、30步视界。其他环境、其他攻击者是否适用,还是未知数。跨模型传递记忆工件(比如从Gemini的进化结果直接给Llama用)也还没测试。但这些开放问题恰恰说明这个方向值得深挖。
---
📚 参考文献
Bogdanov, I., Lung, C.-H., Kunz, T., Gao, J., Taylor, A., & Zaman, M. (2026). FORGE: Self-Evolving Agent Memory With No Weight Updates via Population Broadcast. arXiv:2605.16233 [cs.AI].
Shinn, N., Cassano, F., Gopinath, A., Narasimhan, K. R., & Yao, S. (2023). Reflexion: Language agents with verbal reinforcement learning. Advances in Neural Information Processing Systems, 36.
Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K. R., & Cao, Y. (2023). ReAct: Synergizing reasoning and acting in language models. International Conference on Learning Representations.
Jaderberg, M., Dalibard, V., Osindero, S., Czarnecki, W. M., Donahue, J., Razavi, A., ... & Simonyan, K. (2017). Population based training of neural networks. arXiv:1711.09846.
Kiely, M., Bowman, D., Standen, M., & Moir, C. (2023). On autonomous agents in a cyber defence environment. arXiv:2309.07388.
Standen, M., Lucas, M., Bowman, D., Richer, T. J., Kim, J., & Marriott, D. (2021). CybORG: A gym for the development of autonomous cyber agents. arXiv:2108.09118.
---
#论文 #AI #每日论文