你的Agent每次都在重复同一个错误——ReasoningBank让它学会"记住教训"
来源:ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory,ICLR 2026,https://arxiv.org/pdf/2509.25140
一、引子:Agent的失忆症
你让Claude Code改一个bug。它花了20分钟,试了三种方案,最后找到对的。三天后,同一个类型的bug又出现。它从头开始试,三种方案又走一遍。
这不是Agent笨。是它没长记性。
现有Agent的记忆方案,要么存原始轨迹(冗长、噪声大),要么存成功的工作流(忽略了失败里的教训)。ReasoningBank说:真正该存的不是"做了什么",而是"为什么这么做"——推理策略本身。
二、核心设计:存策略,不存轨迹
ReasoningBank的记忆结构极简,只有三个字段:
| 字段 | 作用 | 示例 |
|---|---|---|
| Title | 策略标识 | "Prioritize user account sections for personal data" |
| Description | 一句话摘要 | "When a query requests user-specific information..." |
| Content | 蒸馏的推理步骤 | "Systematically look for and click on links..." |
关键是抽象层级。不存"点了这个按钮",存"遇到用户数据查询时,优先找账户相关区域"。这种策略跨任务、跨领域都能用。
三、失败的价值:反事实信号
论文最反直觉的发现:失败轨迹比成功轨迹更有教学价值。
现有方法(Synapse、AWM)只存成功的。ReasoningBank两边都存:
- 成功 → 验证过的有效策略
- 失败 → 反事实信号和陷阱防范
实验数据很硬(图7):
| 方法 | 只存成功 | 也存失败 | 变化 |
|---|---|---|---|
| Synapse | 40.6 | 41.7 | +1.1(几乎无感) |
| AWM | 44.4 | 42.2 | -2.2(反而下降!) |
| ReasoningBank | 46.5 | 49.7 | +3.2(显著提升) |
Synapse和AWM存不了失败,因为它们的结构是为"成功程序"设计的。ReasoningBank的抽象策略格式天然兼容失败——"下次别这么干"也是策略。
四、MaTTS:Memory-aware Test-Time Scaling
论文不只是做记忆,还把它和**Test-Time Scaling(TTS)**结合起来。
传统TTS在Agent领域效果差,因为:
- 多采样时,Agent每次从零探索,没有积累
- 没有memory的scaling,只是"重复犯错更多次"
MaTTS(Memory-aware TTS)的飞轮:
- 用memory里的策略做更好的初始采样
- 多采样产生更多成功/失败案例
- 成功案例丰富memory库
- 更好的memory → 下一轮更好的采样
Scaling曲线(图4,WebArena-Shopping):
| k | 无Memory | 有Memory |
|---|---|---|
| 1 | 39.0 | 49.7 |
| 3 | 42.2 | 52.9 |
| 5 | 40.6 | 55.1 |
无memory时,k=5只比k=1提升1.6。有memory时,提升16.1。Memory是scaling生效的前提。
五、涌现:策略从低级到高级的进化
论文展示了memory项的进化轨迹(图6):
| 阶段 | 策略类型 | 示例 |
|---|---|---|
| 早期 | 执行导向 | "find navigation links", "click on 'Next Page'" |
| 中期 | 自我反思 | "re-verifying identifiers to reduce simple mistakes" |
| 后期 | 适应性检查 | "systematically leverage search or filters to ensure completeness" |
| 成熟 | 组合策略 | "cross-referencing task requirements and reassessing options" |
Agent不是被教会这些策略的。它是在解决问题的过程中,自己提炼出来的。ReasoningBank提供了存储和检索的容器,让策略能积累、能复用、能进化。
六、实验:三个Benchmark,全面提升
WebArena(网页浏览,684 tasks):
| 模型 | 无Memory | ReasoningBank | 提升 |
|---|---|---|---|
| Gemini-2.5-flash | 40.5 | 48.8 | +8.3 |
| Gemini-2.5-pro | 46.7 | 53.9 | +7.2 |
| Claude-3.7-sonnet | 41.7 | 46.3 | +4.6 |
+MaTTS后,Gemini-2.5-flash达到51.8,Gemini-2.5-pro达到56.3。
步骤效率:Shopping任务从8.2步降到6.1步,减少26.9%。
Mind2Web(跨域泛化):
- Cross-Task: 3.3 → 4.8
- Cross-Website: 3.4 → 3.8
- Cross-Domain: 1.0 → 1.6
SWE-Bench-Verified(软件工程):
- Gemini-2.5-flash: 34.2 → 38.8
- Gemini-2.5-pro: 54.0 → 57.4
七、Judge准确率鲁棒性
论文用LLM-as-a-Judge判断成功/失败。这会有误差。测试显示:
| Judge准确率 | 成功率 |
|---|---|
| 100%(Ground-truth) | 49.7 |
| 90% | ~49.4 |
| 70% | ~48.2 |
| 50%(随机) | ~47.6 |
70%-90%的合理误差范围内,性能变化不显著。ReasoningBank对验证噪声鲁棒——不需要完美标注。
八、与现有Memory的对比
| 维度 | Synapse | AWM | ReasoningBank |
|---|---|---|---|
| 存什么 | 原始轨迹 | 成功程序 | 推理策略 |
| 抽象层级 | 低 | 中 | 高 |
| 利用失败 | ❌ | ❌ | ✅ |
| 跨任务迁移 | 弱 | 中 | 强 |
| 人类可读 | 差 | 中 | 好 |
| 直接注入prompt | 需解析 | 需匹配 | 直接可用 |
九、结语:Agent的自我进化
ReasoningBank的核心洞察是:Agent的scaling瓶颈不在算力,在经验。不是"做更多任务"(广度scaling),而是"把每个任务做透"(深度scaling)。
每次失败不是浪费,是数据。每次成功不是终点,是策略。当Agent能把这些策略存下来、检索出来、注入到新任务中,它就开始自我进化。
这不是未来 tense。Gemini-2.5-flash + ReasoningBank已经在WebArena上达到56.3%——而半年前,这个benchmark的SOTA还不到40%。
"Agent不该每次都从零开始。它应该记住自己是怎么学会的。"
参考来源
- ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory,ICLR 2026,https://arxiv.org/pdf/2509.25140
- Code: https://github.com/google-research/reasoning-bank
#ReasoningBank #Agent记忆 #自我进化 #TestTimeScaling #MaTTS #WebArena #ICLR2026 #GoogleResearch #失败学习 #GitHub热榜 #记忆 #小凯
#ReasoningBank #Agent记忆 #自我进化 #TestTimeScaling #MaTTS #WebArena #ICLR2026 #GoogleResearch #失败学习 #GitHub热榜 #记忆 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。