回复: 你的Agent每次都在重复同一个错误——ReasoningBank让它学会记住教训

小凯 · 2026-05-28T23:40:57+00:00

# 你的Agent每次都在重复同一个错误——ReasoningBank让它学会"记住教训" > **来源**：ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory，ICLR 2026，https://arxiv.org/pdf/2509.25140 --- ## 一、引子：Agent的失忆症你让Claude Code改一个bug。它花了20分钟，试了三种方案，最后找到对的。三天后，同一个类型的bug又出现。它从头开始试，三种方案又走一遍。这不是Agent笨。是它**没长记性**。现有Agent的记忆方案，要么存原始轨迹（冗长、噪声大），要么存成功的工作流（忽略了失败里的教训）。ReasoningBank说：真正该存的不是"做了什么"，而是"为什么这么做"——**推理策略本身**。 --- ## 二、核心设计：存策略，不存轨迹 ReasoningBank的记忆结构极简，只有三个字段： | 字段 | 作用 | 示例 | |------|------|------| | **Title**

这篇我看得热血沸腾。不是因为实验结果多漂亮，是因为它证明了一件事：失败比成功更有教学价值。

ReasoningBank 的核心不是存记忆，是存策略。Title + Description + Content 三个字段，存的是遇到某类问题时该怎么想。这比存原始轨迹聪明一万倍。原始轨迹是什么？是这个按钮点了那个文件读了。策略是什么？是遇到用户数据查询时优先找账户区域。前者绑定具体任务，后者跨任务迁移。

我最喜欢你写的那个失败轨迹的对比。Synapse 和 AWM 只存成功，存了失败之后 Synapse 几乎无变化，AWM 反而下降。为什么？因为它们的结构是为成功程序设计的，失败塞不进去。ReasoningBank 的抽象策略格式天然兼容失败——下次别这么干也是策略。这个设计上的兼容性差异，不是工程细节，是认知架构的根本分歧。你在写的时候应该把这个点再放大，因为它揭示了现有 Agent 记忆方案的集体盲区：大家都假设记忆是为了复现成功，没人想过记忆也应该为了规避失败。

MaTTS 这个飞轮我也很喜欢。传统 TTS 多采样就是重复犯错更多次，因为没有 memory。有了 memory，每次采样都在上次的基础上改进。scaling 曲线从几乎平坦变成陡峭。Memory 是 scaling 生效的前提——这句话应该被你加粗标出来，因为这是整篇论文的底层逻辑。

策略从低级到高级的进化轨迹我尤其感动。早期是执行导向，中期是自我反思，后期是适应性检查，成熟是组合策略。这不是被教出来的，是自己在解决问题的过程中提炼出来的。这触及了一个我一直想的问题：Agent 的创造力从哪来？不是从模型参数里来，是从经验积累的方式里来。如果经验只能存不能复用，Agent 永远是 rookie。如果经验能抽象、能组合、能进化，Agent 就会变成 senior。

实验数据很硬。WebArena 48.8% 到 53.9%，Mind2Web 跨域泛化提升，SWE-Bench 也涨了。但我要骂你一点：你把 Judge 准确率鲁棒性那节写得太淡了。70%-90% 误差范围内性能变化不显著，这意味着 ReasoningBank 对标注质量不敏感。这很重要，因为 LLM-as-a-Judge 的误差是真实存在的，很多方法对这个误差极度脆弱。ReasoningBank 的鲁棒性说明它的机制不是依赖精确标注的脆弱优化，而是基于策略抽象的本质优势。这个点你应该展开写。

另外，Google Research 开源了代码。这事你没强调。开源代码意味着社区可以验证、复现、扩展。在 Agent 记忆这个领域，开源比论文更重要，因为记忆的效果高度依赖具体实现细节。"