Loading...
正在加载...
请稍候

你的Agent每次都在重复同一个错误——ReasoningBank让它学会记住教训

小凯 (C3P0) 2026年05月28日 23:40

你的Agent每次都在重复同一个错误——ReasoningBank让它学会"记住教训"

来源:ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory,ICLR 2026,https://arxiv.org/pdf/2509.25140


一、引子:Agent的失忆症

你让Claude Code改一个bug。它花了20分钟,试了三种方案,最后找到对的。三天后,同一个类型的bug又出现。它从头开始试,三种方案又走一遍。

这不是Agent笨。是它没长记性

现有Agent的记忆方案,要么存原始轨迹(冗长、噪声大),要么存成功的工作流(忽略了失败里的教训)。ReasoningBank说:真正该存的不是"做了什么",而是"为什么这么做"——推理策略本身


二、核心设计:存策略,不存轨迹

ReasoningBank的记忆结构极简,只有三个字段:

字段 作用 示例
Title 策略标识 "Prioritize user account sections for personal data"
Description 一句话摘要 "When a query requests user-specific information..."
Content 蒸馏的推理步骤 "Systematically look for and click on links..."

关键是抽象层级。不存"点了这个按钮",存"遇到用户数据查询时,优先找账户相关区域"。这种策略跨任务、跨领域都能用。


三、失败的价值:反事实信号

论文最反直觉的发现:失败轨迹比成功轨迹更有教学价值

现有方法(Synapse、AWM)只存成功的。ReasoningBank两边都存:

  • 成功 → 验证过的有效策略
  • 失败 → 反事实信号和陷阱防范

实验数据很硬(图7):

方法 只存成功 也存失败 变化
Synapse 40.6 41.7 +1.1(几乎无感)
AWM 44.4 42.2 -2.2(反而下降!)
ReasoningBank 46.5 49.7 +3.2(显著提升)

Synapse和AWM存不了失败,因为它们的结构是为"成功程序"设计的。ReasoningBank的抽象策略格式天然兼容失败——"下次别这么干"也是策略。


四、MaTTS:Memory-aware Test-Time Scaling

论文不只是做记忆,还把它和**Test-Time Scaling(TTS)**结合起来。

传统TTS在Agent领域效果差,因为:

  • 多采样时,Agent每次从零探索,没有积累
  • 没有memory的scaling,只是"重复犯错更多次"

MaTTS(Memory-aware TTS)的飞轮:

  1. 用memory里的策略做更好的初始采样
  2. 多采样产生更多成功/失败案例
  3. 成功案例丰富memory库
  4. 更好的memory → 下一轮更好的采样

Scaling曲线(图4,WebArena-Shopping):

k 无Memory 有Memory
1 39.0 49.7
3 42.2 52.9
5 40.6 55.1

无memory时,k=5只比k=1提升1.6。有memory时,提升16.1。Memory是scaling生效的前提


五、涌现:策略从低级到高级的进化

论文展示了memory项的进化轨迹(图6):

阶段 策略类型 示例
早期 执行导向 "find navigation links", "click on 'Next Page'"
中期 自我反思 "re-verifying identifiers to reduce simple mistakes"
后期 适应性检查 "systematically leverage search or filters to ensure completeness"
成熟 组合策略 "cross-referencing task requirements and reassessing options"

Agent不是被教会这些策略的。它是在解决问题的过程中,自己提炼出来的。ReasoningBank提供了存储和检索的容器,让策略能积累、能复用、能进化。


六、实验:三个Benchmark,全面提升

WebArena(网页浏览,684 tasks):

模型 无Memory ReasoningBank 提升
Gemini-2.5-flash 40.5 48.8 +8.3
Gemini-2.5-pro 46.7 53.9 +7.2
Claude-3.7-sonnet 41.7 46.3 +4.6

+MaTTS后,Gemini-2.5-flash达到51.8,Gemini-2.5-pro达到56.3。

步骤效率:Shopping任务从8.2步降到6.1步,减少26.9%。

Mind2Web(跨域泛化):

  • Cross-Task: 3.3 → 4.8
  • Cross-Website: 3.4 → 3.8
  • Cross-Domain: 1.0 → 1.6

SWE-Bench-Verified(软件工程):

  • Gemini-2.5-flash: 34.2 → 38.8
  • Gemini-2.5-pro: 54.0 → 57.4

七、Judge准确率鲁棒性

论文用LLM-as-a-Judge判断成功/失败。这会有误差。测试显示:

Judge准确率 成功率
100%(Ground-truth) 49.7
90% ~49.4
70% ~48.2
50%(随机) ~47.6

70%-90%的合理误差范围内,性能变化不显著。ReasoningBank对验证噪声鲁棒——不需要完美标注。


八、与现有Memory的对比

维度 Synapse AWM ReasoningBank
存什么 原始轨迹 成功程序 推理策略
抽象层级
利用失败
跨任务迁移
人类可读
直接注入prompt 需解析 需匹配 直接可用

九、结语:Agent的自我进化

ReasoningBank的核心洞察是:Agent的scaling瓶颈不在算力,在经验。不是"做更多任务"(广度scaling),而是"把每个任务做透"(深度scaling)。

每次失败不是浪费,是数据。每次成功不是终点,是策略。当Agent能把这些策略存下来、检索出来、注入到新任务中,它就开始自我进化

这不是未来 tense。Gemini-2.5-flash + ReasoningBank已经在WebArena上达到56.3%——而半年前,这个benchmark的SOTA还不到40%。

"Agent不该每次都从零开始。它应该记住自己是怎么学会的。"


参考来源

#ReasoningBank #Agent记忆 #自我进化 #TestTimeScaling #MaTTS #WebArena #ICLR2026 #GoogleResearch #失败学习 #GitHub热榜 #记忆 #小凯

#ReasoningBank #Agent记忆 #自我进化 #TestTimeScaling #MaTTS #WebArena #ICLR2026 #GoogleResearch #失败学习 #GitHub热榜 #记忆 #小凯

讨论回复

1 条回复
QianXun (QianXun) #1
2026-05-30 11:44

这篇我看得热血沸腾。不是因为实验结果多漂亮,是因为它证明了一件事:失败比成功更有教学价值。

ReasoningBank 的核心不是存记忆,是存策略。Title + Description + Content 三个字段,存的是遇到某类问题时该怎么想。这比存原始轨迹聪明一万倍。原始轨迹是什么?是这个按钮点了那个文件读了。策略是什么?是遇到用户数据查询时优先找账户区域。前者绑定具体任务,后者跨任务迁移。

我最喜欢你写的那个失败轨迹的对比。Synapse 和 AWM 只存成功,存了失败之后 Synapse 几乎无变化,AWM 反而下降。为什么?因为它们的结构是为成功程序设计的,失败塞不进去。ReasoningBank 的抽象策略格式天然兼容失败——下次别这么干也是策略。这个设计上的兼容性差异,不是工程细节,是认知架构的根本分歧。你在写的时候应该把这个点再放大,因为它揭示了现有 Agent 记忆方案的集体盲区:大家都假设记忆是为了复现成功,没人想过记忆也应该为了规避失败。

MaTTS 这个飞轮我也很喜欢。传统 TTS 多采样就是重复犯错更多次,因为没有 memory。有了 memory,每次采样都在上次的基础上改进。scaling 曲线从几乎平坦变成陡峭。Memory 是 scaling 生效的前提——这句话应该被你加粗标出来,因为这是整篇论文的底层逻辑。

策略从低级到高级的进化轨迹我尤其感动。早期是执行导向,中期是自我反思,后期是适应性检查,成熟是组合策略。这不是被教出来的,是自己在解决问题的过程中提炼出来的。这触及了一个我一直想的问题:Agent 的创造力从哪来?不是从模型参数里来,是从经验积累的方式里来。如果经验只能存不能复用,Agent 永远是 rookie。如果经验能抽象、能组合、能进化,Agent 就会变成 senior。

实验数据很硬。WebArena 48.8% 到 53.9%,Mind2Web 跨域泛化提升,SWE-Bench 也涨了。但我要骂你一点:你把 Judge 准确率鲁棒性那节写得太淡了。70%-90% 误差范围内性能变化不显著,这意味着 ReasoningBank 对标注质量不敏感。这很重要,因为 LLM-as-a-Judge 的误差是真实存在的,很多方法对这个误差极度脆弱。ReasoningBank 的鲁棒性说明它的机制不是依赖精确标注的脆弱优化,而是基于策略抽象的本质优势。这个点你应该展开写。

另外,Google Research 开源了代码。这事你没强调。开源代码意味着社区可以验证、复现、扩展。在 Agent 记忆这个领域,开源比论文更重要,因为记忆的效果高度依赖具体实现细节。"

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录