> 想象一下,你养了一只特别聪明的猫,它从来不靠“重新训练大脑”(fine-tune),却能通过不断翻看自己以前的“作死日记”和“成功日记”,在下一次面对陌生难题时突然灵光一闪——
> 这就是 Memento 带给 LLM Agent 的魔法时刻。
### 🌟 前言:为什么我们再也不想微调大模型了?
微调 LLM 就像给一头大象做脑手术:
- 贵得要命(动辄几万刀 GPU 时间)
- 慢得要死(几天到几周)
- 一微调就灾难性遗忘(catastrophic forgetting)
- 部署还得重新发版,简直是生产环境的噩梦
2025 年 8 月,一群来自港大、清华、北大、字节等机构的年轻人扔出了一颗重磅炸弹:
**Memento**——让 LLM Agent 只靠“记忆”就能持续进化,彻底摆脱权重更新的枷锁。
这篇文章将带你彻底拆解这篇 arXiv 爆款论文(2508.16153)背后的所有秘密、彩蛋、黑科技,以及它为什么可能成为 2025–2026 年 Agent 领域真正的范式革命。
### 🧠 核心洞见:把“持续学习”重构为“带记忆的在线强化学习”
传统 Agent 持续学习路线图:
经验 → 微调 LoRA → 新权重 → 重新部署 → 祈祷别忘光旧知识
Memento 的路线图(优雅到犯规):
经验 → 存进 Case Bank → 用神经网络学一个“怎么挑案例”的策略 → 下次直接检索 + 模仿 → 性能暴涨
一句话总结:
**让 Agent 像人一样“记吃不记打”,而不是每次都回炉重造大脑。**
> 形象比喻:微调是大动干戈的“换脑手术”,Memento 只是给 Agent 发了一本越来越厚的《武功秘籍》,它自己学会了举一反三。
### 🏗️ 架构全景:Planner–Executor 双人舞 + 记忆银行
Memento 真正的天才之处在于把 ReAct、Reflexion、Case-Based Reasoning、Memory-Augmented MDP 全部揉进了一个极简却极强架构:
```
高层次任务
↓
Meta-Planner(GPT-4.1) → 任务分解 + 检索历史成功案例
↓
Executor(o3 或其他模型) → 逐个执行子任务(调用 MCP 工具)
↓
成功/失败轨迹 → 写入 Case Bank (s_T, a_T, r_T)
↓
神经检索器(Parametric Memory)不断训练 → 学会挑最有价值的旧案子
↑____________________________________________________┘
闭环!
```
#### 四个核心组件逐个拆解
| 组件 | 作用 | 黑科技点 |
|--------------------|-------------------------------------------|---------------------------------------|
| Meta-Planner | 高层任务分解 + 历史案例检索 | CBR-driven Planning |
| Executor | 真正的“干活小弟”,调用各种工具 | MCP 统一协议,工具即服务 |
| Case Memory | 存储最终一步的 (状态, 动作, 奖励) 三元组 | 支持非参数 & 参数化两种检索方式 |
| Parametric Retriever | 用神经网络学习“哪段记忆最有用” | 彻底甩开 BM25 等传统检索 10 条街 |
### 🔥 关键特性:为什么 Memento 能吊打一票 SOTA
1. **完全零权重更新**
模型权重一辈子不动,全部进步来自外部记忆。
2. **两种记忆模式,任君选择**
- Non-parametric CBR(类似 LangChain 的 VectorStore)
- Parametric Memory(训练一个轻量级神经检索器,效果碾压)
3. **MCP 工具帝国**
统一的 FastMCP 协议,10+ 工具开箱即用:
- 实时网页搜索(SearxNG + SerpAPI)
- 多格式文档解析(PDF/Word/Excel/图片/视频/音频)
- 沙箱代码执行(支持 Docker、E2B、本地)
- 数学计算、图像描述、视频理解……应有尽有
4. **离谱的基准成绩(直接看图)**
| 基准 | Memento 成绩 | 对比 GPT-4o / Claude-3.5 等 |
|----------------|-----------------------|-----------------------------|
| GAIA Val | 87.88% (Pass@3 Top-1) | 遥遥领先 |
| GAIA Test | 79.40% | SOTA |
| DeepResearcher | 66.6% F1 / 80.4% PM | OOD 数据 +9.6% 提升 |
| SimpleQA | 95.0% | 接近满分 |
| HLE | 24.4% PM | 逼近 GPT-5 的 25.32% |




> 看到那条红色的“Parametric Memory”曲线一路起飞了吗?这就是神经检索器学会“挑案例”之后的效果——简直是开挂。
### 🛠️ 消融实验揭秘:什么才是真正的性能之王?
论文里最精彩的消融实验告诉我们三个残酷真相:
1. **小而精的记忆 > 大而全的记忆**
K=4 时性能最高,记忆太多反而噪声干扰。
2. **规划 + CBR 永远打不过 规划 + CBR + Parametric Retriever**
神经检索器带来的提升是压倒性的。
3. **简洁规划 > 啰嗦思考**
让 Planner 输出结构化、简洁的计划,比让它长篇大论 CoT 效果更好。
### 🚀 30 分钟上手实测:我亲手跑通的全流程
```bash
# 1. 一键安装(uv 太香了)
git clone https://github.com/Agent-on-the-Fly/Memento
cd Memento && uv sync
# 2. 启动本地 SearxNG(搜索工具)
cd searxng-docker && docker compose up -d
# 3. 随便问个 GAIA Level 3 难题
python client/agent.py
> 请帮我找到 2024 年诺贝尔物理学奖得主的博士导师是谁,并在维基百科上验证出生年份是否正确。
# 4. 看着它自己规划 → 搜索 → 交叉验证 → 给出带来源的答案
```
实测速度:o3 + Parametric Memory 下,平均 45 秒出答案,准确率惊人。
### ⏳ 项目时间线与彩蛋(持续更新中)
- 2025.08.26 偷偷上线 GitHub,当天 Star 破千
- 2025.08.30 开源非参数 CBR 代码
- 2025.09.05 支持本地部署 Executor(vLLM)
- 2025.10.05 参数化记忆代码彻底开源(本文明文庆祝的日子!)
目前已开源全部核心代码,包括训练神经检索器的完整脚本。
### 🌍 未来 Roadmap(官方 TODO 翻译+剧透)
已完成 ✅
- 参数化记忆 + 神经检索器
- 自动收集训练数据 + 持续训练流程
即将上线 🚀
- 个人化记忆(记住你的偏好)
- 多模态记忆(图+视频也能存)
- 记忆压缩与遗忘机制
- 更多 benchmark 测试
### ⚠️ 当前局限性(作者自己都承认的)
1. 长时程任务(GAIA Level-3)仍有误差累积
2. 最前沿知识还是得靠实时工具
3. 完全开源执行器生态还不够完善
但这些都是工程问题,不是理论天花板。
### 🎯 最终结论:Agent 持续学习的范式真的变了
Memento 干了三件“大逆不道”的事:
1. 证明了“不微调权重”也能持续学习
2. 把 Case-Based Reasoning 从上世纪 90 年代的冷板凳拉回舞台中央
3. 用一个神经检索器,彻底干翻了传统向量检索
这不再是一个框架,这是一场静默的革命——
**从今往后,Agent 的“智商”不再取决于模型多大,而是取决于它的“记忆”有多聪明。**
> 最后送给大家一句我最喜欢的话(改编自论文):
“真正的智能,从来不是记住所有答案,而是知道在哪里找到正确的旧答案,然后举一反三。”
欢迎立刻冲进 GitHub 给星:
https://github.com/Agent-on-the-Fly/Memento
因为下一个能跑通 GAIA Level-3 的,可能就是你家本地电脑里的那只“记忆猫”了。
---
### 📚 参考文献
1. Zhou et al. "Memento: Fine-tuning LLM Agents without Fine-tuning LLMs." arXiv:2508.16153, 2025.
2. Huang et al. "Deep Research Agents: A Systematic Examination And Roadmap." arXiv:2506.18096, 2025.
3. Memento 官方代码库:https://github.com/Agent-on-the-Fly/Memento
4. GAIA Benchmark 官方 leaderboard(2025 年最新)
5. Case-Based Reasoning 经典综述(Aamodt & Plaza, 1994)——老爷爷看了直呼内行
登录后可参与表态
讨论回复
1 条回复
✨步子哥 (steper)
#1
12-05 08:22
登录后可参与表态