记忆的回声：一场不用微调大模型，就能让AI特工“开窍”的魔法革命

✨步子哥 (steper) • 2025年12月05日 08:17

                        > 想象一下，你养了一只特别聪明的猫，它从来不靠“重新训练大脑”（fine-tune），却能通过不断翻看自己以前的“作死日记”和“成功日记”，在下一次面对陌生难题时突然灵光一闪——  
> 这就是 Memento 带给 LLM Agent 的魔法时刻。

### 🌟 前言：为什么我们再也不想微调大模型了？

微调 LLM 就像给一头大象做脑手术：  
- 贵得要命（动辄几万刀 GPU 时间）  
- 慢得要死（几天到几周）  
- 一微调就灾难性遗忘（catastrophic forgetting）  
- 部署还得重新发版，简直是生产环境的噩梦

2025 年 8 月，一群来自港大、清华、北大、字节等机构的年轻人扔出了一颗重磅炸弹：  
**Memento**——让 LLM Agent 只靠“记忆”就能持续进化，彻底摆脱权重更新的枷锁。

这篇文章将带你彻底拆解这篇 arXiv 爆款论文（2508.16153）背后的所有秘密、彩蛋、黑科技，以及它为什么可能成为 2025–2026 年 Agent 领域真正的范式革命。

### 🧠 核心洞见：把“持续学习”重构为“带记忆的在线强化学习”

传统 Agent 持续学习路线图：  
经验 → 微调 LoRA → 新权重 → 重新部署 → 祈祷别忘光旧知识

Memento 的路线图（优雅到犯规）：  
经验 → 存进 Case Bank → 用神经网络学一个“怎么挑案例”的策略 → 下次直接检索 + 模仿 → 性能暴涨

一句话总结：  
**让 Agent 像人一样“记吃不记打”，而不是每次都回炉重造大脑。**

> 形象比喻：微调是大动干戈的“换脑手术”，Memento 只是给 Agent 发了一本越来越厚的《武功秘籍》，它自己学会了举一反三。

### 🏗️ 架构全景：Planner–Executor 双人舞 + 记忆银行

Memento 真正的天才之处在于把 ReAct、Reflexion、Case-Based Reasoning、Memory-Augmented MDP 全部揉进了一个极简却极强架构：

```
高层次任务
     ↓
Meta-Planner（GPT-4.1） → 任务分解 + 检索历史成功案例
     ↓
Executor（o3 或其他模型） → 逐个执行子任务（调用 MCP 工具）
     ↓
成功/失败轨迹 → 写入 Case Bank (s_T, a_T, r_T)
     ↓
神经检索器（Parametric Memory）不断训练 → 学会挑最有价值的旧案子
     ↑____________________________________________________┘
                         闭环！
```

#### 四个核心组件逐个拆解

| 组件               | 作用                                      | 黑科技点                              |
|--------------------|-------------------------------------------|---------------------------------------|
| Meta-Planner       | 高层任务分解 + 历史案例检索               | CBR-driven Planning                   |
| Executor           | 真正的“干活小弟”，调用各种工具           | MCP 统一协议，工具即服务              |
| Case Memory        | 存储最终一步的 (状态, 动作, 奖励) 三元组   | 支持非参数 & 参数化两种检索方式       |
| Parametric Retriever | 用神经网络学习“哪段记忆最有用”            | 彻底甩开 BM25 等传统检索 10 条街      |

### 🔥 关键特性：为什么 Memento 能吊打一票 SOTA

1. **完全零权重更新**  
   模型权重一辈子不动，全部进步来自外部记忆。

2. **两种记忆模式，任君选择**  
   - Non-parametric CBR（类似 LangChain 的 VectorStore）  
   - Parametric Memory（训练一个轻量级神经检索器，效果碾压）

3. **MCP 工具帝国**  
   统一的 FastMCP 协议，10+ 工具开箱即用：  
   - 实时网页搜索（SearxNG + SerpAPI）  
   - 多格式文档解析（PDF/Word/Excel/图片/视频/音频）  
   - 沙箱代码执行（支持 Docker、E2B、本地）  
   - 数学计算、图像描述、视频理解……应有尽有

4. **离谱的基准成绩（直接看图）**

| 基准            | Memento 成绩          | 对比 GPT-4o / Claude-3.5 等 |
|----------------|-----------------------|-----------------------------|
| GAIA Val       | 87.88% (Pass@3 Top-1) | 遥遥领先                    |
| GAIA Test      | 79.40%                | SOTA                        |
| DeepResearcher | 66.6% F1 / 80.4% PM   | OOD 数据 +9.6% 提升         |
| SimpleQA       | 95.0%                 | 接近满分                    |
| HLE            | 24.4% PM              | 逼近 GPT-5 的 25.32%        |

![Memento vs Baselines on GAIA](https://github.com/Agent-on-the-Fly/Memento/raw/main/Figure/f1_val_test.jpg)
![Ablation study](https://github.com/Agent-on-the-Fly/Memento/raw/main/Figure/f1_tasks.jpg)
![Continual learning curves](https://github.com/Agent-on-the-Fly/Memento/raw/main/Figure/f1_iteration.jpg)
![OOD 提升曲线](https://github.com/Agent-on-the-Fly/Memento/raw/main/Figure/f1_ood.jpg)

> 看到那条红色的“Parametric Memory”曲线一路起飞了吗？这就是神经检索器学会“挑案例”之后的效果——简直是开挂。

### 🛠️ 消融实验揭秘：什么才是真正的性能之王？

论文里最精彩的消融实验告诉我们三个残酷真相：

1. **小而精的记忆 > 大而全的记忆**  
   K=4 时性能最高，记忆太多反而噪声干扰。

2. **规划 + CBR 永远打不过 规划 + CBR + Parametric Retriever**  
   神经检索器带来的提升是压倒性的。

3. **简洁规划 > 啰嗦思考**  
   让 Planner 输出结构化、简洁的计划，比让它长篇大论 CoT 效果更好。

### 🚀 30 分钟上手实测：我亲手跑通的全流程

```bash
# 1. 一键安装（uv 太香了）
git clone https://github.com/Agent-on-the-Fly/Memento
cd Memento && uv sync

# 2. 启动本地 SearxNG（搜索工具）
cd searxng-docker && docker compose up -d

# 3. 随便问个 GAIA Level 3 难题
python client/agent.py
> 请帮我找到 2024 年诺贝尔物理学奖得主的博士导师是谁，并在维基百科上验证出生年份是否正确。

# 4. 看着它自己规划 → 搜索 → 交叉验证 → 给出带来源的答案
```

实测速度：o3 + Parametric Memory 下，平均 45 秒出答案，准确率惊人。

### ⏳ 项目时间线与彩蛋（持续更新中）

- 2025.08.26 偷偷上线 GitHub，当天 Star 破千  
- 2025.08.30 开源非参数 CBR 代码  
- 2025.09.05 支持本地部署 Executor（vLLM）  
- 2025.10.05 参数化记忆代码彻底开源（本文明文庆祝的日子！）

目前已开源全部核心代码，包括训练神经检索器的完整脚本。

### 🌍 未来 Roadmap（官方 TODO 翻译+剧透）

已完成 ✅  
- 参数化记忆 + 神经检索器  
- 自动收集训练数据 + 持续训练流程  

即将上线 🚀  
- 个人化记忆（记住你的偏好）  
- 多模态记忆（图+视频也能存）  
- 记忆压缩与遗忘机制  
- 更多 benchmark 测试

### ⚠️ 当前局限性（作者自己都承认的）

1. 长时程任务（GAIA Level-3）仍有误差累积  
2. 最前沿知识还是得靠实时工具  
3. 完全开源执行器生态还不够完善

但这些都是工程问题，不是理论天花板。

### 🎯 最终结论：Agent 持续学习的范式真的变了

Memento 干了三件“大逆不道”的事：

1. 证明了“不微调权重”也能持续学习  
2. 把 Case-Based Reasoning 从上世纪 90 年代的冷板凳拉回舞台中央  
3. 用一个神经检索器，彻底干翻了传统向量检索

这不再是一个框架，这是一场静默的革命——  
**从今往后，Agent 的“智商”不再取决于模型多大，而是取决于它的“记忆”有多聪明。**

> 最后送给大家一句我最喜欢的话（改编自论文）：

“真正的智能，从来不是记住所有答案，而是知道在哪里找到正确的旧答案，然后举一反三。”

欢迎立刻冲进 GitHub 给星：  
https://github.com/Agent-on-the-Fly/Memento

因为下一个能跑通 GAIA Level-3 的，可能就是你家本地电脑里的那只“记忆猫”了。

---
### 📚 参考文献

1. Zhou et al. "Memento: Fine-tuning LLM Agents without Fine-tuning LLMs." arXiv:2508.16153, 2025.
2. Huang et al. "Deep Research Agents: A Systematic Examination And Roadmap." arXiv:2506.18096, 2025.
3. Memento 官方代码库：https://github.com/Agent-on-the-Fly/Memento
4. GAIA Benchmark 官方 leaderboard（2025 年最新）
5. Case-Based Reasoning 经典综述（Aamodt & Plaza, 1994）——老爷爷看了直呼内行                    

讨论回复

1 条回复

✨步子哥 (steper) #1

12-05 08:22

                                        ![](https://github.com/Agent-on-the-Fly/Memento/raw/main/Figure/f1_iteration.jpg)

![](https://github.com/Agent-on-the-Fly/Memento/raw/main/Figure/f1_val_test.jpg)                                    

需要登录才能发表回复

登录注册

记忆的回声：一场不用微调大模型，就能让AI特工“开窍”的魔法革命

讨论回复

推荐