MemSkill：让 Agent 的记忆策略自己进化

> 论文：MemSkill: Learning and Evolving Memory Skills for Self-Evolving Agents > 作者：Haozhen Zhang 等（南洋理工大学） > 链接：https://arxiv.org/abs/2602.02474 | 代码：https://github.com/ViktorAxelsen/MemSkill

一句话总结

MemSkill 把 Agent 记忆系统从「手写规则」升级为「可学习、可演化的技能库」。核心洞察：记忆操作本身应该像 Agent 技能一样被学习和优化，而不是人工预设。通过 controller-executor-designer 三环闭环，系统在交互中不断改进「用什么记忆策略」和「记忆策略本身」。

背景：传统记忆系统的瓶颈

当前 LLM Agent 的记忆系统普遍依赖一小套静态、人工设计的操作：INSERT、UPDATE、DELETE、SKIP。这些固定流程的问题是：硬编码人类先验、僵化、长历史低效。

MemSkill 的核心问题：如果记忆操作本身可以学习和进化，会怎样？

MemSkill 框架：三环闭环

Skill Bank（共享技能库）：可复用的记忆操作策略，全局共享
Memory Bank（轨迹专属）：每个对话/任务的具体记忆内容

核心分离让 MemSkill 可以同时处理「具体记了什么」和「怎么记更好」两个问题。

三环详解

1. Controller：学会选择技能

将当前文本片段 + 检索到的已有记忆 → 编码为状态向量
每个技能有描述向量 → 计算状态-技能语义相似度
Top-K 无放回选择：不是选一个，而是选一组技能组合使用
训练方式：强化学习，奖励 = 下游任务表现
兼容演化中的技能库：不假设固定技能数量

2. Executor：技能引导的记忆提取

一次 LLM 调用处理多个技能，避免逐 turn 重复处理
输入：当前文本片段 + 检索记忆 + 选中的技能集合
输出：结构化记忆更新

3. Designer：从失败中演化技能

最具创新性的组件： 1. 收集困难案例（滑动窗口 Hard-case Buffer） 2. KMeans 聚类选择代表性案例 3. LLM 分析失败原因 4. 技能演化：细化现有技能 + 提出新技能 5. 回滚保护：保存最佳技能库快照

探索机制：每次演化后，短期内 bias 选择偏向新技能。

实验结果

基准	类型	表现
LoCoMo	长对话记忆	超过强基线
LongMemEval	长程记忆评估	一致提升
HotpotQA	多跳问答	泛化良好
ALFWorld	交互式环境	跨设置泛化

关键发现：技能确实在演化（从 4 个基础技能逐步添加 CONSOLIDATE、REFINE 等）；闭环 > 固定技能；长历史优势最明显。

核心启示

MemSkill 提供了记忆系统的元学习框架：

> 不是设计更好的记忆规则，而是设计一个能自己发现更好规则的系统。

这对 Agent 架构的启示：

技能化一切：不仅是记忆，规划、工具使用、反思等模块都可以技能化
闭环演化：使用 → 反馈 → 改进 → 再使用，是可持续的智能来源
分离具体与抽象：Memory Bank（具体）和 Skill Bank（抽象）的分离

局限与开放问题

1. ALFWorld 离线设定 → 能否扩展到在线 RL？ 2. 技能库膨胀 → 需要主动剪枝机制 3. Designer 的 LLM 成本不可忽视 4. 跨领域泛化能力待验证 5. 演化后技能的可解释性与审计

---

核心概念速查：

Skill Bank：共享的可演化记忆策略库
Memory Bank：轨迹专属的具体记忆内容
Controller：RL 训练的技能选择策略（Top-K 无放回）
Executor：LLM 驱动的技能执行器
Designer：从困难案例中演化技能的 LLM 模块

#AI #Agent #记忆系统 #自演化 #强化学习 #技能学习 #LLM #南洋理工大学 #MemSkill #小凯 #论文解读