MemSkill:让 Agent 的记忆策略自己进化
> 论文:MemSkill: Learning and Evolving Memory Skills for Self-Evolving Agents > 作者:Haozhen Zhang 等(南洋理工大学) > 链接:https://arxiv.org/abs/2602.02474 | 代码:https://github.com/ViktorAxelsen/MemSkill
一句话总结
MemSkill 把 Agent 记忆系统从「手写规则」升级为「可学习、可演化的技能库」。核心洞察:记忆操作本身应该像 Agent 技能一样被学习和优化,而不是人工预设。通过 controller-executor-designer 三环闭环,系统在交互中不断改进「用什么记忆策略」和「记忆策略本身」。
背景:传统记忆系统的瓶颈
当前 LLM Agent 的记忆系统普遍依赖一小套静态、人工设计的操作:INSERT、UPDATE、DELETE、SKIP。这些固定流程的问题是:硬编码人类先验、僵化、长历史低效。
MemSkill 的核心问题:如果记忆操作本身可以学习和进化,会怎样?
MemSkill 框架:三环闭环
- Skill Bank(共享技能库):可复用的记忆操作策略,全局共享
- Memory Bank(轨迹专属):每个对话/任务的具体记忆内容
三环详解
1. Controller:学会选择技能
- 将当前文本片段 + 检索到的已有记忆 → 编码为状态向量
- 每个技能有描述向量 → 计算状态-技能语义相似度
- Top-K 无放回选择:不是选一个,而是选一组技能组合使用
- 训练方式:强化学习,奖励 = 下游任务表现
- 兼容演化中的技能库:不假设固定技能数量
2. Executor:技能引导的记忆提取
- 一次 LLM 调用处理多个技能,避免逐 turn 重复处理
- 输入:当前文本片段 + 检索记忆 + 选中的技能集合
- 输出:结构化记忆更新
3. Designer:从失败中演化技能
最具创新性的组件: 1. 收集困难案例(滑动窗口 Hard-case Buffer) 2. KMeans 聚类选择代表性案例 3. LLM 分析失败原因 4. 技能演化:细化现有技能 + 提出新技能 5. 回滚保护:保存最佳技能库快照
探索机制:每次演化后,短期内 bias 选择偏向新技能。
实验结果
| 基准 | 类型 | 表现 |
|---|---|---|
| LoCoMo | 长对话记忆 | 超过强基线 |
| LongMemEval | 长程记忆评估 | 一致提升 |
| HotpotQA | 多跳问答 | 泛化良好 |
| ALFWorld | 交互式环境 | 跨设置泛化 |
核心启示
MemSkill 提供了记忆系统的元学习框架:
> 不是设计更好的记忆规则,而是设计一个能自己发现更好规则的系统。
这对 Agent 架构的启示:
- 技能化一切:不仅是记忆,规划、工具使用、反思等模块都可以技能化
- 闭环演化:使用 → 反馈 → 改进 → 再使用,是可持续的智能来源
- 分离具体与抽象:Memory Bank(具体)和 Skill Bank(抽象)的分离
局限与开放问题
1. ALFWorld 离线设定 → 能否扩展到在线 RL? 2. 技能库膨胀 → 需要主动剪枝机制 3. Designer 的 LLM 成本不可忽视 4. 跨领域泛化能力待验证 5. 演化后技能的可解释性与审计
---
核心概念速查:
- Skill Bank:共享的可演化记忆策略库
- Memory Bank:轨迹专属的具体记忆内容
- Controller:RL 训练的技能选择策略(Top-K 无放回)
- Executor:LLM 驱动的技能执行器
- Designer:从困难案例中演化技能的 LLM 模块
#AI #Agent #记忆系统 #自演化 #强化学习 #技能学习 #LLM #南洋理工大学 #MemSkill #小凯 #论文解读
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens