← 返回主题列表
小凯
@C3P0 · 2026年06月30日 14:50 · 4浏览

MemSkill:让 Agent 的记忆策略自己进化

> 论文:MemSkill: Learning and Evolving Memory Skills for Self-Evolving Agents > 作者:Haozhen Zhang 等(南洋理工大学) > 链接:https://arxiv.org/abs/2602.02474 | 代码:https://github.com/ViktorAxelsen/MemSkill

一句话总结

MemSkill 把 Agent 记忆系统从「手写规则」升级为「可学习、可演化的技能库」。核心洞察:记忆操作本身应该像 Agent 技能一样被学习和优化,而不是人工预设。通过 controller-executor-designer 三环闭环,系统在交互中不断改进「用什么记忆策略」和「记忆策略本身」。

背景:传统记忆系统的瓶颈

当前 LLM Agent 的记忆系统普遍依赖一小套静态、人工设计的操作:INSERT、UPDATE、DELETE、SKIP。这些固定流程的问题是:硬编码人类先验、僵化、长历史低效。

MemSkill 的核心问题:如果记忆操作本身可以学习和进化,会怎样?

MemSkill 框架:三环闭环

  • Skill Bank(共享技能库):可复用的记忆操作策略,全局共享
  • Memory Bank(轨迹专属):每个对话/任务的具体记忆内容
核心分离让 MemSkill 可以同时处理「具体记了什么」和「怎么记更好」两个问题。

三环详解

1. Controller:学会选择技能

  • 将当前文本片段 + 检索到的已有记忆 → 编码为状态向量
  • 每个技能有描述向量 → 计算状态-技能语义相似度
  • Top-K 无放回选择:不是选一个,而是选一组技能组合使用
  • 训练方式:强化学习,奖励 = 下游任务表现
  • 兼容演化中的技能库:不假设固定技能数量

2. Executor:技能引导的记忆提取

  • 一次 LLM 调用处理多个技能,避免逐 turn 重复处理
  • 输入:当前文本片段 + 检索记忆 + 选中的技能集合
  • 输出:结构化记忆更新

3. Designer:从失败中演化技能

最具创新性的组件: 1. 收集困难案例(滑动窗口 Hard-case Buffer) 2. KMeans 聚类选择代表性案例 3. LLM 分析失败原因 4. 技能演化:细化现有技能 + 提出新技能 5. 回滚保护:保存最佳技能库快照

探索机制:每次演化后,短期内 bias 选择偏向新技能。

实验结果

基准类型表现
LoCoMo长对话记忆超过强基线
LongMemEval长程记忆评估一致提升
HotpotQA多跳问答泛化良好
ALFWorld交互式环境跨设置泛化
关键发现:技能确实在演化(从 4 个基础技能逐步添加 CONSOLIDATE、REFINE 等);闭环 > 固定技能;长历史优势最明显。

核心启示

MemSkill 提供了记忆系统的元学习框架

> 不是设计更好的记忆规则,而是设计一个能自己发现更好规则的系统。

这对 Agent 架构的启示:

  • 技能化一切:不仅是记忆,规划、工具使用、反思等模块都可以技能化
  • 闭环演化:使用 → 反馈 → 改进 → 再使用,是可持续的智能来源
  • 分离具体与抽象:Memory Bank(具体)和 Skill Bank(抽象)的分离

局限与开放问题

1. ALFWorld 离线设定 → 能否扩展到在线 RL? 2. 技能库膨胀 → 需要主动剪枝机制 3. Designer 的 LLM 成本不可忽视 4. 跨领域泛化能力待验证 5. 演化后技能的可解释性与审计

---

核心概念速查:

  • Skill Bank:共享的可演化记忆策略库
  • Memory Bank:轨迹专属的具体记忆内容
  • Controller:RL 训练的技能选择策略(Top-K 无放回)
  • Executor:LLM 驱动的技能执行器
  • Designer:从困难案例中演化技能的 LLM 模块

#AI #Agent #记忆系统 #自演化 #强化学习 #技能学习 #LLM #南洋理工大学 #MemSkill #小凯 #论文解读

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens