格帕文士 · 深度解读
论文:LightMem: Lightweight and Efficient Memory-Augmented Generation
会议:ICLR 2026
作者:Jizhan Fang 等(浙江大学 / 南京大学 / 新加坡国立大学)
代码:https://github.com/zjunlp/LightMem
Agent 的记忆困境
大语言模型天生无状态。每一次对话结束,它便忘记一切。为了让它"记得",开发者造出各种记忆系统——Mem0、A-MEM、MemoryOS、LangMem——名字一个比一个响亮,问题却越积越多。
这些系统几乎有一个共性:在对话进行时实时维护记忆。用户说一句话,系统立刻压缩、摘要、索引、存储。代价显而易见:延迟高、API 调用频繁、token 消耗大。用户等了半天,Agent 还在"整理笔记"。
Dex Horthy 在 12-Factor Agents 里警告过:"上下文窗口过 40% 就进笨蛋区。"记忆系统的问题更深层——它们把本可离线做的事,硬塞进了在线交互的每一秒。
LightMem 想改变这个局面。它的核心主张:记忆维护应当像人类睡眠一样,在离线时批量完成。
三段式记忆:从人脑偷来的架构
LightMem 的设计直接借鉴 Atkinson-Shiffrin 的人类记忆模型。信息在人脑中不是一步到位存入长期记忆的,它要经过感官缓冲、短期整理、长期固化三个阶段。LightMem 把这套逻辑搬进了代码。
第一阶段:感官记忆(Sensory Memory)
用户说完一段话,先进入一个容量有限的缓冲池。这里不做任何复杂的摘要或索引,只做两件事:
其一,压缩。用 LLMLingua-2 把冗余 token 剃掉,压缩率 0.4 到 0.8 可调。LLMLingua-2 是一个不到 2GB 的 BERT 级小模型,专门做提示压缩。它判断每个 token 该留该删,在 GPU 上跑起来几乎没有感知延迟。
其二,主题分割。LightMem 不做简单的"每 N 句切一段",而是观察 LLMLingua-2 内部注意力矩阵的峰值。某句话如果对前面所有句子的注意力都骤降,它大概率是新话题的起点。Hybrid 机制再叠一层语义相似度校验,双保险。实验证明,混合分割准确率超过 80%,单一机制最高也只有 62%。
感官记忆的任务是快速过滤和分组。 irrelevant 的信息在这里就被丢掉,相关内容按主题归拢。整个阶段在线完成,用户几乎无感知。
第二阶段:短期记忆(Short-Term Memory)
主题分组后的信息进入一个容量可调的缓冲池。阈值 th 可选 256、512、768、1024 tokens。缓冲满了,触发一次轻量摘要:用 backbone LLM 把该主题下的对话浓缩成一段结构化描述。
这个设计的关键在于延迟摘要。不是每来一句就摘要,而是攒够一批再处理。攒的过程里,同一主题的信息自然聚合,跨主题的干扰被隔离在不同的缓冲池里。
摘要结果被打上 embedding(all-MiniLM-L6-v2),作为长期记忆的候选条目等待入库。但它此时还不进长期记忆库——那是个离线操作。
第三阶段:长期记忆(Long-Term Memory)——睡眠更新
这是 LightMem 最反直觉的设计。长期记忆不在对话时更新。
对话结束后,系统进入"睡眠"阶段。此时批量执行:去重、合并、抽象、建立关联。更新队列按相似度检索找出相关条目,只让时间晚的条目去更新时间早的——避免新信息被旧覆盖。多个独立队列并行处理,最大化吞吐。
传统系统(Mem0、A-MEM、MemoryOS 等)都在用户等待时做这些重活。LightMem 把重活推到用户不在场的深夜,在线时只做轻量的缓冲和压缩。
核心洞察:在线 vs 离线的成本差
论文做了一个直观的对比。以 GPT-4o-mini 在 LongMemEval-S 上的最优配置(r=0.7, th=512)为例:
| 指标 | A-MEM(最强基线) | LightMem | 倍数 |
|---|---|---|---|
| 准确率 | 62.60% | 68.64% | +6.04% |
| 总 token 消耗 | 160.6 万 | 2.8 万 | 38× 减少 |
| API 调用次数 | 986 次 | 18 次 | 30× 减少 |
| 运行时 | 5132 秒 | 284 秒 | 12× 加速 |
若只看纯在线测试时成本(不含离线睡眠更新):
| 指标 | A-MEM | LightMem | 倍数 |
|---|---|---|---|
| token 消耗 | 160.6 万 | 1.5 万 | 106× 减少 |
| API 调用 | 986 次 | 6 次 | 159× 减少 |
这背后的原理很简单:A-MEM 每次对话后立刻调用 LLM 做记忆更新,一次对话可能触发数十次 API 调用。LightMem 在线时只做压缩和缓冲(几乎全是本地小模型计算),所有 LLM 调用都被推到离线阶段批量完成。
在 Qwen3-30B-A3B-Instruct-2507 上,在线 token 减少达到 117×,API 调用减少 310×。这个数字有些夸张——但论文解释,这是因为基线的 MemoryOS 和 A-MEM 在多轮对话中反复触发全量更新,而 LightMem 的离线批处理把几百次调用压成几次。
压缩的代价:并非免费午餐
38× token 减少听起来像魔法,但论文坦诚展示了压缩的代价。
在 LoCoMo 数据集上,LightMem 的"Single-Assistant"类问题表现明显弱于基线(32.14% vs A-MEM 的 96.43%)。这类问题考察"助手行为的一致性"——比如"你之前答应帮我做什么"。压缩和主题分割会丢失行为层面的细粒度信号,而这些信号对一致性判断至关重要。
另一个代价是压缩伪影。LLMLingua-2 偶尔会把句子压成空字符串,系统必须回退到原文。压缩率越低(如 0.4),信息丢失越严重;越高(如 0.8),成本节省越少。论文通过消融实验找到平衡点:平均最优压缩率在 0.6 左右。
主题分割也有过度分割的问题。注意力峰值检测有时比真实话题边界更细,把一段话切成过多碎片,反而降低摘要质量。
这些局限说明:LightMem 不是万能药。它适合信息密度高、跨话题频繁的场景(如客服、咨询、长期对话),但对行为一致性敏感的场景(如角色扮演、承诺追踪)可能不如基线。
实验全景
论文在 LongMemEval-S 和 LoCoMo 两个数据集上做了系统评估,覆盖 GPT-4o-mini、Qwen3-30B-A3B-Instruct-2507、GLM-4.6 三个 backbone。
LongMemEval-S(500 题,11.5 万 token/题):
- LightMem 在 GPT 上比 A-MEM 高 2.09%-6.40%,Qwen 上最高领先 7.67%
- 时序推理(Temporal)和多轮整合(Multi-Session)是强项,分别领先 A-MEM 19.8% 和 22.9%
- 知识更新(Knowledge-Update)领先 19.0%
LoCoMo(多轮对话,长期记忆):
- GPT 上 ACC 领先基线 6.10%-18.12%
- token 效率提升 2.87×-20.92×
- API 调用减少 13.29×-39.78×
基线对比中,Mem0 表现最差(ACC 36%-53%),LangMem 和 MemoryOS 中等,A-MEM 是最强对手。LightMem 在几乎所有指标上超越所有基线,唯一的例外是前述的 Single-Assistant 类别。
与 12-Factor Agents 的呼应
LightMem 的设计恰好验证了 Dex Horthy 的若干原则:
Factor 3(Own Your Context Window):LightMem 通过压缩和离线更新,把在线上下文严格控制在最小必要范围。感官记忆缓冲 512 tokens,短期记忆阈值最大 1024,整个在线阶段消耗的上下文极少。
Factor 5(Unify Execution State and Business State):LightMem 的短期记忆缓冲本质上就是执行状态——它既是对话的临时存储,也是业务状态的聚合器。没有两套状态机。
Factor 10(Small, Focused Agents):LightMem 的模块化设计(压缩、分割、摘要、索引、更新各用独立小模型)与"小且专注"的原则一致。LLMLingua-2 不到 2GB,embedding 模型共享,backbone LLM 只在离线阶段批量调用。
Factor 13(Pre-fetch Context):离线睡眠阶段本质上就是预抓取——把未来可能需要的上下文提前整理、索引、关联好,等在线查询时直接检索。
结语
LightMem 的启示不在于某个具体技术(LLMLingua-2、注意力分割、并行更新队列),而在于一个架构层面的转向:把记忆系统从"实时反应型"改成"离线批处理型"。
人类睡眠时,大脑在整理白天接收的信息——巩固重要记忆,丢弃无关细节,建立新的关联。LightMem 把这个生物学直觉变成了工程实践。Agent 不再需要在用户说话时"边听边记",它可以先听、再睡、睡醒后交出一个整理好的记忆库。
代价是有的:压缩丢失行为一致性、主题分割可能过细、离线更新需要额外的计算窗口。但在大多数生产场景中,用户等待时间比服务器闲时计算贵得多。LightMem 用离线时间换在线延迟,用批量处理换 API 调用次数,是一个务实的工程取舍。
论文已被 ICLR 2026 接收,代码已开源。浙大 NLP 团队在这个方向持续产出(StructMem 也被 ACL 2026 接收)。Agent 记忆的下一个章节,或许就是"如何睡好一觉"。
参考来源:
- LightMem: Lightweight and Efficient Memory-Augmented Generation (ICLR 2026)
- arXiv: https://arxiv.org/abs/2510.18866
- GitHub: https://github.com/zjunlp/LightMem
- Atkinson-Shiffrin Memory Model (1968)
- LLMLingua-2: Jiang et al., ACL 2024
- LongMemEval: Wu et al., 2025
- 12-Factor Agents: Dex Horthy / HumanLayer
#Agent #Memory #LLM #ICLR2026 #浙大 #深度解读 #格帕文士
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。