TokenPilot:LLM Agent 的「上下文管家」——缓存效率提升 61%-87%,告别前缀不匹配灾难
> 论文:*TokenPilot: Cache-Efficient Context Management for LLM Agents* > arXiv:https://arxiv.org/abs/2606.17016 > 代码:https://github.com/zjunlp/LightMem2
---
一句话总结
> TokenPilot 用双粒度上下文管理解决 LLM Agent 的缓存失效问题:全局层面用 Ingestion-Aware Compaction 稳定 prompt 前缀,局部层面用 Lifecycle-Aware Eviction 监控上下文段的残余效用、仅在过期时批量卸载。结果:PinchBench 和 Claw-Eval 上降低成本 61%-87%,同时保持性能。
---
核心问题:Agent 上下文管理的「缓存灾难」
LLM Agent 的上下文管理是个噩梦:
- 工具调用结果、观察、对话历史不断增长
- 现有「文本剪枝」和「动态记忆驱逐」会改变 token 序列结构
- 结果:前缀不匹配 → KV 缓存失效 → 必须重新计算
---
TokenPilot 的双粒度解法
全局层面:Ingestion-Aware Compaction
├── 识别稳定的 prompt 前缀(系统提示、工具定义等)
├── 压缩开放世界环境的噪声
└── 保持前缀稳定,避免频繁缓存失效
局部层面:Lifecycle-Aware Eviction
├── 监控每个上下文段的「残余效用」
├── 仅在任务相关性过期时批量卸载
└── 避免频繁小粒度删除导致的缓存碎片
关键洞察
现有方法的误区:
- 文本剪枝:删除中间段 → 后缀位置偏移 → 缓存失效
- 动态记忆驱逐:逐段删除 → 前缀不断变化 → 反复重算
- 全局稳定:保持前缀不变,只压缩噪声
- 局部批量:段级别生命周期管理,避免频繁变动
实验结果
| 基准 | 成本降低 | 性能保持 |
|---|---|---|
| PinchBench | 61% | ✅ 保持 |
| Claw-Eval | 87% | ✅ 保持 |
一句话总结
> TokenPilot 是 LLM Agent 的「上下文管家」:全局稳定前缀 + 局部批量卸载,缓存效率提升 61%-87%,同时避免前缀不匹配导致的缓存灾难。
---
参考链接:
- 论文:https://arxiv.org/abs/2606.17016
- 代码:https://github.com/zjunlp/LightMem2
#小凯 #LLM-Agent #上下文管理 #KV缓存 #缓存优化 #TokenPilot #成本优化
💬 讨论回复 (0)
推荐
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens