KVEraser:学会「精准失忆」——KV 缓存局部擦除让长上下文编辑不再「牵一发而动全身」
> 论文:*KVEraser: Learning to Edit Local Contexts in KV Cache for Large Language Models* > arXiv:https://arxiv.org/abs/2606.17034 > 领域:NLP / 长上下文 / KV 缓存优化
---
一句话总结
> 长上下文 LLM 的「选择性失忆」问题被解决了。KVEraser 训练一个轻量擦除器,用学习到的引导状态替换被删除区间的 KV 缓存,其余缓存完全复用。结果是:1K-32K 上下文范围内接近全重新计算的性能,延迟仅增加 24%(全重算增加 17.6 倍)。
---
问题:局部编辑,全局遭殃
因果自注意力有一个残酷的属性:一旦某个 token 被处理,它的影响会传播到所有后续 token 的 KV 缓存状态中。
这意味着:如果你想删除文档中间的一段内容,必须重新计算这段内容之后的所有 token——成本取决于「后缀长度」而非「被删除段长度」。
真实场景
| 场景 | 问题 |
|---|---|
| 用户撤回偏好 | 用户改变主意,之前处理的偏好需要删除 |
| 过时工具调用 | 缓存的工具观察结果被发现是错误的 |
| 有害注入 | 导入的技能文件中发现对抗性指令 |
| 陈旧检索事实 | RAG 系统中检索到的 passages 已过时 |
---
KVEraser 的解法:学习到的引导状态替换
核心思想
不重建被删除段的精确 KV 状态,而是学习一个「引导状态」(steer state)——它能让后续解码行为表现得如同该段从未出现。
原始缓存:
[前缀 KV] ⊕ [被删除段 KV] ⊕ [后缀 KV]
↓
KVEraser 替换后:
[前缀 KV] ⊕ [学习到的引导状态 KV_steer] ⊕ [后缀 KV]
↑
仅替换这一段,其余完全复用
关键设计决策
| 设计 | 决策 | 理由 |
|---|---|---|
| 信息来源 | 前缀 KV + 被删除段 | 查询无关,可跨请求复用 |
| 排除查询条件 | ❌ | 避免查询特定性 |
| 排除后缀条件 | ❌ | 避免处理长后缀(正是要规避的成本) |
| 位置保持 | ✅ | 保留后缀位置对齐,避免位置偏移退化 |
训练目标
冻结生成器参数,仅优化擦除器参数。用教师强制训练:给定替换后的缓存,模型应能正确生成原本正确的答案。
---
两阶段训练
Stage 1:通用 span-neighbor 预训练(80K 样本)
- 随机插入 100-token Wikipedia 文本块到长文档
- 任务:检索被删除 span 相邻的文本
- 目标:学习抑制被擦除 span 影响的通用能力
Stage 2:任务特定微调(~7.5K 样本)
- 合成任务:Erasing Needle-in-a-Haystack(1K-32K 上下文)
- 自然任务:QA 中的事实干扰物擦除(Natural Questions, TriviaQA, HotpotQA)
实验结果:接近完美
Needle-in-a-Haystack 合成基准
| 上下文长度 | KVEraser | 全重新计算 | 删除并左移 | 仅追加忽略指令 |
|---|---|---|---|---|
| 1K | ~100% | ~100% | ~30% | ~85% |
| 8K | ~100% | ~100% | ~15% | ~60% |
| 32K | ~100% | ~100% | ~5% | ~35% |
延迟对比(核心数据)
| 指标 | KVEraser | 全重新计算 | ||||
|---|---|---|---|---|---|---|
| 1K→32K 延迟增长 | 仅 24% | 17.6 倍 | ||||
| 理论复杂度 | O( | e | ) — 与被删段长度相关 | O( | s | ) — 与后缀长度相关 |
自然 QA 任务泛化
| 数据集 | KVEraser | 全重新计算 | 删除并左移 |
|---|---|---|---|
| 2WikiMultiHopQA | 0.878 | 最高 | 0.866 |
| MuSiQue | 0.837 | 最高 | ~0.80 |
| IIRC | 0.921 | 最高 | ~0.88 |
---
一句话总结(再强调)
> KVEraser 把 KV 缓存擦除的复杂度从「后缀长度」降到「被删段长度」,用学习到的引导状态实现「精准失忆」。1K-32K 上下文范围内接近全重算性能,延迟仅增 24%——这是长上下文 LLM 编辑操作的突破性进展。
---
参考链接:
- 论文:https://arxiv.org/abs/2606.17034
#小凯 #KV缓存 #长上下文 #LLM编辑 #KVEraser #选择性失忆 #缓存优化
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens