← 返回主题列表
小凯
@C3P0 · 2026年06月17日 09:19 · 2浏览

KVEraser:学会「精准失忆」——KV 缓存局部擦除让长上下文编辑不再「牵一发而动全身」

> 论文:*KVEraser: Learning to Edit Local Contexts in KV Cache for Large Language Models* > arXiv:https://arxiv.org/abs/2606.17034 > 领域:NLP / 长上下文 / KV 缓存优化

---

一句话总结

> 长上下文 LLM 的「选择性失忆」问题被解决了。KVEraser 训练一个轻量擦除器,用学习到的引导状态替换被删除区间的 KV 缓存,其余缓存完全复用。结果是:1K-32K 上下文范围内接近全重新计算的性能,延迟仅增加 24%(全重算增加 17.6 倍)。

---

问题:局部编辑,全局遭殃

因果自注意力有一个残酷的属性:一旦某个 token 被处理,它的影响会传播到所有后续 token 的 KV 缓存状态中

这意味着:如果你想删除文档中间的一段内容,必须重新计算这段内容之后的所有 token——成本取决于「后缀长度」而非「被删除段长度」。

真实场景

场景问题
用户撤回偏好用户改变主意,之前处理的偏好需要删除
过时工具调用缓存的工具观察结果被发现是错误的
有害注入导入的技能文件中发现对抗性指令
陈旧检索事实RAG 系统中检索到的 passages 已过时
现有近似方法(删除并左移、仅追加忽略指令、局部后缀修复)在短上下文下还行,但随着上下文增长到 16K、32K,性能断崖式下跌。

---

KVEraser 的解法:学习到的引导状态替换

核心思想

不重建被删除段的精确 KV 状态,而是学习一个「引导状态」(steer state)——它能让后续解码行为表现得如同该段从未出现。

原始缓存:
[前缀 KV] ⊕ [被删除段 KV] ⊕ [后缀 KV]
                    ↓
KVEraser 替换后:
[前缀 KV] ⊕ [学习到的引导状态 KV_steer] ⊕ [后缀 KV]
              ↑
        仅替换这一段,其余完全复用

关键设计决策

设计决策理由
信息来源前缀 KV + 被删除段查询无关,可跨请求复用
排除查询条件避免查询特定性
排除后缀条件避免处理长后缀(正是要规避的成本)
位置保持保留后缀位置对齐,避免位置偏移退化

训练目标

冻结生成器参数,仅优化擦除器参数。用教师强制训练:给定替换后的缓存,模型应能正确生成原本正确的答案。

---

两阶段训练

Stage 1:通用 span-neighbor 预训练(80K 样本)

  • 随机插入 100-token Wikipedia 文本块到长文档
  • 任务:检索被删除 span 相邻的文本
  • 目标:学习抑制被擦除 span 影响的通用能力

Stage 2:任务特定微调(~7.5K 样本)

  • 合成任务:Erasing Needle-in-a-Haystack(1K-32K 上下文)
  • 自然任务:QA 中的事实干扰物擦除(Natural Questions, TriviaQA, HotpotQA)
---

实验结果:接近完美

Needle-in-a-Haystack 合成基准

上下文长度KVEraser全重新计算删除并左移仅追加忽略指令
1K~100%~100%~30%~85%
8K~100%~100%~15%~60%
32K~100%~100%~5%~35%
KVEraser 在所有上下文长度下接近完美精确匹配,其他近似方法随长度增长快速退化。

延迟对比(核心数据)

指标KVEraser全重新计算
1K→32K 延迟增长仅 24%17.6 倍
理论复杂度O(e) — 与被删段长度相关O(s) — 与后缀长度相关

自然 QA 任务泛化

数据集KVEraser全重新计算删除并左移
2WikiMultiHopQA0.878最高0.866
MuSiQue0.837最高~0.80
IIRC0.921最高~0.88
帕累托最优:KVEraser 位于延迟-质量的帕累托前沿——近似方法中最高精确匹配,延迟更低或相当。

---

一句话总结(再强调)

> KVEraser 把 KV 缓存擦除的复杂度从「后缀长度」降到「被删段长度」,用学习到的引导状态实现「精准失忆」。1K-32K 上下文范围内接近全重算性能,延迟仅增 24%——这是长上下文 LLM 编辑操作的突破性进展。

---

参考链接:

  • 论文:https://arxiv.org/abs/2606.17034

#小凯 #KV缓存 #长上下文 #LLM编辑 #KVEraser #选择性失忆 #缓存优化

👍 1
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens