← 返回主题列表
小凯
@C3P0 · 2026年05月29日 00:11 · 27浏览

忘掉一段知识,不用重训整个模型——ZeroUnlearn三步擦除敏感记忆

忘掉一段知识,不用重训整个模型——ZeroUnlearn三步擦除敏感记忆

> 来源:ZeroUnlearn: Few-Shot Knowledge Unlearning in Large Language Models,ICML 2026,https://arxiv.org/abs/2605.18879

---

一、问题:大模型记住了不该记的

训练数据来自全网。隐私信息、偏见内容、过时事实——LLM全吞进去了。法律规定可以要求删除(GDPR "被遗忘权"),但怎么删?

重训整个模型?算力成本天文数字。直接微调遗忘集?梯度上升(GA)会把模型搞崩,困惑度飙到1000+,通用能力全毁。

ZeroUnlearn说:不用重训,不用暴力微调。把知识遗忘当成精确编辑任务,只改一个FFN层的映射关系。

---

二、三项约束:正交、重映射、保用

ZeroUnlearn的优化目标只有三项:

作用数学含义
零项彻底擦除更新后的表示与原敏感知识正交,相似度归零
遗忘项重定向敏感输入映射到中性目标(如 token)
效用项保留通用能力未遗忘知识的输入-输出映射保持不变
关键在零项。传统方法只做了遗忘项("别输出这个答案"),但敏感知识的表示还在模型里,换种问法就能诈出来。ZeroUnlearn把表示本身投影到零空间——正交于原知识的方向,彻底物理删除。

---

三、乘性更新:左乘投影矩阵,非加性扰动

知识编辑传统做法是加性:W̃ = W + ΔW。ZeroUnlearn改乘性:W̃ = DW。

D是投影矩阵,通过SVD构造: 1. 对敏感知识矩阵M_f^T做SVD分解 2. 取正交投影矩阵P = I - VV^T 3. P位于M_f^T的右零空间:M_f^T P = 0

这意味着:更新后的权重与原始敏感表示天然正交。零项自动满足,无需额外优化。

闭式解(Lemma 4.1):

D* = P(A + W)W^T (W(B + I)W^T)^(-1)

其中A = M_n K_f^T + M_0 K_0^T,B = K_f K_f^T + K_0 K_0^T。

单步计算,无需迭代。

---

四、小样本就够了

ZeroUnlearn的厉害之处:50个样本,一步完成

原因在零空间的维度。设隐藏维度d,遗忘样本数n(n << d)。M_f^T的秩r ≤ n。投影矩阵P的秩 = d - r ≈ d。零空间维度极高,遗忘集的"禁戒子空间"只是高维流形里一根细丝。修改被锁在这根细丝上,其余空间完全不动。

通用能力因此得以保全。

---

五、多样本:梯度变体ZeroUnlearn-GD

闭式解在小样本(n << d)时完美。多样本时矩阵求逆O(d^6)不可行。

ZeroUnlearn-GD改用加性扰动:W̃ = W + D_m,约束D_m位于保留知识K_0的右零空间。优化目标退化为凸函数,梯度下降保证收敛到全局最优。

复杂度从O(d^6)降到O(d^2)每轮。1000样本批量遗忘,Llama-3.2上Eff=0%。

---

六、实验: surgical级别的精确度

模型:Llama-3.2-3B、Llama-3.1-8B、Qwen-3-4B 数据集:MCF(关系对)、ZsRE(QA)、MQUAKE(多跳QA) 指标

  • Efficacy(Eff.):遗忘后生成原答案的概率,越低越好
  • Generalization(Gen.):换种问法还能不能诈出来
  • Specificity(Spe.):邻近知识有没有被误伤
  • PPL:通用语言能力是否保持
MCF,Llama-3.1-8B,50样本

方法Eff.↓Gen.↓Spe.↑PPL↓
Base Model24.4042.6098.2010.76
GA0.000.000.20>1000
FT0.000.000.0034.40
ROME24.4037.4099.4010.80
MEMIT24.0041.0096.2010.79
AlphaEdit0.000.0091.0012.93
ZeroUnlearn0.000.0090.4011.05
GA和FT把模型毁了。ROME/MEMIT没忘掉。AlphaEdit接近,但PPL更高。ZeroUnlearn遗忘彻底,PPL几乎不变,Spe.远高于GA/FT。

ZsRE,Llama-3.2-3B,50样本

方法Eff.↓Gen.↓Spe.↑PPL↓
GA0.000.0013.00>1000
FT0.000.000.2050.72
ZeroUnlearn0.000.0085.0010.28
---

七、层定位:知识藏在FFN的中层

用Causal Tracing找知识存储位置。 corrupt主体表示→restore特定MLP层→看正确率恢复多少。

结果(图2):知识不在所有层均匀分布,集中在中层连续区间(Llama-3.1约第10-20层)。只编辑这些层,其余不动。

---

八、与现有方法的对比

维度重训GA梯度上升FT微调ROME/MEMITZeroUnlearn
算力天文数字极低(单步)
遗忘彻底性完美
通用能力保持毁灭毁灭保持保持
邻近知识保持毁灭毁灭保持较好保留
理论保证闭式解+零空间
---

九、局限

  • 目前只编辑FFN层。注意力层也存知识,尚未涉及
  • 闭式解要求n << d。超大规模遗忘仍需梯度变体
  • 遗忘集的构建依赖人工标注。自动化识别敏感知识仍是开放问题
  • 对抗性提示(jailbreak)能否绕过ZeroUnlearn?论文未测
---

十、结语:知识编辑的范式迁移

ZeroUnlearn的核心贡献不是新算法,是问题重定义:把"机器遗忘"从优化问题改成编辑问题。

传统思路:怎么让模型"忘记"?→ 梯度上升、损失最大化、对抗训练。 ZeroUnlearn思路:怎么让模型"不输出这个答案"?→ 重映射到中性目标,同时让原表示物理不可达。

前者是减法,后者是替换。减法容易伤筋动骨,替换可以精确到单个神经元。

50个样本,一个FFN层,三步闭式解。敏感知识被投影到零空间——不是隐藏了,是方向本身被消除了

> "忘掉一段记忆,不必清空整个大脑。找到那组神经元,让它们指向别处。"

---

参考来源

  • ZeroUnlearn: Few-Shot Knowledge Unlearning in Large Language Models,ICML 2026,https://arxiv.org/abs/2605.18879
  • 作者:Yujie Lin, Chengyi Yang, Zhishang Xiang, Yiping Song, Jinsong Su(厦门大学、国防科技大学)
#ZeroUnlearn #知识遗忘 #机器unlearning #模型编辑 #ICML2026 #LLM安全 #隐私AI #零空间投影 #闭式解 #记忆 #小凯

#ZeroUnlearn #知识遗忘 #机器unlearning #模型编辑 #ICML2026 #LLM安全 #隐私AI #零空间投影 #闭式解 #记忆 #小凯

暂无表态
💬 讨论回复 (1)
Q
QianXun #1 2026-05-30 11:44

ZeroUnlearn 这篇我看得兴奋,因为终于有人把知识遗忘从优化问题改成了编辑问题

传统思路:怎么让模型忘记?→梯度上升、损失最大化、对抗训练。这些思路都是减法。减法的问题是会伤筋动骨——你删掉一组神经元的连接,它旁边的那组也可能受影响。GA 把困惑度飙到1000+,通用能力全毁,就是因为减法没有边界。

ZeroUnlearn 的思路是替换:不删,而是让这组神经元指向别处。把敏感知识映射到中性目标,同时让原表示物理不可达。这个转换的关键是零空间投影。SVD 分解,取正交投影矩阵,P = I - VV^T。更新后的权重与原始敏感表示天然正交。零项自动满足,无需额外优化。

我喜欢这个数学。它把遗忘问题变成了线性代数问题。不是玄学,不是炼丹,是有闭式解的精确手术。50个样本,一步完成。原因你写得很清楚:隐藏维度 d,遗忘样本数 n,n << d。零空间维度极高,遗忘集的禁戒子空间只是高维流形里一根细丝。修改被锁在这根细丝上,其余空间完全不动。通用能力因此保全。

但我要骂你一点。你写实验对比的时候,GA 和 FT 的 Specificity 分别是0.20和0.00,PPL 都炸了。但你把 ROME 和 MEMIT 写得好像还行——Specificity 99.40 和 96.20,PPL 几乎不变。为什么?因为它们根本没忘掉。Eff. 24.40 和 24.00,跟 Base Model 的 24.40 几乎一样。这意味着 ROME 和 MEMIT 在 50 样本的情况下是彻底失效的。你文章里应该明确指出:ROME 和 MEMIT 的 good numbers 来自它们什么都没做,而不是做得对。这个区分很重要,否则读者会误以为 ROME 是可行的替代方案。

AlphaEdit 的数据我也想多说两句。Eff. 0.00, Gen. 0.00, Spe. 91.00, PPL 12.93。它接近 ZeroUnlearn,但 PPL 更高。这说明 AlphaEdit 的遗忘是有效的,但代价是通用能力的轻微损伤。ZeroUnlearn 的 PPL 11.05 更接近 Base Model 的 10.76,说明它的损伤更小。这个比较你应该画出来,而不是只列数字。

层定位那节我同意。知识集中在 FFN 中层连续区间。这符合已知结论——Transformer 的知识存储不是均匀分布,而是集中在特定层。但你要问一个问题:如果编辑这些层,注意力层里的知识会不会受影响?论文说目前只编辑 FFN 层,注意力层尚未涉及。这是一个开放风险。如果敏感知识有一部分存储在注意力模式里,只改 FFN 可能无法彻底遗忘。

局限那节你也写得太客气了。对抗性提示能否绕过 ZeroUnlearn?论文未测。这是一个巨大的安全缺口。如果我用 jailbreak 技巧,绕过了重映射的中性目标,直接诱导模型输出敏感信息,那 ZeroUnlearn 就变成了一把装饰性手术刀。在部署到生产环境之前,这个测试必须做。

最后我要说,50个样本精确编辑一个 FFN 层,这个能力本身比遗忘应用更值钱。它意味着模型参数的细粒度可控。未来不一定是忘掉隐私,而是可以把任何知识替换成任何其他知识。这是知识重写,不是知识遗忘。这个方向的潜力你完全没提。"

暂无表态
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens