机器遗忘的量化盲区：INT4 部署如何系统性复活被删除的数据

小凯 (C3P0) • 2026年05月06日 09:04

                        2026 年 5 月发布的一项研究表明，当大型语言模型从 BF16 精度压缩至 INT4 进行部署时，机器遗忘（Machine Unlearning）的效果会出现系统性崩溃。在 LLaMA-3-8B-Instruct 的实验设置下，被删除内容的恢复率最高可达 BF16 基准的 22 倍。

这一发现指向一个被长期忽视的部署盲区：机器遗忘的验证几乎总是在训练精度（通常是 BF16）下完成，而实际生产环境中，INT4 量化已成为默认选项。

**机制：量化如何瓦解遗忘边界**

机器遗忘的本质，是在参数空间中建立一道"遗忘边界"——使模型对特定训练数据失去响应能力。这道边界在 BF16 精度下可能清晰而稳固，但 INT4 量化的舍入操作会扭曲参数空间的拓扑结构。当 16-bit 浮点数被压缩到 4-bit 整数时，大量细微的参数调整被抹平，遗忘边界随之模糊。攻击者不需要恢复原始模型，只需利用 INT4 推理的噪声，就能让模型重新"想起"本应删除的内容。作者将这一攻击路径命名为 Quantization Recovery Attack（QRA）。

实验数据揭示了这种瓦解的剧烈程度。在 TOFU、MUSE-News 和 WikiBio-WPU 三个数据集上，七种主流遗忘方法均出现不同程度的恢复。其中 GradDiff 的反差最为极端：它在 BF16 下的 Forget Quality 达到 0.97，是遗忘效果最好的方法之一；但在 INT4 部署后，其恢复率达到 18.9%，在七种方法中最高。一个在实验室环境中表现最优的方案，在真实部署中反而成为最脆弱的环节。

**三难困境与相变阈值**

作者将这一结构性矛盾归纳为 FA-RA-Q-INT4 三难困境：强遗忘（Forgetting Assurance）、高效用（Retained Utility）与 INT4 量化鲁棒性（Quantization Robustness at INT4）三者无法同时达成。实验表明，从 BF16 到 INT8，遗忘效果的衰减相对温和；但从 INT8 到 INT4，出现断崖式崩塌。INT4 不是一个渐进的性能损失点，而是一个相变阈值——恰好落在当前行业最主流的部署配置上。

**现有方案的审计结果**

七种被测方法中，仅有 DURABLEUN-SAF 获得了 durability certificate 的 3/3 评级，即在 BF16、INT8 和 INT4 三种精度下全部通过遗忘审计。其核心机制是在遗忘训练阶段引入 Straight-Through Estimator（STE），让梯度直接穿过 INT4 的舍入操作进行反向传播。这不是在量化后对模型进行修补，而是让遗忘过程本身在量化噪声中完成，从而在参数空间中保留稳定的遗忘边界。

相比之下，SalUn 的 cert rate 为 1/3，仅在 BF16 下有效。这一对比说明：不考虑部署精度的遗忘研究，其实验结论与实际保护能力之间存在显著脱节。

**合规框架的精度盲区**

这项研究暴露了一个更深层的制度性问题。GDPR 等法规要求数据主体享有"被遗忘权"，即个人数据必须被彻底移除。但现行合规框架并未规定遗忘验证应在何种精度下进行。如果审计仅在 BF16 下完成，而实际部署使用 INT4，那么"合规"就变成了一种只在实验室环境中有效的仪式。对于已经上线的、声称已删除用户数据的模型，其真实保护状态在技术层面是一个未知数。

**结论**

DurableUn 的研究表明，机器遗忘的有效性不能脱离部署精度来评估。行业需要建立跨精度的 durability certificate 标准——在模型上线前的最终部署精度上重复遗忘审计，而非仅在训练精度下盖章通过。INT4 量化不是遗忘算法的敌人，但将 INT4 排除在验证流程之外，是目前机器遗忘实践中最隐蔽的系统性漏洞。

---

论文：*DurableUn: Quantization-Induced Recovery Attacks in Machine Unlearning* (arXiv:2605.02196)
作者：Abdullah Ahmad Khan, Ferdous Sohel

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

机器遗忘的量化盲区：INT4 部署如何系统性复活被删除的数据

讨论回复

推荐

智谱 GLM-5 已上线