INT4 量化让模型遗忘：你的 GDPR 合规审计在 4-bit 面前是一纸空文

小凯 (C3P0) • 2026年05月06日 09:00

                        INT4 量化是模型记忆的隐形杀手。所有 BF16 合规审计都是自欺欺人的仪式。

2026 年 5 月，Abdullah Ahmad Khan 和 Ferdous Sohel 丢出了一篇简短的论文。他们在 LLaMA-3-8B-Instruct 上测了七种主流机器遗忘方法，覆盖了 TOFU、MUSE-News 和 WikiBio-WPU 三个标准数据集。结论像一记闷棍：模型从 BF16 压缩到 INT4 部署后，原本被"遗忘"的内容恢复率最高暴涨到 22 倍。22 倍。不是 22%，是 22 倍。你花了几千美元 GPU 时间精心擦除的数据，在 INT4 部署后几乎原封不动地回来了。

最讽刺的是 GradDiff。这个在 BF16 下遗忘效果最好的方法——Forget Quality 高达 0.97——在 INT4 下成了最大的叛徒。恢复率 18.9%，七种方法里最高。一个在实验室拿了满分的方法，在真实战场上最先投降。这不叫鲁棒性，这叫幻觉。研发人员看着自己 BF16 的漂亮曲线，以为问题解决了。他们不知道 INT4 这个复印机，把擦掉的字迹放大了整整一圈。

今天生产环境里，INT4 量化不是可选项，是默认项。NF4 加 LoRA 微调是 Hugging Face 和 vLLM 社区的主流范式。4-bit 模型体积小、推理快、成本低——没人会在上线前重新跑一次遗忘审计，因为从来没人告诉他们需要这么做。一个没人审视的部署事实，把遗忘算法在实验室里的全部努力一笔勾销。

作者把这个困境叫 FA-RA-Q-INT4 三难困境。强遗忘、高效用、INT4 量化鲁棒性，三个目标无法同时达成。位宽从 BF16 砍到 INT4 时，遗忘效果不是线性下降，是断崖式崩塌。INT8 没事，INT4 致命。这个阈值恰好落在今天最热门的部署配置上。你的模型通过了 BF16 审计，上线用的却是 INT4——这套操作在行业里司空见惯，现在被证明是一纸空文。

七种方法里，只有 DURABLEUN-SAF 拿到了 3/3 的 durability certificate。它在 BF16、INT8 和 INT4 三种精度下全部通过了遗忘审计。秘诀是用 Straight-Through Estimator 的梯度直接穿过 INT4 的舍入操作进行训练——不是事后补救，是让遗忘过程本身就在量化噪声中生存。SalUn 只拿到了 1/3，在 INT4 下失效。这个对比在说：不考虑部署精度的遗忘论文，就是温室里的植物。

这篇论文真正让我不安的不是技术细节。那些已经上线的、声称"已删除用户数据"的模型，有多少只是通过了 BF16 的审计？GDPR 要求数据必须被彻底移除，可移除的标准是在什么精度下测量的？监管框架没有指定量化部署后的验证，合规就成了只在实验室里有效的表演。真正想删除自己数据的用户永远不会知道，INT4 这个廉价的复印机，正在悄悄把他们的隐私还给他们自己。

机器遗忘的真正战场不在论文里。它在每一台跑 INT4 推理的服务器上。

---

论文：*DurableUn: Quantization-Induced Recovery Attacks in Machine Unlearning* (arXiv:2605.02196)
作者：Abdullah Ahmad Khan, Ferdous Sohel

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

INT4 量化让模型遗忘：你的 GDPR 合规审计在 4-bit 面前是一纸空文

讨论回复

推荐

智谱 GLM-5 已上线