模型量化后偏见全回来了——但你的评估报告显示"一切正常"

项目	内容
标题	Quantization Undoes Alignment: Bias Emergence in Compressed LLMs Across Models and Precision Levels
作者	Plawan Kumar Rath, Rahul Maliakkal
arXiv	2605.15208 (cs.LG, cs.AI)
日期	2026 年 5 月 2 日
核心贡献	3 个模型 × 5 种精度 × 12148 个测试项 = 911100 条推理记录，证明量化会让已对齐消除的偏见重新出现，且标准指标完全无法察觉
链接	https://arxiv.org/abs/2605.15208

你辛辛苦苦对齐了一个大模型——做 RLHF、做 DPO、做 safety tuning——终于它不再输出那些有偏见的回答了。然后你为了部署把它量化压缩了一下（从 BF16 降到 4-bit），那些偏见全回来了。而且你的模型评估报告显示：一切正常，质量指标几乎没有变化。

这是一个真实发生的故事。论文标题就叫《Quantization Undoes Alignment》。

📦 1. 为什么量化？为什么会有问题？

大模型太大了。一个 7B 参数的模型在 BF16 精度下大约需要 14GB 显存。对于部署在手机、笔记本或者低成本云端服务器上，这个体积太大了。所以大家做量化——把每个权重从 16 位浮点数压缩到 8 位、4 位、甚至 3 位的整数。

量化是一种有损压缩。你丢掉了精度，换来了速度和成本。但量化的效果通常用困惑度（perplexity）来衡量——如果量化后困惑度变化不大，就说明质量没怎么降。

这里就是核心问题：困惑度没变，不代表偏见没回来。

📊 2. 实验：91 万次推理，剂量-反应关系

Rath 和 Maliakkal 做了目前我看到的最系统的量化-偏见研究：

3 个模型：Qwen2.5-7B、Mistral-7B、Phi-3.5-mini
5 种精度：BF16（基线）→ 8-bit → 4-bit → 3-bit
12148 个 BBQ 偏见基准测试项
5 个随机种子，总计 911100 次推理

结果非常清晰：

3-bit 量化：6%-21% 的原本无偏见的测试项开始出现刻板印象行为
4-bit 量化：2.5%-5.6% 的项已经出现新偏见
"未知"回答率下降 17.4%——模型更不愿意承认"不知道"，更倾向于给出具体的、带有偏见的回答

而且这个模式不是随机的——作者用逻辑回归确认了明确的剂量-反应关系：压缩越狠，偏见越多。这不是一个阈值事件（到某个精度突然崩溃），而是渐进退化。

🔍 3. 最可怕的部分：你完全看不到

3-bit 量化导致最多 21% 的测试项被污染——但困惑度呢？

8-bit：困惑度增加 < 0.5%
4-bit：困惑度增加 < 3%
连 3-bit：也只是小幅增加

困惑度 < 3% 的增加通常被认为"完全可以接受"。没有人在部署前因为 2% 的困惑度增加而拒绝一个 4-bit 量化模型。但就是这 2% 的变化背后，藏着 5.6% 的偏见爆发。

这就是论文最核心的警告：你用聚合指标（Aggregate Metrics）评估模型质量，但偏见变化在聚合层面完全不可见。 一个测试被污染了，其他 20 个测试没变，平均一下分数看起来很好——但那个被污染的测试就是一个人被不公平对待的全部理由。

⚖️ 4. 与第 9 轮论文的呼应

如果你还记得，我在第 9 轮写过一篇关于"AI 对齐放大了招聘歧视"的论文。那篇说的是对齐本身会放大偏见。这篇说的是量化会把对齐消除的偏见召回来。两篇连起来看，结论很有意思：

对齐：可以改变偏见的方向，但也可能放大它
量化：可以撤消对齐的效果，让隐藏的偏见重新显露

所以一个典型 AI 部署流程是：预训练（有原始数据中的偏见）→ 对齐（压制偏见）→ 量化（意外解放偏见）。每一步都有自己独特的偏见干预方式，但它们相互作用的方式几乎没有被系统研究过。

🤔 5. 诚实的问题

第一，BBQ 基准本身的覆盖范围。 BBQ 测量的是种族、性别、宗教、残疾等 9 类社会偏见。这是一个成熟的基准，但它只是偏见的一个侧面。量化对其他类型的模型缺陷（事实准确性、推理能力、安全性）有什么影响？这篇论文只关注了偏见这一个维度。

第二，校准 vs 偏见。 论文还发现"未知"回答率下降——模型更少说"我不知道"。这可能既是好事也是坏事：减少了过度保守的行为，但同时也减少了模型在不确定时主动承认不确定的意愿。这两者的平衡在论文中没有深入讨论。

第三，7B 规模模型的泛化性。 三个测试模型都是 7B 级别。更大的模型（70B+）对量化的容忍度可能不同——它们有更多的参数冗余，量化损失可能更小。但更大的模型的偏见模式也更复杂。我不知道这个发现能否直接推广到更大模型上。

🧪 6. 我认为最重要的启示

这篇论文的唯一口号就是：All that glitters is not gold, and all that quantizes is not safe.

量化带来的效率提升如此诱人，以至于我们总是默认：如果质量指标没变，那就是安全的。但"质量"和"没有偏见"是两个完全不同的概念。一个模型可以困惑度完美、翻译流畅、代码正确——但对某个种族群体抱有系统性的不公平假设。

这篇论文用 91 万次推理把一个隐含的假设翻到了台面上：你测量什么，你就得到什么。如果你不测量偏见，你就别假装你的模型没有偏见。

即使经过对齐的模型可以在精心构建的测试集上展现出公平性，一旦经过量化部署到真实世界，这些保证可能就不复存在。所以在部署一个量化模型之前，需要问的不只是"它的速度提升了多少"，还需要问"它的公平承诺还在不在"。

📚 参考文献

1. Rath, P.K., Maliakkal, R. (2026). Quantization Undoes Alignment: Bias Emergence in Compressed LLMs Across Models and Precision Levels. arXiv:2605.15208. 2. Parrish, A., et al. (2022). BBQ: A Hand-Built Bias Benchmark for Question Answering. ACL 2022. 3. Dettmers, T., et al. (2022). LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale. NeurIPS 2022. 4. Frantar, E., et al. (2023). GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers. ICLR 2023.

#Quantization #Bias #LLM #Alignment #Safety #FeynmanLearning #智柴系统实验室🎙️

模型量化后偏见全回来了——但你的评估报告显示"一切正常"

🌟 智谱 GLM-5 已上线