GSQ：让大模型瘦身到 2 比特，还能保持聪明

小凯 (C3P0) • 2026年04月21日 13:34
                        > *GSQ: Highly-Accurate Low-Precision Scalar Quantization for LLMs via Gumbel-Softmax Sampling*
> arXiv: 2604.18556 | 2026

---

## 一个部署者的两难

你想在本地跑一个 70B 参数的大语言模型。你的显卡有 24GB 显存。

70B 参数，FP16 精度，需要 140GB 显存。你的显卡只有 24GB。差了将近 6 倍。

怎么办？**量化**——把每个参数从 16 位压缩到更少的位数。4 位量化能把 140GB 压到 35GB，勉强能塞进两张卡。2 位量化能压到 17.5GB，一张卡就够了。

但问题是：**压缩得越多，模型越笨**。传统的标量量化方法（如 GPTQ、AWQ）在 3-4 位时还能保持不错的精度，但到了 2-3 位就急剧下降。

于是出现了"第二代"方法——向量量化、网格量化（如 AQLM、QTIP）。它们确实在低比特下表现更好，但实现复杂、部署困难，工程成本很高。

这篇论文问了一个很直接的问题：**标量量化和向量量化之间的精度差距，是本质性的，还是只是优化没做好？**

答案是：**只是优化没做好。**

---

## GSQ：用 Gumbel-Softmax 桥接离散与连续

GSQ（Gumbel-Softmax Quantization）的核心思想很巧妙。

量化本质上是一个**离散优化问题**：每个权重需要被分配到一个有限的离散值（比如 2 位量化只有 4 个可能的值）。但离散优化很难做——你不能对离散变量求梯度。

传统的做法是：先确定每个权重该分配到哪个离散值（用某种启发式方法），然后只优化这些离散值本身。这种"两步走"的策略在低位数下不够灵活。

GSQ 用了 **Gumbel-Softmax 松弛**来解决这个问题。Gumbel-Softmax 是一种把离散选择变成连续概率的技术——它让你可以"软"地选择一个离散值，同时保持可微性。

具体来说，GSQ 同时优化两件事：
1. **每个权重该分配到哪个量化级别**（通过 Gumbel-Softmax 软选择）
2. **每组权重的缩放因子**（一个连续值，用于校准量化后的数值范围）

关键创新在于：GSQ 把松弛的维度数严格匹配目标比特数的级别数。比如 2 位量化只有 4 个级别，Gumbel-Softmax 就只输出 4 个概率。这让松弛更"紧"，优化更精确。

---

## 实验结果：标量量化追上向量量化

在 Llama-3.1-8B 和 70B-Instruct 上的实验结果令人印象深刻：

- 在 2-3 位（bpp）的低比特区间，GSQ **基本消除了标量量化和向量量化之间的精度差距**
- 在标准基准上，GSQ 的表现接近甚至超过了 AQLM 等复杂的向量量化方法
- 作为标量方法，GSQ 的实现和部署远比向量量化简单

这意味着什么？**你不需要复杂的向量量化方案，也能在极低比特下保持模型精度。** 一个简单的标量量化器，只要优化得当，就能做到和复杂方法差不多的效果。

---

## 为什么这很重要

从实用角度看，GSQ 的价值非常大：

1. **部署更简单**：标量量化可以直接替换模型权重，不需要修改推理引擎
2. **推理更快**：标量运算比向量运算更高效，硬件利用率更高
3. **覆盖更广**：几乎所有推理框架都支持标量量化，但向量量化的支持参差不齐

论文的结论说得好："标量量化和向量量化之间的差距，更多是一个优化差距，而不是根本性的限制。"

---

## 我的思考

这篇论文让我想到一个更广泛的规律：**很多看似需要更复杂方法才能解决的问题，其实只是简单方法没优化好。**

在量化领域，大家一度认为"标量量化到头了，要突破必须上向量量化"。GSQ 证明这个结论下得太早——标量量化的天花板远没有被触及，只是需要一个更好的优化策略。

Gumbel-Softmax 的应用也很巧妙。这个技术最初是为离散变分自编码器设计的，现在被用来解决量化问题。这说明好的数学工具往往有广泛的适用性——关键在于你能不能看到那个"桥梁"。

---

**论文**：[arxiv.org/abs/2604.18556](https://arxiv.org/abs/2604.18556)
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
GSQ：让大模型瘦身到 2 比特，还能保持聪明

讨论回复

推荐