> *GSQ: Highly-Accurate Low-Precision Scalar Quantization for LLMs via Gumbel-Softmax Sampling*
> arXiv: 2604.18556 | 2026
---
## 一个部署者的两难
你想在本地跑一个 70B 参数的大语言模型。你的显卡有 24GB 显存。
70B 参数,FP16 精度,需要 140GB 显存。你的显卡只有 24GB。差了将近 6 倍。
怎么办?**量化**——把每个参数从 16 位压缩到更少的位数。4 位量化能把 140GB 压到 35GB,勉强能塞进两张卡。2 位量化能压到 17.5GB,一张卡就够了。
但问题是:**压缩得越多,模型越笨**。传统的标量量化方法(如 GPTQ、AWQ)在 3-4 位时还能保持不错的精度,但到了 2-3 位就急剧下降。
于是出现了"第二代"方法——向量量化、网格量化(如 AQLM、QTIP)。它们确实在低比特下表现更好,但实现复杂、部署困难,工程成本很高。
这篇论文问了一个很直接的问题:**标量量化和向量量化之间的精度差距,是本质性的,还是只是优化没做好?**
答案是:**只是优化没做好。**
---
## GSQ:用 Gumbel-Softmax 桥接离散与连续
GSQ(Gumbel-Softmax Quantization)的核心思想很巧妙。
量化本质上是一个**离散优化问题**:每个权重需要被分配到一个有限的离散值(比如 2 位量化只有 4 个可能的值)。但离散优化很难做——你不能对离散变量求梯度。
传统的做法是:先确定每个权重该分配到哪个离散值(用某种启发式方法),然后只优化这些离散值本身。这种"两步走"的策略在低位数下不够灵活。
GSQ 用了 **Gumbel-Softmax 松弛**来解决这个问题。Gumbel-Softmax 是一种把离散选择变成连续概率的技术——它让你可以"软"地选择一个离散值,同时保持可微性。
具体来说,GSQ 同时优化两件事:
1. **每个权重该分配到哪个量化级别**(通过 Gumbel-Softmax 软选择)
2. **每组权重的缩放因子**(一个连续值,用于校准量化后的数值范围)
关键创新在于:GSQ 把松弛的维度数严格匹配目标比特数的级别数。比如 2 位量化只有 4 个级别,Gumbel-Softmax 就只输出 4 个概率。这让松弛更"紧",优化更精确。
---
## 实验结果:标量量化追上向量量化
在 Llama-3.1-8B 和 70B-Instruct 上的实验结果令人印象深刻:
- 在 2-3 位(bpp)的低比特区间,GSQ **基本消除了标量量化和向量量化之间的精度差距**
- 在标准基准上,GSQ 的表现接近甚至超过了 AQLM 等复杂的向量量化方法
- 作为标量方法,GSQ 的实现和部署远比向量量化简单
这意味着什么?**你不需要复杂的向量量化方案,也能在极低比特下保持模型精度。** 一个简单的标量量化器,只要优化得当,就能做到和复杂方法差不多的效果。
---
## 为什么这很重要
从实用角度看,GSQ 的价值非常大:
1. **部署更简单**:标量量化可以直接替换模型权重,不需要修改推理引擎
2. **推理更快**:标量运算比向量运算更高效,硬件利用率更高
3. **覆盖更广**:几乎所有推理框架都支持标量量化,但向量量化的支持参差不齐
论文的结论说得好:"标量量化和向量量化之间的差距,更多是一个优化差距,而不是根本性的限制。"
---
## 我的思考
这篇论文让我想到一个更广泛的规律:**很多看似需要更复杂方法才能解决的问题,其实只是简单方法没优化好。**
在量化领域,大家一度认为"标量量化到头了,要突破必须上向量量化"。GSQ 证明这个结论下得太早——标量量化的天花板远没有被触及,只是需要一个更好的优化策略。
Gumbel-Softmax 的应用也很巧妙。这个技术最初是为离散变分自编码器设计的,现在被用来解决量化问题。这说明好的数学工具往往有广泛的适用性——关键在于你能不能看到那个"桥梁"。
---
**论文**:[arxiv.org/abs/2604.18556](https://arxiv.org/abs/2604.18556)
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!