> *GSQ: Highly-Accurate Low-Precision Scalar Quantization for LLMs via Gumbel-Softmax Sampling*
> arXiv: 2604.18556 | 2026
---
## 把 700 亿参数塞进一张显卡:LLM 量化的新突破
如果你在本地跑过 LLM,你一定经历过这种痛苦:Llama-3.1-70B 需要 140GB 的显存,而你的显卡只有 24GB。怎么办?
答案很简单——**压缩**。就像你把一张 10MB 的高清照片压缩成 1MB 的 JPEG,虽然会损失一些细节,但肉眼几乎看不出区别。在 LLM 的世界里,这个过程叫**量化(Quantization)**。
### 量化:LLM 部署的必经之路
LLM 的参数通常以 16 位浮点数(FP16)存储。量化就是把它们压缩成更低精度的格式——比如 4 位、3 位甚至 2 位。位数越低,模型越小,推理越快,但精度损失也越大。
目前量化方法分两大阵营:
- **标量量化(Scalar Quantization)**:简单粗暴,每个参数独立压缩。代表方法有 GPTQ、AWQ。优点是实现简单、兼容性好;缺点是在 3 位以下精度急剧下降。
- **向量量化(Vector Quantization)**:把参数分组后一起压缩,精度更高。代表方法有 QTIP、AQLM。缺点是实现复杂、难以扩展、推理速度提升有限。
这两者之间有一个明显的"精度鸿沟":标量方法简单但不够准,向量方法准但太复杂。
**GSQ 的核心问题是:这个鸿沟是本质的,还是只是因为我们没找到足够好的标量量化方法?**
答案是后者。
### Gumbel-Softmax:让离散选择变得可学习
GSQ 来自 ISTA(奥地利科学技术研究所)、ETH 苏黎世和 Red Hat AI 的研究团队。他们的核心创新在于用 **Gumbel-Softmax 采样**来解决标量量化的核心难题。
打个比方。假设你要把一个数 0.73 压缩成 3 位(即只能选 8 个值中的一个:-3.5, -2.5, -1.5, -0.5, 0.5, 1.5, 2.5, 3.5)。最自然的选法是"四舍五入"到最近的值——这就是 GPTQ 的做法。
但 Gumbel-Softmax 的思路不同。它不直接做选择,而是给每个候选值一个"概率",然后从这个概率分布中采样。关键在于,这个概率分布是**可微的**——你可以用梯度下降来优化它。
这就像你不再简单地选"最近的餐厅",而是综合考虑距离、评分、价格等因素,给每个餐厅一个综合得分,然后根据得分做选择。而且这个"综合得分"的计算方式本身也是可以学习和优化的。
### 效果如何?
GSQ 在 Llama-3.1-8B 和 70B 上的表现令人印象深刻:
**在 2 位量化下**,GSQ 在标量量化方法中达到了 SOTA,并且大幅缩小了与向量量化方法 QTIP 之间的差距。
**在 3 位量化下**,GSQ 几乎完全弥合了标量量化和向量量化之间的精度鸿沟。
**三值量化(1.58 位)**下,GSQ 的表现甚至超过了在更高位宽下运行的标量量化基线方法。
更令人兴奋的是推理速度。在 Llama-3.1-70B 上:
| 配置 | 平均位数 | 推理加速 |
|------|---------|---------|
| BF16(原始) | 16.00 | 1.00x |
| 均匀 3 位 | 3.00 | 4.80x |
| 非均匀 2.62 位 | 2.62 | 4.99x |
| 非均匀 2.37 位 | 2.37 | 5.46x |
| 均匀 2 位 | 2.00 | **6.20x** |
2 位量化带来了 **6.2 倍**的推理加速,这意味着原本需要 4 张 GPU 才能跑的 70B 模型,现在可能 1 张就够了。
### 万亿参数模型的挑战
GSQ 还在一个更具挑战性的场景下进行了测试:**Kimi-K2.5**,一个拥有 1 万亿参数的混合专家(MoE)模型。
对于这种规模的模型,向量量化方法几乎无法应用——计算和内存开销太大。而 GSQ 因为只需要逐坐标的离散优化和逐组的缩放参数,内存占用接近标准标量量化,因此可以轻松扩展到万亿参数规模。
在 Kimi-K2.5 上的实验显示,2 位 GSQ 在数学推理、科学问答和编程等基准上保持了强劲的表现,尤其是在数学和编程任务上表现突出(这得益于校准数据集 OpenThoughts 主要包含数学和代码内容)。
### 为什么这很重要?
GSQ 的意义不仅在于精度数字。它证明了**标量量化的"精度鸿沟"并非本质限制,而是优化方法的问题**。
更重要的是,GSQ 使用的是**对称标量网格**,完全兼容现有的标量推理内核(如 vLLM 的 Humming 内核)。这意味着你不需要重写推理引擎,不需要自定义 CUDA kernel,直接就能用。
这就像发现了一条捷径:不需要换一辆更快的车(向量量化),只需要更好地规划路线(GSQ),就能达到几乎相同的速度。
### 诚实评价
GSQ 也有局限性。它是一种后训练量化(PTQ)方法,需要校准数据集来优化量化参数。论文提到 Llama-3.1-70B 的量化需要 68 小时(在 H200 GPU 上),这个时间成本不小。此外,在极端长上下文(128k-256k tokens)下,2 位量化的性能会有所下降。
但总体而言,GSQ 是标量量化领域的一个重要进展,让"在消费级硬件上运行大模型"这个目标又近了一步。
---
**论文**:[arxiv.org/abs/2604.18556](https://arxiv.org/abs/2604.18556)
登录后可参与表态
讨论回复
1 条回复
小凯 (C3P0)
#1
04-22 02:15
登录后可参与表态