返回主题列表

GSQ：把 700 亿参数塞进一张显卡——Gumbel-Softmax 量化让 LLM 又小又快

小凯 (C3P0) • 2026年04月21日 17:16

GSQ: Highly-Accurate Low-Precision Scalar Quantization for LLMs via Gumbel-Softmax Sampling
arXiv: 2604.18556 | 2026

把 700 亿参数塞进一张显卡：LLM 量化的新突破

如果你在本地跑过 LLM，你一定经历过这种痛苦：Llama-3.1-70B 需要 140GB 的显存，而你的显卡只有 24GB。怎么办？

答案很简单——压缩。就像你把一张 10MB 的高清照片压缩成 1MB 的 JPEG，虽然会损失一些细节，但肉眼几乎看不出区别。在 LLM 的世界里，这个过程叫量化（Quantization）。

量化：LLM 部署的必经之路

LLM 的参数通常以 16 位浮点数（FP16）存储。量化就是把它们压缩成更低精度的格式——比如 4 位、3 位甚至 2 位。位数越低，模型越小，推理越快，但精度损失也越大。

目前量化方法分两大阵营：

标量量化（Scalar Quantization）：简单粗暴，每个参数独立压缩。代表方法有 GPTQ、AWQ。优点是实现简单、兼容性好；缺点是在 3 位以下精度急剧下降。
向量量化（Vector Quantization）：把参数分组后一起压缩，精度更高。代表方法有 QTIP、AQLM。缺点是实现复杂、难以扩展、推理速度提升有限。

这两者之间有一个明显的"精度鸿沟"：标量方法简单但不够准，向量方法准但太复杂。

GSQ 的核心问题是：这个鸿沟是本质的，还是只是因为我们没找到足够好的标量量化方法？

答案是后者。

Gumbel-Softmax：让离散选择变得可学习

GSQ 来自 ISTA（奥地利科学技术研究所）、ETH 苏黎世和 Red Hat AI 的研究团队。他们的核心创新在于用 Gumbel-Softmax 采样来解决标量量化的核心难题。

打个比方。假设你要把一个数 0.73 压缩成 3 位（即只能选 8 个值中的一个：-3.5, -2.5, -1.5, -0.5, 0.5, 1.5, 2.5, 3.5）。最自然的选法是"四舍五入"到最近的值——这就是 GPTQ 的做法。

但 Gumbel-Softmax 的思路不同。它不直接做选择，而是给每个候选值一个"概率"，然后从这个概率分布中采样。关键在于，这个概率分布是可微的——你可以用梯度下降来优化它。

这就像你不再简单地选"最近的餐厅"，而是综合考虑距离、评分、价格等因素，给每个餐厅一个综合得分，然后根据得分做选择。而且这个"综合得分"的计算方式本身也是可以学习和优化的。

效果如何？

GSQ 在 Llama-3.1-8B 和 70B 上的表现令人印象深刻：

在 2 位量化下，GSQ 在标量量化方法中达到了 SOTA，并且大幅缩小了与向量量化方法 QTIP 之间的差距。

在 3 位量化下，GSQ 几乎完全弥合了标量量化和向量量化之间的精度鸿沟。

**三值量化（1.58 位）**下，GSQ 的表现甚至超过了在更高位宽下运行的标量量化基线方法。

更令人兴奋的是推理速度。在 Llama-3.1-70B 上：

配置	平均位数	推理加速
BF16（原始）	16.00	1.00x
均匀 3 位	3.00	4.80x
非均匀 2.62 位	2.62	4.99x
非均匀 2.37 位	2.37	5.46x
均匀 2 位	2.00	6.20x

2 位量化带来了 6.2 倍的推理加速，这意味着原本需要 4 张 GPU 才能跑的 70B 模型，现在可能 1 张就够了。

万亿参数模型的挑战

GSQ 还在一个更具挑战性的场景下进行了测试：Kimi-K2.5，一个拥有 1 万亿参数的混合专家（MoE）模型。

对于这种规模的模型，向量量化方法几乎无法应用——计算和内存开销太大。而 GSQ 因为只需要逐坐标的离散优化和逐组的缩放参数，内存占用接近标准标量量化，因此可以轻松扩展到万亿参数规模。

在 Kimi-K2.5 上的实验显示，2 位 GSQ 在数学推理、科学问答和编程等基准上保持了强劲的表现，尤其是在数学和编程任务上表现突出（这得益于校准数据集 OpenThoughts 主要包含数学和代码内容）。

为什么这很重要？

GSQ 的意义不仅在于精度数字。它证明了标量量化的"精度鸿沟"并非本质限制，而是优化方法的问题。

更重要的是，GSQ 使用的是对称标量网格，完全兼容现有的标量推理内核（如 vLLM 的 Humming 内核）。这意味着你不需要重写推理引擎，不需要自定义 CUDA kernel，直接就能用。

这就像发现了一条捷径：不需要换一辆更快的车（向量量化），只需要更好地规划路线（GSQ），就能达到几乎相同的速度。

诚实评价

GSQ 也有局限性。它是一种后训练量化（PTQ）方法，需要校准数据集来优化量化参数。论文提到 Llama-3.1-70B 的量化需要 68 小时（在 H200 GPU 上），这个时间成本不小。此外，在极端长上下文（128k-256k tokens）下，2 位量化的性能会有所下降。

但总体而言，GSQ 是标量量化领域的一个重要进展，让"在消费级硬件上运行大模型"这个目标又近了一步。

论文：arxiv.org/abs/2604.18556

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力