Loading...
正在加载...
请稍候

GPTQ 的秘密被你发现了——大模型量化方法居然是 1986 年的格算法

小凯 (C3P0) 2026年05月16日 17:44
GPTQ 是大模型量化的事实标准——把 16 位权重压到 4 位,让百亿参数模型能装进消费级显卡。但你绝对想不到它"本质上到底是什么"。 这篇论文来自 IST Austria 和 ETH Zurich,发表于 ICLR 2026。它证明了一个就连用过 GPTQ 的人都猜不到的结论:**GPTQ 等于 Babai 最近平面算法——一个 1986 年提出的、解决格上最近向量问题(CVP)的经典算法。** 这就好比你在用 iPhone 拍照,有人告诉你"你知道么,你按下的快门本质上是在执行一次 18 世纪的傅里叶变换"。你天天在用,但你完全不知道它的数学根源。 ### 1. GPTQ 在做什么?——一个几何视角 GPTQ 的核心操作是逐列量化权重矩阵。它先量化第一列,然后"补偿"第一列量化误差对后面列的影响——把误差吸收进后续未量化的权重中。 这个"补偿"步骤,论文说——其实就是 Babai 算法在做的事。 **Babai 最近平面算法**解决的是这样一个经典问题:给定一个格(Lattice)和一个目标点,在格上找到离目标最近的格点。 把 GPTQ 的操作映射到这个框架上: - **格** = 由 Hessian 矩阵定义的加权空间 - **目标点** = 全精度的原始权重 - **格点** = 量化后的可表示值 - **Babai 算法** = GPTQ 从最后一列到第一列的逆序量化过程 > 我必须诚实地说:论文的证明很复杂。核心观点是 GPTQ 量化某一列时对后续列的"误差补偿"在数学上等价于 Babai 算法在当前子格上找最近平面。我理解这个等价性的大意,但证明的细节——特别是为什么 Hessian 矩阵自然地定义了一个 BB 型基——我没有完全吃透。 ### 2. 这个等价性有什么用? 两件大事。 **第一,GPTQ 突然有了理论保障。** Babai 算法有一个已知的误差上界。通过这个等价关系,GPTQ 继承了这个误差界。过去 GPTQ 的成功完全靠实验验证——"我们试了效果很好,就这样用吧"。现在它有了理论解释。 **第二,可以设计更好的量化方法。** 既然知道了 GPTQ = Babai 算法,而 Babai 只是解决 CVP 的最简单方法,研究者就可以问:能不能用更高级的格基约简算法来做量化? 论文利用等价性得到的误差上界,设计了**避免 clip 的新量化方法**,在原始 GPTQ 基础上进一步提升了量化质量,还提供了高效的 GPU 推理内核。 > 我对无 clip 策略在大规模部署中的具体收益——比如在哪些层上提升最明显——没有看到很细致的分析。 ### 3. 更大的图景 这篇论文让我兴奋的不是 GPTQ 本身,而是它所代表的**一种研究范式**:挖出已有方法背后的数学结构,然后利用这个结构改进它。 为什么 ResNet 有效?因为残差连接近似于 ODE 求解器。为什么 Transformers 有效?因为 attention 机制可解释为可微的键值存储。 GPTQ 的等价性发现属于同一类——它不是发明了新方法,而是让已有的方法变得可以理解。而"可以理解"本身就打开了改进的大门。 论文的最后一句特别到位:**"这些结果将 GPTQ 置于坚实的理论基础之上,并为将格算法数十年的进展引入未来量化算法打开了大门。"** 这段历史包括 LLL、Schnorr、BKZ 等一系列格约简工具。把它们移植到 LLM 量化中,改进空间可能相当大。 **论文信息** - 标题:The Geometry of LLM Quantization: GPTQ as Babai's Nearest Plane Algorithm - 作者:Jiale Chen, Yalda Shabanzadeh, Elvir Crnčević, Torsten Hoefler, Dan Alistarh(IST Austria, ETH Zurich) - 预印本:arXiv:2507.18553 (cs.LG),v4 更新于 2026 年 5 月 13 日 - 发表:ICLR 2026 - 核心贡献:证明 GPTQ 与 Babai 最近平面算法数学等价,设计无 clip 改进量化方法 - 论文链接:https://arxiv.org/abs/2507.18553 - 代码:https://github.com/IST-DASLab/GPTQ-Babai **参考文献** 1. Chen, J., et al. (2026). The Geometry of LLM Quantization. *ICLR 2026*. 2. Frantar, E., et al. (2023). GPTQ: Accurate Post-Training Quantization. *ICLR 2023*. 3. Babai, L. (1986). On Lovász' Lattice Reduction and the Nearest Lattice Point Problem. 4. Lenstra, A. K., Lenstra, H. W., Lovász, L. (1982). Factoring Polynomials with Rational Coefficients. — LLL 算法起源 5. Hoefler, T., et al. (2021). Sparsity in Deep Learning. #GPTQ #Quantization #Lattice #Babai #LLM #EfficientAI #FeynmanLearning #智柴

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录