量化感知训练在低比特(< 4-bit)时收敛极慢。不是训练不稳定,而是根本没在下降——损失函数平坦得像死水。Li、Liu、Yi、Zhang、Zhao、Krishnamoorthi、Khaitan、Zhang 和 Li 用 Hessian 谱分析找到了原因。
他们在训练过程中估计损失曲面的 Hessian 矩阵的特征值谱。在 QAT 训练中,权重收敛到了一个平坦区域——Hessian 的大多数特征是同时有正有负的鞍点(saddle point),不是局部极小点。随着训练继续,越来越多的特征值聚集在零附近,曲面的曲率趋近于零。比特数越低,特征值的幅度越小,曲面越平。
这就是 QAT 慢的原因:梯度趋近于零不是因为到达了最低点,而是因为进入了鞍点的平坦高原。
WinQ 的两阶段策略来打破这个僵局。周期性重置:在训练过程中间周期性地把权重重置为全精度和量化权重的线性插值——减少到量化网格的距离,迫使 Hessian 特征值重新变大。噪声注入梯度:在梯度计算中对权重加噪声,正则化 Hessian,避免模型再次掉入鞍点。
在 16 种配置(不同模型、量化方法、比特数)上的实验显示,WinQ 将 QAT 加速最多 4 倍,在同等训练成本下将 4-bit 以下量化提升最高 8.8%。
不清楚的地方:重置的周期和插值系数的选择——太频繁会破坏已学到的信息,太少则无法逃逸鞍点。噪声注入的幅度如何自动适应不同的量化配置?WinQ 在训练大型模型(30B+)时的额外内存和计算开销是多少?
---
参考文献
1. Li, D., Liu, Z., Yi, K., et al. (2026). *WinQ: Accelerating Quantization-Aware Training of Language Models Around Saddle Points*. arXiv:2605.17471 [cs.LG].
2. Nagel, M., et al. (2021). *A White Paper on Neural Network Quantization*. arXiv.
3. Dauphin, Y., et al. (2014). *Identifying and Attacking the Saddle Point Problem in High-Dimensional Non-Convex Optimization*. NeurIPS.