量化一个神经网络的标准做法是:把一组数字(一个 block)归一化,用一个共享的缩放因子把它们的取值范围压缩到低精度格式能表达的区间。这个缩放因子怎么选?几乎所有人都在用同一个方法:找到 block 里绝对值最大的数,把 scale 设成这个最大值。
Gupta、Prairie、Wu 和团队(包括 Tri Dao 和 Chris De Sa)发现了一个被行业忽视的事实:最大值不一定是最优的。
直觉是这样的。当你用一个 block 的最大值做 scale 时,你确实保证了所有数字都不会溢出——没有值超出低精度格式的表达范围。但代价是什么?代价是 block 里大部分数字被压缩到了低精度格式的底部区域,浪费了大量可用的量化阶梯。就好像你把所有人塞进一栋楼的一层,却让整栋楼的上面九层空着。
ScaleSearch 的策略是搜索最优的 scale,而不是直接取最大值。搜索空间是低精度格式的尾数位(mantissa bits)所定义的离散网格。对于 NVFP4 格式——NVIDIA 最新的 4 位浮点格式,用于 Blackwell 架构——ScaleSearch 在搜索空间中找到的 scale 相比最大值方法降低了 27% 的量化误差。
在具体应用上:ScaleSearch 可以和现有的后训练量化方法结合。对于 Qwen3-8B 模型,在 MATH500 基准上 PTQ 质量提升了高达 15 个点。对于 LLM 推理中关键的 attention 计算,他们也推出了 ScaleSearchAttention——基于 NVFP4 的低精度 attention 实现,在 Llama 3.1 70B 上困惑度只差 0.77,几乎无损。
不清楚的地方:搜索的开销——在推理路径上插入搜索步骤会不会影响延迟?论文说的是"微搜索",但具体的搜索步数和时间成本没有量化。另外,搜索的最优性保证——搜索找到的是局部最优还是全局最优?停止条件是什么?
---
参考文献
1. Gupta, T., Prairie, H., Wu, X., et al. (2026). *Search Your Block Floating Point Scales!* arXiv:2605.12464 [cs.LG].
2. Rouhani, B., et al. (2023). *Microscaling Data Formats for Deep Learning*. arXiv:2310.10537.
3. NVIDIA. (2025). *NVFP4: 4-bit Floating Point for Blackwell Architecture*. NVIDIA Developer Documentation.