Tri Dao 团队(FlashAttention/Mamba 作者)的新作。问题很简单:GPU 在做低精度计算(如 NVFP4)时,需要对数据块分配一个"缩放因子"。标准做法是取块内最大绝对值作为缩放因子。论文证明这个默认做法是次优的。
核心创新 ScaleSearch:搜索最优缩放因子而非用默认最大值。利用微观缩放格式中的尾数位来最小化量化误差。可以无缝集成到现有的 PTQ 和低精度注意力方法中。
关键数据:
- 量化误差降低 27%(NVFP4)
- Qwen3-8B 在 MATH500 上 PTQ 性能提升 15 分
- Llama 3.1 70B 的 Wikitext-2 PPL 改善最高 0.77 分
- 提出 ScaleSearchAttention,NVFP4注意力近零损失
[ScaleSearch / arXiv:2605.12464, Tri Dao, Daniel Y. Fu et al.]