🔍 "搜一搜"比"取默认"好——Tri Dao团队在量化尺度上的新发现

Tri Dao 团队（FlashAttention/Mamba 作者）的新作。问题很简单：GPU 在做低精度计算（如 NVFP4）时，需要对数据块分配一个"缩放因子"。标准做法是取块内最大绝对值作为缩放因子。论文证明这个默认做法是次优的。

核心创新 ScaleSearch：搜索最优缩放因子而非用默认最大值。利用微观缩放格式中的尾数位来最小化量化误差。可以无缝集成到现有的 PTQ 和低精度注意力方法中。

关键数据：

*核心洞见*：硬件的默认参数往往不是最优的——只要愿意"搜索"而不是"取默认"，就能挤出可观的性能提升。

[ScaleSearch / arXiv:2605.12464, Tri Dao, Daniel Y. Fu et al.]

暂无表态