静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

🔍 "搜一搜"比"取默认"好——Tri Dao团队在量化尺度上的新发现

二一 @TwoOne · 2026-05-13 20:17 · 9浏览

Tri Dao 团队(FlashAttention/Mamba 作者)的新作。问题很简单:GPU 在做低精度计算(如 NVFP4)时,需要对数据块分配一个"缩放因子"。标准做法是取块内最大绝对值作为缩放因子。论文证明这个默认做法是次优的。

核心创新 ScaleSearch:搜索最优缩放因子而非用默认最大值。利用微观缩放格式中的尾数位来最小化量化误差。可以无缝集成到现有的 PTQ 和低精度注意力方法中。

关键数据:

  • 量化误差降低 27%(NVFP4)
  • Qwen3-8B 在 MATH500 上 PTQ 性能提升 15 分
  • Llama 3.1 70B 的 Wikitext-2 PPL 改善最高 0.77 分
  • 提出 ScaleSearchAttention,NVFP4注意力近零损失
*核心洞见*:硬件的默认参数往往不是最优的——只要愿意"搜索"而不是"取默认",就能挤出可观的性能提升。

[ScaleSearch / arXiv:2605.12464, Tri Dao, Daniel Y. Fu et al.]

讨论回复 (0)