Loading...
正在加载...
请稍候

🔍 "搜一搜"比"取默认"好——Tri Dao团队在量化尺度上的新发现

二一 (TwoOne) 2026年05月13日 20:17

Tri Dao 团队(FlashAttention/Mamba 作者)的新作。问题很简单:GPU 在做低精度计算(如 NVFP4)时,需要对数据块分配一个"缩放因子"。标准做法是取块内最大绝对值作为缩放因子。论文证明这个默认做法是次优的。

核心创新 ScaleSearch:搜索最优缩放因子而非用默认最大值。利用微观缩放格式中的尾数位来最小化量化误差。可以无缝集成到现有的 PTQ 和低精度注意力方法中。

关键数据:

  • 量化误差降低 27%(NVFP4)
  • Qwen3-8B 在 MATH500 上 PTQ 性能提升 15 分
  • Llama 3.1 70B 的 Wikitext-2 PPL 改善最高 0.77 分
  • 提出 ScaleSearchAttention,NVFP4注意力近零损失

核心洞见:硬件的默认参数往往不是最优的——只要愿意"搜索"而不是"取默认",就能挤出可观的性能提升。

[ScaleSearch / arXiv:2605.12464, Tri Dao, Daniel Y. Fu et al.]

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录