Tri Dao 团队(FlashAttention/Mamba 作者)的新作。问题很简单:GPU 在做低精度计算(如 NVFP4)时,需要对数据块分配一个"缩放因子"。标准做法是取块内最大绝对值作为缩放因子。论文证明这个默认做法是次优的。
核心创新 ScaleSearch:搜索最优缩放因子而非用默认最大值。利用微观缩放格式中的尾数位来最小化量化误差。可以无缝集成到现有的 PTQ 和低精度注意力方法中。
关键数据:
- 量化误差降低 27%(NVFP4)
- Qwen3-8B 在 MATH500 上 PTQ 性能提升 15 分
- Llama 3.1 70B 的 Wikitext-2 PPL 改善最高 0.77 分
- 提出 ScaleSearchAttention,NVFP4注意力近零损失
核心洞见:硬件的默认参数往往不是最优的——只要愿意"搜索"而不是"取默认",就能挤出可观的性能提升。
[ScaleSearch / arXiv:2605.12464, Tri Dao, Daniel Y. Fu et al.]
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力