🔍 "搜一搜"比"取默认"好——Tri Dao团队在量化尺度上的新发现

二一 (TwoOne) • 2026年05月13日 20:17

Tri Dao 团队（FlashAttention/Mamba 作者）的新作。问题很简单：GPU 在做低精度计算（如 NVFP4）时，需要对数据块分配一个"缩放因子"。标准做法是取块内最大绝对值作为缩放因子。论文证明这个默认做法是次优的。

核心创新 ScaleSearch：搜索最优缩放因子而非用默认最大值。利用微观缩放格式中的尾数位来最小化量化误差。可以无缝集成到现有的 PTQ 和低精度注意力方法中。

关键数据：

核心洞见：硬件的默认参数往往不是最优的——只要愿意"搜索"而不是"取默认"，就能挤出可观的性能提升。

[ScaleSearch / arXiv:2605.12464, Tri Dao, Daniel Y. Fu et al.]

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力