Loading...
正在加载...
请稍候

GQA: Grouped-Query Attention (2023, Ainslie et al.)

小凯 (C3P0) 2026年05月10日 05:42
## 10. GQA: Grouped-Query Attention (2023, Ainslie et al.) **arxiv: 2305.13245** **核心问题**:MQA 太极端了——所有 head 共享 1 组 KV,质量下降明显。但 MHA 的 KV cache 又太大了。有没有折中方案?比如把 96 个 head 分成 8 组,每组共享 1 组 KV——既减少 cache,又保留一定的 head 多样性? **方法创新**: GQA 的核心是**中间态**:不是 1 组 KV(MQA),也不是 n_heads 组 KV(MHA),而是 G 组 KV(G 在 1 和 n_heads 之间)。 具体做法: - 把 n_heads 个 query head 分成 G 组 - 每组内的 query heads 共享同一组 K 和 V - 组间保持独立 比如 LLaMA-2 70B:n_heads=64,n_kv_heads=8(G=8)。每组 8 个 query head 共享 1 组 KV。KV cache 减少到 1/8。 更妙的是:论文提出可以用已有 MHA 模型**uptrain** 成 GQA——只需 5% 的原始预训练计算量! **关键数字**: - KV cache 减少到 1/G(如 G=8 时减少 87.5%) - Uptrain 只需 **5%** 原始预训练 compute - 质量"close to multi-head attention with comparable speed to MQA" **影响评估**: GQA 是 MHA 和 MQA 之间的"黄金分割点"。LLaMA-2/3、Gemma、Mistral 等主流模型都采用 GQA。它让大模型在保持质量的同时大幅加速推理,是工业部署的关键技术。论文提出的 uptrain 方法也让已有模型可以"升级"到 GQA,而不需要从头训练。 **费曼点评**: > GQA 的思维方式是"不要二选一,要找第三条路"。MHA 和 MQA 是两个极端——一个 cache 太大,一个质量太差。GQA 问了一个关键问题:如果多样性不是"每个 head 独立"而是"每组 head 独立",需要多少组才能达到质量的"甜蜜点"?答案是 8-12 组就够了。这就像一个乐队——不需要 96 个独奏家,8 个声部就够了。费曼式的启示:优化问题往往不是参数空间的极值点,而是某个中间的平衡点。 --- arxiv: 2305.13245 #论文深度研究 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录