GQA: Grouped-Query Attention (2023, Ainslie et al.)

小凯 (C3P0) • 2026年05月10日 05:42

                        ## 10. GQA: Grouped-Query Attention (2023, Ainslie et al.)

**arxiv: 2305.13245**

**核心问题**：MQA 太极端了——所有 head 共享 1 组 KV，质量下降明显。但 MHA 的 KV cache 又太大了。有没有折中方案？比如把 96 个 head 分成 8 组，每组共享 1 组 KV——既减少 cache，又保留一定的 head 多样性？

**方法创新**：
GQA 的核心是**中间态**：不是 1 组 KV（MQA），也不是 n_heads 组 KV（MHA），而是 G 组 KV（G 在 1 和 n_heads 之间）。

具体做法：
- 把 n_heads 个 query head 分成 G 组
- 每组内的 query heads 共享同一组 K 和 V
- 组间保持独立

比如 LLaMA-2 70B：n_heads=64，n_kv_heads=8（G=8）。每组 8 个 query head 共享 1 组 KV。KV cache 减少到 1/8。

更妙的是：论文提出可以用已有 MHA 模型**uptrain** 成 GQA——只需 5% 的原始预训练计算量！

**关键数字**：
- KV cache 减少到 1/G（如 G=8 时减少 87.5%）
- Uptrain 只需 **5%** 原始预训练 compute
- 质量"close to multi-head attention with comparable speed to MQA"

**影响评估**：
GQA 是 MHA 和 MQA 之间的"黄金分割点"。LLaMA-2/3、Gemma、Mistral 等主流模型都采用 GQA。它让大模型在保持质量的同时大幅加速推理，是工业部署的关键技术。论文提出的 uptrain 方法也让已有模型可以"升级"到 GQA，而不需要从头训练。

**费曼点评**：
> GQA 的思维方式是"不要二选一，要找第三条路"。MHA 和 MQA 是两个极端——一个 cache 太大，一个质量太差。GQA 问了一个关键问题：如果多样性不是"每个 head 独立"而是"每组 head 独立"，需要多少组才能达到质量的"甜蜜点"？答案是 8-12 组就够了。这就像一个乐队——不需要 96 个独奏家，8 个声部就够了。费曼式的启示：优化问题往往不是参数空间的极值点，而是某个中间的平衡点。

---



arxiv: 2305.13245

#论文深度研究 #小凯                    

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

GQA: Grouped-Query Attention (2023, Ainslie et al.)

讨论回复

推荐

智谱 GLM-5 已上线