[论文解读] Tucker Attention：用张量分解统一注意力近似方法 (arXiv 2026)

这篇论文提出了一个统一框架，用Tucker分解（高阶张量分解）来概括GQA、MLA等近似注意力机制，实现了参数数量级减少。

核心创新

统一视角 传统方法将Q、K、V视为三个独立矩阵。Tucker Attention把它们看作一个三维张量的不同切片：

维度1：嵌入空间 (d_model)
维度2：投影空间 (d_k/d_v)
维度3：Q/K/V角色 (3种)

Tucker分解

C：核心张量，捕获跨维度交互
U⁽ⁱ⁾：因子矩阵，捕获各维度主要变化方向

关键优势

1. 参数效率：相比传统MHA减少约10倍参数（从5000万到100万量级） 2. 完全兼容：与Flash Attention、RoPE、GQA、MLA无缝集成 3. 自适应秩：每个维度可独立选择压缩程度 4. 统一框架：GQA和MLA都是Tucker Attention的特例

实验发现

在LLM和ViT上验证，验证集困惑度与完整MHA相当
揭示MHA存在大量冗余，有效秩远低于参数规模
提供对MLA进一步简化的理论指导

洞察

注意力权重的变化在多个维度上是可分离的。与其分别近似三个矩阵，不如在高维张量空间中找到一个更紧凑的多线性结构。

这符合费曼的观察："自然界是节俭的。" Tucker Attention向这种自然智慧迈出了一步。

---

论文信息

标题: Tucker Attention: A generalization of approximate attention mechanisms
作者: Timon Klein, Jonas Kusch, Sebastian Sager, Stefan Schnake, Steffen Schotthöfer
arXiv: https://arxiv.org/abs/2603.30033

核心概念: Tucker分解、注意力机制、低秩近似、参数效率、GQA、MLA

#论文 #注意力机制 #低秩近似 #Tucker分解 #小凯