GATr 深入研究：低秩近似的新思路与注意力机制的重思考

问题：SVD 低秩分解，可能是错的？

2012年 AlexNet 之后，深度学习的主流参数化方式是「矩阵乘法」——密集矩阵、低秩近似、块对角矩阵。SVD 分解成了压缩神经网络的标配工具：把一个大矩阵 W 拆成 UΣVᵀ，扔掉小的奇异值，参数从 d² 降到 2dr。

但这个范式有一个隐含的假设：线性变换的最佳参数化方式是「秩约束的矩阵分解」。

NeurIPS 2025 的一篇论文提出了一个根本性质疑：如果线性变换的天然分解方式不是 SVD，而是几何代数中的 rotor 复合呢？

---

方向一：低秩近似的新思路

SVD 的问题在哪？

SVD 的几何解释是：旋转 → 缩放 → 旋转。三个步骤，U 和 V 负责旋转，Σ 负责缩放。

但这个分解是全局的——它作用于整个 d×d 空间。当 d=4096（LLM 常见维度）时，U 和 V 各需要 d² 参数。低秩近似通过截断来压缩，但截断掉的奇异值对应的信息并非不重要，只是「在 Frobenius 范数意义下不重要」。

更关键的是，SVD 是静态的。它把矩阵当成一个黑盒数字阵列，忽略了这些数字可能编码的几何结构。

Clifford 代数的视角：线性变换 = 有向平面的复合

Clifford 代数（几何代数）的核心洞察：线性变换可以分解为bivector（二重向量，即有向平面）的复合。

想象一个旋转。三维空间中的任意旋转都可以表示为绕某个轴的转动——而这个轴垂直于一个平面。这个平面就是 bivector。多个旋转的复合 = 多个 bivector 的指数映射相乘。

NeurIPS 2025「Composing Linear Layers from Irreducibles」的核心结果：

> 线性层可以表示为 bivector（编码有向平面的几何对象）的复合，通过 rotor sandwich product 作用于输入 multivector 的局部子空间。这只需要 O(log²d) 参数，相比密集矩阵的 O(d²)。

具体实现：

将输入向量嵌入到 Clifford 代数的 multivector 空间
用 rotor sandwich product ψᵣ,ₛ(x) ≜ rxs† 做变换，其中 r, s ∈ Spin(n)
每个 rotor 由少量 bivector 系数参数化
通过可微的不变分解算法（Krylov 子空间启发的迭代提取）将 bivector 映射到 rotor

在 LLaMA-3.2 1B 的 Q/K/V 投影上的实验结果：

原始密集层：1-4M 参数
Rotor 层：约 1000 参数（width=2, depth=3）
性能：匹配 block-Hadamard 和低秩近似（LR1 需要 3-5× 参数）

RotorQuant：从理论到生产的落地

RotorQuant 是 rotor-based 参数化的工程化版本，目标更具体：KV cache 压缩。

传统方法（TurboQuant）用一个 dense d×d 随机正交旋转矩阵来 decorrelate KV cache 向量，然后量化。这需要 16,384 FMAs（d=128 时）。

RotorQuant 的洞察： > 不需要 full-rank d×d 变换来 decorrelate。小正交块就够了，因为真实 attention 向量生活在低秩流形上。

实现： 1. 把 d 维 KV 向量分成每组 3 维的 chunk（d=128 → 43 组） 2. 每组嵌入为 Cl(3,0) multivector（8 个分量） 3. 每组应用 rotor sandwich product RxR̃ 来 decorrelate 4. 每个 rotor 只有 4 个非零分量（scalar + 3 bivectors）

对比数据：

方法	FMAs (d=128)	参数量	PPL	状态
TurboQuant	16,384	16,384	基准	生产
RotorQuant	~2,400	372	匹配	研究
IsoQuant (四元数 4D)	512	128	更好	生产 (llama.cpp)
PlanarQuant (Givens 2D)	256	128	更好	生产 (llama.cpp)

有趣的发现：代数丰富度越高（RotorQuant > IsoQuant > PlanarQuant），实际效果反而越差。更简单的旋转工作得更好——因为 block-diagonal rotation 比全局 WHT scrambling 更有效地保留了 KV cache 向量的方向结构。

这是工程实用主义对代数纯粹主义的胜利：Clifford 代数提供了洞察，但最终有效的实现是简化的版本。

---

方向二：注意力机制的重思考

标准 attention 的「标量贫困」

标准 transformer 的 attention 计算：

> attention(Q, K, V) = softmax(QKᵀ/√d) V

Q 和 K 的交互被压缩成一个标量 dot product。一个 d 维向量之间的复杂高维关系，被坍缩成一个数字。

CliffordNet 的批评很尖锐： > 这种操作本质上是 lossy 的：它丢弃了特征空间中固有的方向性和结构性信息（bivector 组件）。因此 Transformer 必须依赖厚重、参数低效的 FFN 来重建和处理这些丢失的特征维度。

换句话说：attention 把高维几何关系压成标量，然后 FFN 再花大量参数把它膨胀回来。 这不是高效，是浪费。

GATr 的答案：multivector attention

Qualcomm AI Research 的 GATr（NeurIPS 2023）是第一个在 PGA（Projective Geometric Algebra）中构建完整 transformer 的架构。

它的 attention 不是标量的，而是multivector 的：

三个信息源的组合： 1. Multivector inner product —— 标量部分，类似标准 dot product 2. Distance-aware nonlinear features —— 基于位置/距离的几何特征 3. Auxiliary scalars —— 额外的标量通道处理非几何信息

关键设计：所有内部状态都是 multivector（包含 scalar + vector + bivector + ...），attention 计算保留 grade 结构，通过 gated nonlinearities 在不同 grade 之间交互。

结果： 在 n-body 模拟和动脉血管分割等几何任务上，用 1/10 参数达到或超过 SE(3)-Transformer 和 SEGNN。

Versor：rotor-based 序列建模

Huy and Hirst (2026) 的 Versor 更进一步：在 Conformal GA (Cl(4,1)) 中构建序列模型，temporal state updates 通过 rotor-based 变换完成。

核心设计：

Geometric Product Attention (GPA) —— 用几何 product 替代 dot product
RecursiveRotorAccumulator —— rotor-based 序列 pooling
Conformal lift —— 把 4D 点提升到 Cl(4,1) multivector

Versor 在多个 benchmark 上超过传统 transformer、graph 和 GA-based baseline，同时参数量显著更小。

CliffordNet：No-FFN 的启示

CliffordNet 最反直觉的发现：不需要 FFN。

在 CIFAR-100 上，CliffordNet-Nano（无 FFN）达到 76.41%，超过 ShuffleNetV2 的 74.60%。CliffordNet-Fast（无 FFN）达到 77.63%，大幅超过 MobileNetV2 的 70.90%。

为什么？

Algebraic Density（代数密度）：

标准 attention 的 softmax 后主要是线性聚合，需要 heavy FFN（ratio=4）来提供特征变换能力
Clifford 几何 product 内部包含乘法二阶项（bivector u∧v 和 scalar u⊙v）
结合非线性 GGR gating，交互层本身就是强大的函数逼近器

Structured vs. Brute-force Mixing：

FFN 通过大矩阵乘法做 dense、无差别的通道混合
Shifted Geometric Product 基于特征空间的环拓扑做结构化混合
几何约束的混合比暴力连接更样本高效

FGA：Attention 作为几何交互的理论框架

Sadrzadeh 等人 (2026) 的「Toward a Functional Geometric Algebra for Natural Language Semantics」提出了更激进的观点：

> 当前 attention 机制丢弃的 bivector 组件，正是组合语义所需的关系方向信息。

Multi-head attention = 隐式子空间选择：

BERTology 文献证明不同 attention head 专精不同语言功能（句法依赖、共指、语义角色、位置/话语特征）
这些专精在结构上等价于 Clifford 代数的 grade 分解：每个 head 操作在学习的投影子空间中
Multi-head 机制从不同方向的子空间组合信息，就像 Clifford 代数按不同 grade 和方向分解

Rotor vs. Projection 的对比：

当前 transformer：contextual modulation 通过学习的线性投影（Q, K, V 矩阵）
FGA 提议：contextual modulation 通过 rotor sandwich —— grade-preserving、可逆的变换
Rotor 保持 norm 和 grade；projection 不保持
Rotor 可逆；projection 不可逆

这是一个值得验证的实验问题：在 sense disambiguation 任务上（如 "Romeo and Juliet" vs. "Alfa Romeo"），rotor-based contextual modulation 是否比 projection-based 有更好的组合泛化？

---

更大的图景：几何深度学习的新范式

三条演进路线

1. 低秩替代（从 SVD 到 Rotor）

SVD：O(dr) 参数，秩约束，静态分解
Rotor：O(log²d) 参数，几何约束，动态复合
关键洞察：不需要 full-rank 变换，小正交块在低秩流形上足够

2. Attention 重构（从标量到 Multivector）

标准：dot product → scalar → softmax → 线性聚合 → FFN 重建
GA-based：geometric product → multivector → grade-aware gating → 内部化非线性
关键洞察：保留 bivector 组件 = 保留关系方向信息，不需要 FFN 事后补偿

3. 序列建模（从 RNN/Transformer 到 Rotor Evolution）

RNN：隐状态通过门控循环更新
Transformer：通过 attention 聚合全局信息
Versor：通过 rotor 演化更新状态，几何 product 作为原生计算原语

挑战与限制

1. 计算效率 Clifford 操作的计算复杂度高于标准矩阵乘法。CliffordNet 承认："Baseline CNNs benefit from mature cuDNN kernel optimizations." GA 操作需要 custom kernel 才能释放全部潜力。

2. 维度限制 Rotor-based 层要求维度是 2 的幂次（因为 Clifford 代数维度 = 2ⁿ）。对于任意 din/dout，需要通过多个 rotor-sandwich 模块组合，增加架构复杂性。

3. 可解释性门槛 Multivector 的 grade 分解（scalar + vector + bivector + trivector）提供了新的可解释性维度，但也增加了理解门槛。不像 attention weight 那样直观。

4. 训练稳定性 Rotor sandwich product 是 grade-preserving 的，需要额外的 permutation 和 normalization 来 enable cross-grade interaction。论文报告 normalization 对训练稳定性很重要。

---

谁该关注？

值得关注：

LLM 效率优化研究者（KV cache 压缩、参数高效微调）
几何深度学习从业者（3D vision、物理模拟、分子动力学）
对「神经网络能否更结构化」感兴趣的理论研究者
寻找超越 transformer 的新架构的探索者

暂不适用：

需要立即生产部署的场景（GA-based 架构的系统级优化还在早期）
非几何/非结构化数据为主的任务（GA 的优势在几何数据上最显著）
对训练基础设施要求极简的项目（需要 torch_ga 或 custom kernel）

---

结论

GATr 及其后继者（Versor、CliffordNet、RotorQuant、FGA）正在构建一个统一的框架：用几何代数的语言重新描述深度学习的基础操作。

核心洞察有三：

1. 低秩近似可以被 rotor 复合替代 —— 不是通过截断奇异值，而是通过叠加有向平面的旋转。参数从 O(dr) 降到 O(log²d)。

2. Attention 的标量贫困可以被 multivector 丰富性治愈 —— 不是把高维关系压成标量再膨胀回来，而是用 geometric product 保留完整的代数结构。

3. FFN 可以被内部化的非线性替代 —— 几何 product 的二阶项（bivector + scalar）本身提供了足够的变换能力，不需要外部 MLP。

这些洞察目前还处于「可行性验证」阶段——NeurIPS 2025 的论文明确说："It is not a drop-in replacement yet." 但方向已经清晰：深度学习的下一个范式转移，可能不是更大的模型，而是更结构化的表示。

毕竟，如果大自然用几何代数描述物理（从 Maxwell 方程到 Dirac 方程），也许神经网络也应该如此。

---

核心信息源

GATr: https://github.com/Qualcomm-AI-research/geometric-algebra-transformer (Brehmer et al., NeurIPS 2023)
Composing Linear Layers from Irreducibles: https://arxiv.org/abs/2507.11688 (Pence et al., NeurIPS 2025)
RotorQuant: https://github.com/scrya-com/rotorquant (scrya, 2026)
CliffordNet: https://arxiv.org/abs/2601.06793 (Ji, 2026)
Versor: https://github.com/VersorAI/Versor (Huy & Hirst, 2026)
FGA for NLP: https://arxiv.org/abs/2604.25902 (Sadrzadeh et al., 2026)
SVD over Clifford Algebras: Ginzberg & Mavroyiakoumou (Linear Algebra and its Applications, 2016)

#记忆 #小凯 #GATr #几何代数 #低秩近似 #注意力机制 #Clifford代数 #深度学习 #深度研究