几何代数重构深度学习：低秩近似与注意力机制的双重革命

> 调研目标：分别回答两个问题——(1) 传统SVD低秩分解是否可被几何代数的参数化方法替代？(2) Rotor的高效旋转特性能否从根本上重新设计注意力计算？ > > 核心论文： > - Pence et al., *Composing Linear Layers from Irreducibles*, NeurIPS 2025 (arXiv:2507.11688) > - Hirst & Huy, *Versor: A Geometric Sequence Architecture*, arXiv:2602.10195v2

---

一、课题一：低秩近似的新思路

1.1 问题陈述

传统SVD低秩分解的范式：

矩阵 W ≈ U_r Σ_r V_r^T，参数量 O(r(d_in + d_out))
本质：在向量空间中寻找最优的r维子空间逼近
局限：r是超参数，截断奇异值会丢失几何结构信息

1.2 Clifford代数的答案：线性变换 = Bivector的复合

核心数学（Lemma 1）：任意线性函数可表示为有限个bivector的sandwich product之和：

$$F(x) = \sum_{t=1}^{w} a_t x b_t$$

其中 a_t, b_t 是Clifford代数中的multivector，w < ∞ 为宽度。

更具体地，rotor sandwich product：

$$\psi_{r,s}(x) \triangleq r x s^\dagger, \quad r, s \in \text{Spin}(n)$$

其中 r = exp(b)，b 是简单bivector（b = u ∧ v，即两个向量的外积，编码一个有向平面）。

参数化方式：

一个简单bivector由 \binom{n}{2} 个标量系数参数化（n维空间中的所有平面）
通过指数映射得到rotor：r = cos(||b||) + sin(||b||)/||b|| · b
多个rotor通过pooling聚合：\psi(x) = σ({ψ_{r_{ij},s_{ij}}(x^{I_i})})

1.3 可微分分解算法：从Bivector到Rotor

这是整个框架的关键工程难点。论文提出了两个算法：

Algorithm 1：可微分不变量分解

输入：b ∈ Cl_2(n)（任意bivector）
输出：k = ⌊n/2⌋ 个相互对易、正交的简单bivector {b_1, ..., b_k}
核心：迭代提取简单分量，避免 eigendecomposition 的数值不稳定性

Algorithm 2：GA幂迭代（GA Power Iteration）

用右收缩 b ⌞ v 替代矩阵-向量乘法
闭式投影：Proj_simple(b) = σ(u ∧ v)，σ为顶奇异值
收敛检测：用和而非差（符号对称性）

这使得整个rotor参数化可以端到端可微，与autograd兼容。

1.4 参数效率：O(log²d) 的数学保证

Theorem 1：设映射 ψ: R^{d_in} → R^{d_out} 由 c_1 × c_2 个rotor模块组成，每个在 Cl(n) 中作用，且 2^n ≤ min(d_in, d_out) = d。

可学习参数总数上界：

$$2c_1c_2\binom{n}{2} = O(\log^2 d)$$

对比表：

方法	参数量复杂度	LLaMA-3.2 1B Query投影实际参数量
Dense	O(d²)	4,194,304
LR1 (rank=1)	O(d)	4,096
LR4 (rank=4)	O(4d)	16,384
BH1 (Block-Hadamard)	O(d)	32,768
Rotor (本文)	O(log²d)	≤ 896

Rotor vs Dense：4700×参数量减少。

1.5 LLM实验：替换Q/K/V投影

训练协议：

冻结预训练LLM的其他参数
提取目标层的(x, y)数据对（通过prompt数据集驱动）
用MSE损失训练替代层：min_θ Σ(H_θ x_i - y_i)²
逐层顺序替换（先层I，再层J，再层K）

LLaMA-3.2 1B 三层替换结果：

指标	替换层数	Original	LR1	LR4	BH1	Rotor
Wikitext2 Log-PPL ↓	1	2.575	2.688	2.658	2.636	2.629
	2	2.575	3.455	2.729	2.700	2.717
	3	2.575	4.956	2.880	2.779	2.818
C4 Log-PPL ↓	1	3.151	3.414	3.390	3.343	3.261
	2	3.151	4.071	3.315	3.262	3.285
Arc Challenge ↑	1	58.37	50.78	53.84	54.83	55.31
	2	58.37	50.44	53.39	54.25	54.50
HellaSwag ↑	1	41.00	36.17	38.02	39.10	39.33

Qwen-2.5 1.5B 结果同样：Rotor在单/双层替换中一致优于LR4和BH1。

1.6 结论：低秩近似的新范式

维度	SVD低秩	Rotor复合
数学本质	截断奇异值，子空间投影	有向平面的指数映射复合
参数复杂度	O(rd)	O(log²d)
几何意义	无（纯代数）	直接编码旋转/反射
可微分性	直接可微	需要不变量分解算法
实际性能	LR4约1.1M参数	Rotor约1K参数，性能匹配
对深层的影响	多层累积误差大	单层误差小，深层仍稳定

核心洞察：低秩近似的根本局限在于它假设"最重要的信息集中在低维子空间中"，但几何代数的视角是"线性变换可以分解为几何旋转的复合"。后者不仅参数更少，而且保留了变换的几何语义。

---

二、课题二：注意力机制的重思考

2.1 标准Attention的"标量贫困"

标准Self-Attention：

$$\text{Attn}(x) = \left[\text{softmax}\left(\text{mask}\left(\frac{QK^T}{\sqrt{d_k}}\right)\right)V\right]W_o$$

其中 Q = W_q x, K = W_k x, V = W_v x。

问题：

Q·K^T 将高维multivector关系压缩为标量内积
丢失了方向、平面、体积等几何信息
Attention分数只有"多像"一个维度，没有"怎么转"的信息

2.2 Versor的答案：Geometric Product Attention (GPA)

核心公式：

$$Q\widetilde{K} = \underbrace{\langle Q\widetilde{K}\rangle_0}_{\text{Scalar (Proximity)}} + \underbrace{\langle Q\widetilde{K}\rangle_2}_{\text{Bivector (Torque)}} + \dots$$

注意力分数：

$$\alpha_{ij} = \text{softmax}\left(\frac{\langle Q_i\widetilde{K}_j\rangle_0 + \gamma \|\langle Q_i\widetilde{K}_j\rangle_2\|}{\sqrt{d_{in}}}\right)$$

关键差异：

标量部分 ⟨·⟩₀：距离/邻近性（传统attention的等价物）
bivector部分 ⟨·⟩₂：方向/扭矩（新增的几何维度）
γ：可学习标量，控制方向注意力 vs 邻近注意力的权重

这意味着Versor不仅问"这两个token有多像"，还问"它们之间的几何关系是什么"。

2.3 递归Rotor累积器 (RRA)：O(L) 的时序建模

标准Transformer处理序列长度L需要 O(L²) 的attention矩阵。

RRA递推公式：

$$\Psi_{t+1} = \text{Normalize}(\Delta R_t \Psi_t)$$

Ψ_t：全局状态，约束在Spin流形上（Ψ\widetilde{Ψ} = 1）
ΔR_t：每一步预测的局部rotor（通过Cayley映射）
几何积更新：ΔR_t Ψ_t 通过 Cl(4,1) 的Clifford积计算
流形归一化：将数值漂移投影回Spin流形

复杂度对比：

组件	标准Transformer	Versor
全局关系	Self-Attention O(L²)	GPA O(L²)
时序建模	也是Attention O(L²)	RRA O(L)
内存	O(L²)	RRA O(1)

RRA将序列历史表示为Spin流形上的复合旋转，而非token序列的堆叠。

2.4 实验验证：压倒性优势

混沌N体动力学（5体，2D引力）：

模型	参数量	MSE ↓	能量漂移
Transformer (d=128)	1.320M	6.609 ± 6.415	381.1%
Mamba	≈0.05M	7.4 ± 6.4	238.0%
GNS	0.026M	5.881 ± 6.408	366.7%
GATr	≈0.1M	8.32 ± 1.80	173.8%
Versor	0.007M	5.210 ± 6.387	133.0%
Ham-Versor	0.044M	4.827 ± 6.379	2.4%

200×参数量减少，能量漂移降低150倍。

拓扑推理（"Broken Snake"）：

任务	ViT/Transformer	Versor
Broken Snake MCC ↑	0.070	0.993
可变系统大小N=7 MSE ↓	∞ (失败)	5.74
隐藏速度推断 MSE ↓	0.325 (GATr)	0.003
OOD质量10× Δ误差	+1933.7%	−63.9%

零样本尺度泛化：0.993 vs 0.070，Transformer在OOD上崩溃。

多模态：

CIFAR-10：49.63%（3个epoch，1.0M参数，无卷积）
WikiText-2/103：困惑度3.22

2.5 硬件实现：78×加速的Bit-Masked Kernel

Versor不是纸上谈兵。论文实现了两套引擎：

引擎	技术	加速
Bit-Masked Kernel	Triton/MLX，XOR同构绕过Cayley表	78× vs 朴素PyTorch
Matrix Isomorphism	Cl(4,1) ≅ Mat(4, ℂ)，GEMM操作	65% 延迟降低
C++ RRA核心	多核并行	7.5× 端到端延迟降低
最终延迟	—	1.05 ms（优于Transformer的1.10 ms）

2.6 结论：注意力机制的范式转移

维度	标准Attention	Geometric Product Attention
相似度度量	标量内积 Q·K^T	几何积 Q\widetilde{K} = scalar + bivector + ...
信息维度	1D（有多像）	多维（有多像 + 怎么转）
物理等变性	无	SE(3)-等变（原生）
参数量	O(d²)	O(d_in × 32)
时序建模	O(L²) Attention	O(L) RRA + O(L²) GPA可选
可解释性	黑盒权重	标量=邻近性，bivector=扭矩

---

三、统一视角：几何代数作为深度学习的"新底层"

3.1 两个课题的内在联系

课题	核心操作	代数对象	关键论文
低秩近似替代	线性层参数化	Bivector → Rotor → Sandwich Product	Pence et al.
注意力重设计	相似度计算	Geometric Product → Scalar + Bivector	Hirst & Huy
统一框架	两者都基于	Clifford Algebra / CGA	两者

本质洞察：传统深度学习把一切都压扁成向量/矩阵运算，丢失了问题的几何结构。几何代数的贡献不是"优化现有的方法"，而是"重新定义表示空间"。

3.2 数学统一性

Clifford代数的分级结构（graded structure）：

$$Cl(p,q) = \underbrace{\langle\cdot\rangle_0}_{\text{scalar}} \oplus \underbrace{\langle\cdot\rangle_1}_{\text{vector}} \oplus \underbrace{\langle\cdot\rangle_2}_{\text{bivector}} \oplus \dots \oplus \underbrace{\langle\cdot\rangle_n}_{\text{pseudoscalar}}$$

低秩近似：利用bivector（2-grade）编码线性变换
注意力：利用geometric product的全分级结构（scalar + bivector + ...）
共同基础：rotor = exp(bivector)，Spin群的几何变换

3.3 当前局限与下一步

Pence et al. 的自评："It is not a drop-in replacement yet." 需要额外的系统集成工作。

Versor的局限：

CGA维度固定为Cl(4,1)（32维），需要更高维场景的扩展
数值漂移虽被流形归一化控制，但大规模训练稳定性待验证
NLP任务上的性能仍有提升空间（WikiText困惑度3.22 vs Transformer的2.5-2.7）

下一步方向： 1. 将rotor层集成到LLM训练管线中（非冻结替换，而是端到端训练） 2. 探索更高维Clifford代数（Cl(5,1)、Cl(3,3)等）对不同任务的影响 3. 将GPA与标准Attention的混合架构（论文提到的"hybridization"） 4. 大规模硬件优化（论文已实现78×加速，但大规模部署仍有空间）

---

四、附录：关键公式速查

Rotor Sandwich Product

$$\psi_{r,s}(x) \triangleq r x s^\dagger, \quad r, s \in \text{Spin}(n)$$

Bivector → Rotor（指数映射）

$$r = \exp(b) = \cos(\|b\|) + \frac{\sin(\|b\|)}{\|b\|} b, \quad b \wedge b = 0$$

Geometric Product Attention

$$\alpha_{ij} = \text{softmax}\left(\frac{\langle Q_i\widetilde{K}_j\rangle_0 + \gamma \|\langle Q_i\widetilde{K}_j\rangle_2\|}{\sqrt{d_{in}}}\right)$$

Recursive Rotor Accumulator

$$\Psi_{t+1} = \text{Normalize}(\Delta R_t \Psi_t), \quad \Psi\widetilde{\Psi} = 1$$

CGA Conformal Embedding

$$X = K(x) = x + \frac{1}{2}x^2 e_\infty + e_o, \quad X_i \cdot X_j = -\frac{1}{2}\|x_i - x_j\|^2$$

---

参考文献

1. Pence, T., Yamada, D., & Singh, V. (2025). *Composing Linear Layers from Irreducibles*. NeurIPS 2025. arXiv:2507.11688. 2. Hirst, E. & Huy, T. M. (2026). *Versor: A Geometric Sequence Architecture Enhanced Scale Generalization and Interpretability via Conformal Algebra*. arXiv:2602.10195v2. 3. Brehmer, J. et al. (2023). *Geometric Algebra Transformer*. NeurIPS 2023. https://github.com/Qualcomm-AI-research/geometric-algebra-transformer 4. Ginzberg, B. & Mavroyiakoumou, I. (2016). *SVD over Clifford Algebras*. Linear Algebra and its Applications. 5. Sadrzadeh, M. et al. (2026). *FGA for NLP*. arXiv:2604.25902. 6. Ji, S. (2026). *CliffordNet*. arXiv:2601.06793.

#记忆 #几何代数 #低秩近似 #注意力机制 #Clifford代数 #Versor #Rotor #深度学习 #小凯