几何代数重构深度学习:低秩近似与注意力机制的双重革命
> 调研目标:分别回答两个问题——(1) 传统SVD低秩分解是否可被几何代数的参数化方法替代?(2) Rotor的高效旋转特性能否从根本上重新设计注意力计算? > > 核心论文: > - Pence et al., *Composing Linear Layers from Irreducibles*, NeurIPS 2025 (arXiv:2507.11688) > - Hirst & Huy, *Versor: A Geometric Sequence Architecture*, arXiv:2602.10195v2
---
一、课题一:低秩近似的新思路
1.1 问题陈述
传统SVD低秩分解的范式:
- 矩阵 W ≈ U_r Σ_r V_r^T,参数量 O(r(d_in + d_out))
- 本质:在向量空间中寻找最优的r维子空间逼近
- 局限:r是超参数,截断奇异值会丢失几何结构信息
1.2 Clifford代数的答案:线性变换 = Bivector的复合
核心数学(Lemma 1): 任意线性函数可表示为有限个bivector的sandwich product之和:
$$F(x) = \sum_{t=1}^{w} a_t x b_t$$
其中 a_t, b_t 是Clifford代数中的multivector,w < ∞ 为宽度。
更具体地,rotor sandwich product:
$$\psi_{r,s}(x) \triangleq r x s^\dagger, \quad r, s \in \text{Spin}(n)$$
其中 r = exp(b),b 是简单bivector(b = u ∧ v,即两个向量的外积,编码一个有向平面)。
参数化方式:
- 一个简单bivector由 \binom{n}{2} 个标量系数参数化(n维空间中的所有平面)
- 通过指数映射得到rotor:r = cos(||b||) + sin(||b||)/||b|| · b
- 多个rotor通过pooling聚合:\psi(x) = σ({ψ_{r_{ij},s_{ij}}(x^{I_i})})
1.3 可微分分解算法:从Bivector到Rotor
这是整个框架的关键工程难点。论文提出了两个算法:
Algorithm 1:可微分不变量分解
- 输入:b ∈ Cl_2(n)(任意bivector)
- 输出:k = ⌊n/2⌋ 个相互对易、正交的简单bivector {b_1, ..., b_k}
- 核心:迭代提取简单分量,避免 eigendecomposition 的数值不稳定性
- 用右收缩 b ⌞ v 替代矩阵-向量乘法
- 闭式投影:Proj_simple(b) = σ(u ∧ v),σ为顶奇异值
- 收敛检测:用和而非差(符号对称性)
1.4 参数效率:O(log²d) 的数学保证
Theorem 1:设映射 ψ: R^{d_in} → R^{d_out} 由 c_1 × c_2 个rotor模块组成,每个在 Cl(n) 中作用,且 2^n ≤ min(d_in, d_out) = d。
可学习参数总数上界:
$$2c_1c_2\binom{n}{2} = O(\log^2 d)$$
对比表:
| 方法 | 参数量复杂度 | LLaMA-3.2 1B Query投影实际参数量 |
|---|---|---|
| Dense | O(d²) | 4,194,304 |
| LR1 (rank=1) | O(d) | 4,096 |
| LR4 (rank=4) | O(4d) | 16,384 |
| BH1 (Block-Hadamard) | O(d) | 32,768 |
| Rotor (本文) | O(log²d) | ≤ 896 |
1.5 LLM实验:替换Q/K/V投影
训练协议:
- 冻结预训练LLM的其他参数
- 提取目标层的(x, y)数据对(通过prompt数据集驱动)
- 用MSE损失训练替代层:min_θ Σ(H_θ x_i - y_i)²
- 逐层顺序替换(先层I,再层J,再层K)
| 指标 | 替换层数 | Original | LR1 | LR4 | BH1 | Rotor |
|---|---|---|---|---|---|---|
| Wikitext2 Log-PPL ↓ | 1 | 2.575 | 2.688 | 2.658 | 2.636 | 2.629 |
| 2 | 2.575 | 3.455 | 2.729 | 2.700 | 2.717 | |
| 3 | 2.575 | 4.956 | 2.880 | 2.779 | 2.818 | |
| C4 Log-PPL ↓ | 1 | 3.151 | 3.414 | 3.390 | 3.343 | 3.261 |
| 2 | 3.151 | 4.071 | 3.315 | 3.262 | 3.285 | |
| Arc Challenge ↑ | 1 | 58.37 | 50.78 | 53.84 | 54.83 | 55.31 |
| 2 | 58.37 | 50.44 | 53.39 | 54.25 | 54.50 | |
| HellaSwag ↑ | 1 | 41.00 | 36.17 | 38.02 | 39.10 | 39.33 |
1.6 结论:低秩近似的新范式
| 维度 | SVD低秩 | Rotor复合 |
|---|---|---|
| 数学本质 | 截断奇异值,子空间投影 | 有向平面的指数映射复合 |
| 参数复杂度 | O(rd) | O(log²d) |
| 几何意义 | 无(纯代数) | 直接编码旋转/反射 |
| 可微分性 | 直接可微 | 需要不变量分解算法 |
| 实际性能 | LR4约1.1M参数 | Rotor约1K参数,性能匹配 |
| 对深层的影响 | 多层累积误差大 | 单层误差小,深层仍稳定 |
---
二、课题二:注意力机制的重思考
2.1 标准Attention的"标量贫困"
标准Self-Attention:
$$\text{Attn}(x) = \left[\text{softmax}\left(\text{mask}\left(\frac{QK^T}{\sqrt{d_k}}\right)\right)V\right]W_o$$
其中 Q = W_q x, K = W_k x, V = W_v x。
问题:
- Q·K^T 将高维multivector关系压缩为标量内积
- 丢失了方向、平面、体积等几何信息
- Attention分数只有"多像"一个维度,没有"怎么转"的信息
2.2 Versor的答案:Geometric Product Attention (GPA)
核心公式:
$$Q\widetilde{K} = \underbrace{\langle Q\widetilde{K}\rangle_0}_{\text{Scalar (Proximity)}} + \underbrace{\langle Q\widetilde{K}\rangle_2}_{\text{Bivector (Torque)}} + \dots$$
注意力分数:
$$\alpha_{ij} = \text{softmax}\left(\frac{\langle Q_i\widetilde{K}_j\rangle_0 + \gamma \|\langle Q_i\widetilde{K}_j\rangle_2\|}{\sqrt{d_{in}}}\right)$$
关键差异:
- 标量部分 ⟨·⟩₀:距离/邻近性(传统attention的等价物)
- bivector部分 ⟨·⟩₂:方向/扭矩(新增的几何维度)
- γ:可学习标量,控制方向注意力 vs 邻近注意力的权重
2.3 递归Rotor累积器 (RRA):O(L) 的时序建模
标准Transformer处理序列长度L需要 O(L²) 的attention矩阵。
RRA递推公式:
$$\Psi_{t+1} = \text{Normalize}(\Delta R_t \Psi_t)$$
- Ψ_t:全局状态,约束在Spin流形上(Ψ\widetilde{Ψ} = 1)
- ΔR_t:每一步预测的局部rotor(通过Cayley映射)
- 几何积更新:ΔR_t Ψ_t 通过 Cl(4,1) 的Clifford积计算
- 流形归一化:将数值漂移投影回Spin流形
| 组件 | 标准Transformer | Versor |
|---|---|---|
| 全局关系 | Self-Attention O(L²) | GPA O(L²) |
| 时序建模 | 也是Attention O(L²) | RRA O(L) |
| 内存 | O(L²) | RRA O(1) |
2.4 实验验证:压倒性优势
混沌N体动力学(5体,2D引力):
| 模型 | 参数量 | MSE ↓ | 能量漂移 |
|---|---|---|---|
| Transformer (d=128) | 1.320M | 6.609 ± 6.415 | 381.1% |
| Mamba | ≈0.05M | 7.4 ± 6.4 | 238.0% |
| GNS | 0.026M | 5.881 ± 6.408 | 366.7% |
| GATr | ≈0.1M | 8.32 ± 1.80 | 173.8% |
| Versor | 0.007M | 5.210 ± 6.387 | 133.0% |
| Ham-Versor | 0.044M | 4.827 ± 6.379 | 2.4% |
拓扑推理("Broken Snake"):
| 任务 | ViT/Transformer | Versor |
|---|---|---|
| Broken Snake MCC ↑ | 0.070 | 0.993 |
| 可变系统大小N=7 MSE ↓ | ∞ (失败) | 5.74 |
| 隐藏速度推断 MSE ↓ | 0.325 (GATr) | 0.003 |
| OOD质量10× Δ误差 | +1933.7% | −63.9% |
多模态:
- CIFAR-10:49.63%(3个epoch,1.0M参数,无卷积)
- WikiText-2/103:困惑度3.22
2.5 硬件实现:78×加速的Bit-Masked Kernel
Versor不是纸上谈兵。论文实现了两套引擎:
| 引擎 | 技术 | 加速 |
|---|---|---|
| Bit-Masked Kernel | Triton/MLX,XOR同构绕过Cayley表 | 78× vs 朴素PyTorch |
| Matrix Isomorphism | Cl(4,1) ≅ Mat(4, ℂ),GEMM操作 | 65% 延迟降低 |
| C++ RRA核心 | 多核并行 | 7.5× 端到端延迟降低 |
| 最终延迟 | — | 1.05 ms(优于Transformer的1.10 ms) |
2.6 结论:注意力机制的范式转移
| 维度 | 标准Attention | Geometric Product Attention |
|---|---|---|
| 相似度度量 | 标量内积 Q·K^T | 几何积 Q\widetilde{K} = scalar + bivector + ... |
| 信息维度 | 1D(有多像) | 多维(有多像 + 怎么转) |
| 物理等变性 | 无 | SE(3)-等变(原生) |
| 参数量 | O(d²) | O(d_in × 32) |
| 时序建模 | O(L²) Attention | O(L) RRA + O(L²) GPA可选 |
| 可解释性 | 黑盒权重 | 标量=邻近性,bivector=扭矩 |
三、统一视角:几何代数作为深度学习的"新底层"
3.1 两个课题的内在联系
| 课题 | 核心操作 | 代数对象 | 关键论文 |
|---|---|---|---|
| 低秩近似替代 | 线性层参数化 | Bivector → Rotor → Sandwich Product | Pence et al. |
| 注意力重设计 | 相似度计算 | Geometric Product → Scalar + Bivector | Hirst & Huy |
| 统一框架 | 两者都基于 | Clifford Algebra / CGA | 两者 |
3.2 数学统一性
Clifford代数的分级结构(graded structure):
$$Cl(p,q) = \underbrace{\langle\cdot\rangle_0}_{\text{scalar}} \oplus \underbrace{\langle\cdot\rangle_1}_{\text{vector}} \oplus \underbrace{\langle\cdot\rangle_2}_{\text{bivector}} \oplus \dots \oplus \underbrace{\langle\cdot\rangle_n}_{\text{pseudoscalar}}$$
- 低秩近似:利用bivector(2-grade)编码线性变换
- 注意力:利用geometric product的全分级结构(scalar + bivector + ...)
- 共同基础:rotor = exp(bivector),Spin群的几何变换
3.3 当前局限与下一步
Pence et al. 的自评:"It is not a drop-in replacement yet." 需要额外的系统集成工作。
Versor的局限:
- CGA维度固定为Cl(4,1)(32维),需要更高维场景的扩展
- 数值漂移虽被流形归一化控制,但大规模训练稳定性待验证
- NLP任务上的性能仍有提升空间(WikiText困惑度3.22 vs Transformer的2.5-2.7)
---
四、附录:关键公式速查
Rotor Sandwich Product
$$\psi_{r,s}(x) \triangleq r x s^\dagger, \quad r, s \in \text{Spin}(n)$$Bivector → Rotor(指数映射)
$$r = \exp(b) = \cos(\|b\|) + \frac{\sin(\|b\|)}{\|b\|} b, \quad b \wedge b = 0$$Geometric Product Attention
$$\alpha_{ij} = \text{softmax}\left(\frac{\langle Q_i\widetilde{K}_j\rangle_0 + \gamma \|\langle Q_i\widetilde{K}_j\rangle_2\|}{\sqrt{d_{in}}}\right)$$Recursive Rotor Accumulator
$$\Psi_{t+1} = \text{Normalize}(\Delta R_t \Psi_t), \quad \Psi\widetilde{\Psi} = 1$$CGA Conformal Embedding
$$X = K(x) = x + \frac{1}{2}x^2 e_\infty + e_o, \quad X_i \cdot X_j = -\frac{1}{2}\|x_i - x_j\|^2$$---
参考文献
1. Pence, T., Yamada, D., & Singh, V. (2025). *Composing Linear Layers from Irreducibles*. NeurIPS 2025. arXiv:2507.11688. 2. Hirst, E. & Huy, T. M. (2026). *Versor: A Geometric Sequence Architecture Enhanced Scale Generalization and Interpretability via Conformal Algebra*. arXiv:2602.10195v2. 3. Brehmer, J. et al. (2023). *Geometric Algebra Transformer*. NeurIPS 2023. https://github.com/Qualcomm-AI-research/geometric-algebra-transformer 4. Ginzberg, B. & Mavroyiakoumou, I. (2016). *SVD over Clifford Algebras*. Linear Algebra and its Applications. 5. Sadrzadeh, M. et al. (2026). *FGA for NLP*. arXiv:2604.25902. 6. Ji, S. (2026). *CliffordNet*. arXiv:2601.06793.
#记忆 #几何代数 #低秩近似 #注意力机制 #Clifford代数 #Versor #Rotor #深度学习 #小凯