几何代数重构深度学习:低秩近似与注意力机制的双重革命
调研目标:分别回答两个问题——(1) 传统SVD低秩分解是否可被几何代数的参数化方法替代?(2) Rotor的高效旋转特性能否从根本上重新设计注意力计算?
核心论文:
- Pence et al., Composing Linear Layers from Irreducibles, NeurIPS 2025 (arXiv:2507.11688)
- Hirst & Huy, Versor: A Geometric Sequence Architecture, arXiv:2602.10195v2
一、课题一:低秩近似的新思路
1.1 问题陈述
传统SVD低秩分解的范式:
- 矩阵 W ≈ U_r Σ_r V_r^T,参数量 O(r(d_in + d_out))
- 本质:在向量空间中寻找最优的r维子空间逼近
- 局限:r是超参数,截断奇异值会丢失几何结构信息
1.2 Clifford代数的答案:线性变换 = Bivector的复合
核心数学(Lemma 1): 任意线性函数可表示为有限个bivector的sandwich product之和:
其中 a_t, b_t 是Clifford代数中的multivector,w < ∞ 为宽度。
更具体地,rotor sandwich product:
其中 r = exp(b),b 是简单bivector(b = u ∧ v,即两个向量的外积,编码一个有向平面)。
参数化方式:
- 一个简单bivector由 \binom{n}{2} 个标量系数参数化(n维空间中的所有平面)
- 通过指数映射得到rotor:r = cos(||b||) + sin(||b||)/||b|| · b
- 多个rotor通过pooling聚合:\psi(x) = σ({ψ_{r_{ij},s_{ij}}(x^{I_i})})
1.3 可微分分解算法:从Bivector到Rotor
这是整个框架的关键工程难点。论文提出了两个算法:
Algorithm 1:可微分不变量分解
- 输入:b ∈ Cl_2(n)(任意bivector)
- 输出:k = ⌊n/2⌋ 个相互对易、正交的简单bivector {b_1, ..., b_k}
- 核心:迭代提取简单分量,避免 eigendecomposition 的数值不稳定性
Algorithm 2:GA幂迭代(GA Power Iteration)
- 用右收缩 b ⌞ v 替代矩阵-向量乘法
- 闭式投影:Proj_simple(b) = σ(u ∧ v),σ为顶奇异值
- 收敛检测:用和而非差(符号对称性)
这使得整个rotor参数化可以端到端可微,与autograd兼容。
1.4 参数效率:O(log²d) 的数学保证
Theorem 1:设映射 ψ: R^{d_in} → R^{d_out} 由 c_1 × c_2 个rotor模块组成,每个在 Cl(n) 中作用,且 2^n ≤ min(d_in, d_out) = d。
可学习参数总数上界:
对比表:
| 方法 | 参数量复杂度 | LLaMA-3.2 1B Query投影实际参数量 |
|---|---|---|
| Dense | O(d²) | 4,194,304 |
| LR1 (rank=1) | O(d) | 4,096 |
| LR4 (rank=4) | O(4d) | 16,384 |
| BH1 (Block-Hadamard) | O(d) | 32,768 |
| Rotor (本文) | O(log²d) | ≤ 896 |
Rotor vs Dense:4700×参数量减少。
1.5 LLM实验:替换Q/K/V投影
训练协议:
- 冻结预训练LLM的其他参数
- 提取目标层的(x, y)数据对(通过prompt数据集驱动)
- 用MSE损失训练替代层:min_θ Σ(H_θ x_i - y_i)²
- 逐层顺序替换(先层I,再层J,再层K)
LLaMA-3.2 1B 三层替换结果:
| 指标 | 替换层数 | Original | LR1 | LR4 | BH1 | Rotor |
|---|---|---|---|---|---|---|
| Wikitext2 Log-PPL ↓ | 1 | 2.575 | 2.688 | 2.658 | 2.636 | 2.629 |
| 2 | 2.575 | 3.455 | 2.729 | 2.700 | 2.717 | |
| 3 | 2.575 | 4.956 | 2.880 | 2.779 | 2.818 | |
| C4 Log-PPL ↓ | 1 | 3.151 | 3.414 | 3.390 | 3.343 | 3.261 |
| 2 | 3.151 | 4.071 | 3.315 | 3.262 | 3.285 | |
| Arc Challenge ↑ | 1 | 58.37 | 50.78 | 53.84 | 54.83 | 55.31 |
| 2 | 58.37 | 50.44 | 53.39 | 54.25 | 54.50 | |
| HellaSwag ↑ | 1 | 41.00 | 36.17 | 38.02 | 39.10 | 39.33 |
Qwen-2.5 1.5B 结果同样:Rotor在单/双层替换中一致优于LR4和BH1。
1.6 结论:低秩近似的新范式
| 维度 | SVD低秩 | Rotor复合 |
|---|---|---|
| 数学本质 | 截断奇异值,子空间投影 | 有向平面的指数映射复合 |
| 参数复杂度 | O(rd) | O(log²d) |
| 几何意义 | 无(纯代数) | 直接编码旋转/反射 |
| 可微分性 | 直接可微 | 需要不变量分解算法 |
| 实际性能 | LR4约1.1M参数 | Rotor约1K参数,性能匹配 |
| 对深层的影响 | 多层累积误差大 | 单层误差小,深层仍稳定 |
核心洞察:低秩近似的根本局限在于它假设"最重要的信息集中在低维子空间中",但几何代数的视角是"线性变换可以分解为几何旋转的复合"。后者不仅参数更少,而且保留了变换的几何语义。
二、课题二:注意力机制的重思考
2.1 标准Attention的"标量贫困"
标准Self-Attention:
其中 Q = W_q x, K = W_k x, V = W_v x。
问题:
- Q·K^T 将高维multivector关系压缩为标量内积
- 丢失了方向、平面、体积等几何信息
- Attention分数只有"多像"一个维度,没有"怎么转"的信息
2.2 Versor的答案:Geometric Product Attention (GPA)
核心公式:
注意力分数:
关键差异:
- 标量部分 ⟨·⟩₀:距离/邻近性(传统attention的等价物)
- bivector部分 ⟨·⟩₂:方向/扭矩(新增的几何维度)
- γ:可学习标量,控制方向注意力 vs 邻近注意力的权重
这意味着Versor不仅问"这两个token有多像",还问"它们之间的几何关系是什么"。
2.3 递归Rotor累积器 (RRA):O(L) 的时序建模
标准Transformer处理序列长度L需要 O(L²) 的attention矩阵。
RRA递推公式:
- Ψ_t:全局状态,约束在Spin流形上(Ψ\widetilde{Ψ} = 1)
- ΔR_t:每一步预测的局部rotor(通过Cayley映射)
- 几何积更新:ΔR_t Ψ_t 通过 Cl(4,1) 的Clifford积计算
- 流形归一化:将数值漂移投影回Spin流形
复杂度对比:
| 组件 | 标准Transformer | Versor |
|---|---|---|
| 全局关系 | Self-Attention O(L²) | GPA O(L²) |
| 时序建模 | 也是Attention O(L²) | RRA O(L) |
| 内存 | O(L²) | RRA O(1) |
RRA将序列历史表示为Spin流形上的复合旋转,而非token序列的堆叠。
2.4 实验验证:压倒性优势
混沌N体动力学(5体,2D引力):
| 模型 | 参数量 | MSE ↓ | 能量漂移 |
|---|---|---|---|
| Transformer (d=128) | 1.320M | 6.609 ± 6.415 | 381.1% |
| Mamba | ≈0.05M | 7.4 ± 6.4 | 238.0% |
| GNS | 0.026M | 5.881 ± 6.408 | 366.7% |
| GATr | ≈0.1M | 8.32 ± 1.80 | 173.8% |
| Versor | 0.007M | 5.210 ± 6.387 | 133.0% |
| Ham-Versor | 0.044M | 4.827 ± 6.379 | 2.4% |
200×参数量减少,能量漂移降低150倍。
拓扑推理("Broken Snake"):
| 任务 | ViT/Transformer | Versor |
|---|---|---|
| Broken Snake MCC ↑ | 0.070 | 0.993 |
| 可变系统大小N=7 MSE ↓ | ∞ (失败) | 5.74 |
| 隐藏速度推断 MSE ↓ | 0.325 (GATr) | 0.003 |
| OOD质量10× Δ误差 | +1933.7% | −63.9% |
零样本尺度泛化:0.993 vs 0.070,Transformer在OOD上崩溃。
多模态:
- CIFAR-10:49.63%(3个epoch,1.0M参数,无卷积)
- WikiText-2/103:困惑度3.22
2.5 硬件实现:78×加速的Bit-Masked Kernel
Versor不是纸上谈兵。论文实现了两套引擎:
| 引擎 | 技术 | 加速 |
|---|---|---|
| Bit-Masked Kernel | Triton/MLX,XOR同构绕过Cayley表 | 78× vs 朴素PyTorch |
| Matrix Isomorphism | Cl(4,1) ≅ Mat(4, ℂ),GEMM操作 | 65% 延迟降低 |
| C++ RRA核心 | 多核并行 | 7.5× 端到端延迟降低 |
| 最终延迟 | — | 1.05 ms(优于Transformer的1.10 ms) |
2.6 结论:注意力机制的范式转移
| 维度 | 标准Attention | Geometric Product Attention |
|---|---|---|
| 相似度度量 | 标量内积 Q·K^T | 几何积 Q\widetilde{K} = scalar + bivector + ... |
| 信息维度 | 1D(有多像) | 多维(有多像 + 怎么转) |
| 物理等变性 | 无 | SE(3)-等变(原生) |
| 参数量 | O(d²) | O(d_in × 32) |
| 时序建模 | O(L²) Attention | O(L) RRA + O(L²) GPA可选 |
| 可解释性 | 黑盒权重 | 标量=邻近性,bivector=扭矩 |
三、统一视角:几何代数作为深度学习的"新底层"
3.1 两个课题的内在联系
| 课题 | 核心操作 | 代数对象 | 关键论文 |
|---|---|---|---|
| 低秩近似替代 | 线性层参数化 | Bivector → Rotor → Sandwich Product | Pence et al. |
| 注意力重设计 | 相似度计算 | Geometric Product → Scalar + Bivector | Hirst & Huy |
| 统一框架 | 两者都基于 | Clifford Algebra / CGA | 两者 |
本质洞察:传统深度学习把一切都压扁成向量/矩阵运算,丢失了问题的几何结构。几何代数的贡献不是"优化现有的方法",而是"重新定义表示空间"。
3.2 数学统一性
Clifford代数的分级结构(graded structure):
- 低秩近似:利用bivector(2-grade)编码线性变换
- 注意力:利用geometric product的全分级结构(scalar + bivector + ...)
- 共同基础:rotor = exp(bivector),Spin群的几何变换
3.3 当前局限与下一步
Pence et al. 的自评:"It is not a drop-in replacement yet." 需要额外的系统集成工作。
Versor的局限:
- CGA维度固定为Cl(4,1)(32维),需要更高维场景的扩展
- 数值漂移虽被流形归一化控制,但大规模训练稳定性待验证
- NLP任务上的性能仍有提升空间(WikiText困惑度3.22 vs Transformer的2.5-2.7)
下一步方向:
- 将rotor层集成到LLM训练管线中(非冻结替换,而是端到端训练)
- 探索更高维Clifford代数(Cl(5,1)、Cl(3,3)等)对不同任务的影响
- 将GPA与标准Attention的混合架构(论文提到的"hybridization")
- 大规模硬件优化(论文已实现78×加速,但大规模部署仍有空间)
四、附录:关键公式速查
Rotor Sandwich Product
Bivector → Rotor(指数映射)
Geometric Product Attention
Recursive Rotor Accumulator
CGA Conformal Embedding
参考文献
- Pence, T., Yamada, D., & Singh, V. (2025). Composing Linear Layers from Irreducibles. NeurIPS 2025. arXiv:2507.11688.
- Hirst, E. & Huy, T. M. (2026). Versor: A Geometric Sequence Architecture Enhanced Scale Generalization and Interpretability via Conformal Algebra. arXiv:2602.10195v2.
- Brehmer, J. et al. (2023). Geometric Algebra Transformer. NeurIPS 2023. https://github.com/Qualcomm-AI-research/geometric-algebra-transformer
- Ginzberg, B. & Mavroyiakoumou, I. (2016). SVD over Clifford Algebras. Linear Algebra and its Applications.
- Sadrzadeh, M. et al. (2026). FGA for NLP. arXiv:2604.25902.
- Ji, S. (2026). CliffordNet. arXiv:2601.06793.
#记忆 #几何代数 #低秩近似 #注意力机制 #Clifford代数 #Versor #Rotor #深度学习 #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。