问题:SVD 低秩分解,可能是错的?
2012年 AlexNet 之后,深度学习的主流参数化方式是「矩阵乘法」——密集矩阵、低秩近似、块对角矩阵。SVD 分解成了压缩神经网络的标配工具:把一个大矩阵 W 拆成 UΣVᵀ,扔掉小的奇异值,参数从 d² 降到 2dr。
但这个范式有一个隐含的假设:线性变换的最佳参数化方式是「秩约束的矩阵分解」。
NeurIPS 2025 的一篇论文提出了一个根本性质疑:如果线性变换的天然分解方式不是 SVD,而是几何代数中的 rotor 复合呢?
---
方向一:低秩近似的新思路
SVD 的问题在哪?
SVD 的几何解释是:旋转 → 缩放 → 旋转。三个步骤,U 和 V 负责旋转,Σ 负责缩放。
但这个分解是全局的——它作用于整个 d×d 空间。当 d=4096(LLM 常见维度)时,U 和 V 各需要 d² 参数。低秩近似通过截断来压缩,但截断掉的奇异值对应的信息并非不重要,只是「在 Frobenius 范数意义下不重要」。
更关键的是,SVD 是静态的。它把矩阵当成一个黑盒数字阵列,忽略了这些数字可能编码的几何结构。
Clifford 代数的视角:线性变换 = 有向平面的复合
Clifford 代数(几何代数)的核心洞察:线性变换可以分解为bivector(二重向量,即有向平面)的复合。
想象一个旋转。三维空间中的任意旋转都可以表示为绕某个轴的转动——而这个轴垂直于一个平面。这个平面就是 bivector。多个旋转的复合 = 多个 bivector 的指数映射相乘。
NeurIPS 2025「Composing Linear Layers from Irreducibles」的核心结果:
> 线性层可以表示为 bivector(编码有向平面的几何对象)的复合,通过 rotor sandwich product 作用于输入 multivector 的局部子空间。这只需要 O(log²d) 参数,相比密集矩阵的 O(d²)。
具体实现:
- 将输入向量嵌入到 Clifford 代数的 multivector 空间
- 用 rotor sandwich product ψᵣ,ₛ(x) ≜ rxs† 做变换,其中 r, s ∈ Spin(n)
- 每个 rotor 由少量 bivector 系数参数化
- 通过可微的不变分解算法(Krylov 子空间启发的迭代提取)将 bivector 映射到 rotor
- 原始密集层:1-4M 参数
- Rotor 层:约 1000 参数(width=2, depth=3)
- 性能:匹配 block-Hadamard 和低秩近似(LR1 需要 3-5× 参数)
RotorQuant:从理论到生产的落地
RotorQuant 是 rotor-based 参数化的工程化版本,目标更具体:KV cache 压缩。
传统方法(TurboQuant)用一个 dense d×d 随机正交旋转矩阵来 decorrelate KV cache 向量,然后量化。这需要 16,384 FMAs(d=128 时)。
RotorQuant 的洞察: > 不需要 full-rank d×d 变换来 decorrelate。小正交块就够了,因为真实 attention 向量生活在低秩流形上。
实现: 1. 把 d 维 KV 向量分成每组 3 维的 chunk(d=128 → 43 组) 2. 每组嵌入为 Cl(3,0) multivector(8 个分量) 3. 每组应用 rotor sandwich product RxR̃ 来 decorrelate 4. 每个 rotor 只有 4 个非零分量(scalar + 3 bivectors)
对比数据:
| 方法 | FMAs (d=128) | 参数量 | PPL | 状态 |
|---|---|---|---|---|
| TurboQuant | 16,384 | 16,384 | 基准 | 生产 |
| RotorQuant | ~2,400 | 372 | 匹配 | 研究 |
| IsoQuant (四元数 4D) | 512 | 128 | 更好 | 生产 (llama.cpp) |
| PlanarQuant (Givens 2D) | 256 | 128 | 更好 | 生产 (llama.cpp) |
这是工程实用主义对代数纯粹主义的胜利:Clifford 代数提供了洞察,但最终有效的实现是简化的版本。
---
方向二:注意力机制的重思考
标准 attention 的「标量贫困」
标准 transformer 的 attention 计算:
> attention(Q, K, V) = softmax(QKᵀ/√d) V
Q 和 K 的交互被压缩成一个标量 dot product。一个 d 维向量之间的复杂高维关系,被坍缩成一个数字。
CliffordNet 的批评很尖锐: > 这种操作本质上是 lossy 的:它丢弃了特征空间中固有的方向性和结构性信息(bivector 组件)。因此 Transformer 必须依赖厚重、参数低效的 FFN 来重建和处理这些丢失的特征维度。
换句话说:attention 把高维几何关系压成标量,然后 FFN 再花大量参数把它膨胀回来。 这不是高效,是浪费。
GATr 的答案:multivector attention
Qualcomm AI Research 的 GATr(NeurIPS 2023)是第一个在 PGA(Projective Geometric Algebra)中构建完整 transformer 的架构。
它的 attention 不是标量的,而是multivector 的:
三个信息源的组合: 1. Multivector inner product —— 标量部分,类似标准 dot product 2. Distance-aware nonlinear features —— 基于位置/距离的几何特征 3. Auxiliary scalars —— 额外的标量通道处理非几何信息
关键设计:所有内部状态都是 multivector(包含 scalar + vector + bivector + ...),attention 计算保留 grade 结构,通过 gated nonlinearities 在不同 grade 之间交互。
结果: 在 n-body 模拟和动脉血管分割等几何任务上,用 1/10 参数达到或超过 SE(3)-Transformer 和 SEGNN。
Versor:rotor-based 序列建模
Huy and Hirst (2026) 的 Versor 更进一步:在 Conformal GA (Cl(4,1)) 中构建序列模型,temporal state updates 通过 rotor-based 变换完成。
核心设计:
- Geometric Product Attention (GPA) —— 用几何 product 替代 dot product
- RecursiveRotorAccumulator —— rotor-based 序列 pooling
- Conformal lift —— 把 4D 点提升到 Cl(4,1) multivector
CliffordNet:No-FFN 的启示
CliffordNet 最反直觉的发现:不需要 FFN。
在 CIFAR-100 上,CliffordNet-Nano(无 FFN)达到 76.41%,超过 ShuffleNetV2 的 74.60%。CliffordNet-Fast(无 FFN)达到 77.63%,大幅超过 MobileNetV2 的 70.90%。
为什么?
Algebraic Density(代数密度):
- 标准 attention 的 softmax 后主要是线性聚合,需要 heavy FFN(ratio=4)来提供特征变换能力
- Clifford 几何 product 内部包含乘法二阶项(bivector u∧v 和 scalar u⊙v)
- 结合非线性 GGR gating,交互层本身就是强大的函数逼近器
- FFN 通过大矩阵乘法做 dense、无差别的通道混合
- Shifted Geometric Product 基于特征空间的环拓扑做结构化混合
- 几何约束的混合比暴力连接更样本高效
FGA:Attention 作为几何交互的理论框架
Sadrzadeh 等人 (2026) 的「Toward a Functional Geometric Algebra for Natural Language Semantics」提出了更激进的观点:
> 当前 attention 机制丢弃的 bivector 组件,正是组合语义所需的关系方向信息。
Multi-head attention = 隐式子空间选择:
- BERTology 文献证明不同 attention head 专精不同语言功能(句法依赖、共指、语义角色、位置/话语特征)
- 这些专精在结构上等价于 Clifford 代数的 grade 分解:每个 head 操作在学习的投影子空间中
- Multi-head 机制从不同方向的子空间组合信息,就像 Clifford 代数按不同 grade 和方向分解
- 当前 transformer:contextual modulation 通过学习的线性投影(Q, K, V 矩阵)
- FGA 提议:contextual modulation 通过 rotor sandwich —— grade-preserving、可逆的变换
- Rotor 保持 norm 和 grade;projection 不保持
- Rotor 可逆;projection 不可逆
---
更大的图景:几何深度学习的新范式
三条演进路线
1. 低秩替代(从 SVD 到 Rotor)
- SVD:O(dr) 参数,秩约束,静态分解
- Rotor:O(log²d) 参数,几何约束,动态复合
- 关键洞察:不需要 full-rank 变换,小正交块在低秩流形上足够
- 标准:dot product → scalar → softmax → 线性聚合 → FFN 重建
- GA-based:geometric product → multivector → grade-aware gating → 内部化非线性
- 关键洞察:保留 bivector 组件 = 保留关系方向信息,不需要 FFN 事后补偿
- RNN:隐状态通过门控循环更新
- Transformer:通过 attention 聚合全局信息
- Versor:通过 rotor 演化更新状态,几何 product 作为原生计算原语
挑战与限制
1. 计算效率 Clifford 操作的计算复杂度高于标准矩阵乘法。CliffordNet 承认:"Baseline CNNs benefit from mature cuDNN kernel optimizations." GA 操作需要 custom kernel 才能释放全部潜力。
2. 维度限制 Rotor-based 层要求维度是 2 的幂次(因为 Clifford 代数维度 = 2ⁿ)。对于任意 din/dout,需要通过多个 rotor-sandwich 模块组合,增加架构复杂性。
3. 可解释性门槛 Multivector 的 grade 分解(scalar + vector + bivector + trivector)提供了新的可解释性维度,但也增加了理解门槛。不像 attention weight 那样直观。
4. 训练稳定性 Rotor sandwich product 是 grade-preserving 的,需要额外的 permutation 和 normalization 来 enable cross-grade interaction。论文报告 normalization 对训练稳定性很重要。
---
谁该关注?
值得关注:
- LLM 效率优化研究者(KV cache 压缩、参数高效微调)
- 几何深度学习从业者(3D vision、物理模拟、分子动力学)
- 对「神经网络能否更结构化」感兴趣的理论研究者
- 寻找超越 transformer 的新架构的探索者
- 需要立即生产部署的场景(GA-based 架构的系统级优化还在早期)
- 非几何/非结构化数据为主的任务(GA 的优势在几何数据上最显著)
- 对训练基础设施要求极简的项目(需要 torch_ga 或 custom kernel)
结论
GATr 及其后继者(Versor、CliffordNet、RotorQuant、FGA)正在构建一个统一的框架:用几何代数的语言重新描述深度学习的基础操作。
核心洞察有三:
1. 低秩近似可以被 rotor 复合替代 —— 不是通过截断奇异值,而是通过叠加有向平面的旋转。参数从 O(dr) 降到 O(log²d)。
2. Attention 的标量贫困可以被 multivector 丰富性治愈 —— 不是把高维关系压成标量再膨胀回来,而是用 geometric product 保留完整的代数结构。
3. FFN 可以被内部化的非线性替代 —— 几何 product 的二阶项(bivector + scalar)本身提供了足够的变换能力,不需要外部 MLP。
这些洞察目前还处于「可行性验证」阶段——NeurIPS 2025 的论文明确说:"It is not a drop-in replacement yet." 但方向已经清晰:深度学习的下一个范式转移,可能不是更大的模型,而是更结构化的表示。
毕竟,如果大自然用几何代数描述物理(从 Maxwell 方程到 Dirac 方程),也许神经网络也应该如此。
---
核心信息源
- GATr: https://github.com/Qualcomm-AI-research/geometric-algebra-transformer (Brehmer et al., NeurIPS 2023)
- Composing Linear Layers from Irreducibles: https://arxiv.org/abs/2507.11688 (Pence et al., NeurIPS 2025)
- RotorQuant: https://github.com/scrya-com/rotorquant (scrya, 2026)
- CliffordNet: https://arxiv.org/abs/2601.06793 (Ji, 2026)
- Versor: https://github.com/VersorAI/Versor (Huy & Hirst, 2026)
- FGA for NLP: https://arxiv.org/abs/2604.25902 (Sadrzadeh et al., 2026)
- SVD over Clifford Algebras: Ginzberg & Mavroyiakoumou (Linear Algebra and its Applications, 2016)