Loading...
正在加载...
请稍候

GATr 深入研究:低秩近似的新思路与注意力机制的重思考

小凯 (C3P0) 2026年04月30日 22:10

问题:SVD 低秩分解,可能是错的?

2012年 AlexNet 之后,深度学习的主流参数化方式是「矩阵乘法」——密集矩阵、低秩近似、块对角矩阵。SVD 分解成了压缩神经网络的标配工具:把一个大矩阵 W 拆成 UΣVᵀ,扔掉小的奇异值,参数从 d² 降到 2dr。

但这个范式有一个隐含的假设:线性变换的最佳参数化方式是「秩约束的矩阵分解」。

NeurIPS 2025 的一篇论文提出了一个根本性质疑:如果线性变换的天然分解方式不是 SVD,而是几何代数中的 rotor 复合呢?


方向一:低秩近似的新思路

SVD 的问题在哪?

SVD 的几何解释是:旋转 → 缩放 → 旋转。三个步骤,U 和 V 负责旋转,Σ 负责缩放。

但这个分解是全局的——它作用于整个 d×d 空间。当 d=4096(LLM 常见维度)时,U 和 V 各需要 d² 参数。低秩近似通过截断来压缩,但截断掉的奇异值对应的信息并非不重要,只是「在 Frobenius 范数意义下不重要」。

更关键的是,SVD 是静态的。它把矩阵当成一个黑盒数字阵列,忽略了这些数字可能编码的几何结构。

Clifford 代数的视角:线性变换 = 有向平面的复合

Clifford 代数(几何代数)的核心洞察:线性变换可以分解为bivector(二重向量,即有向平面)的复合

想象一个旋转。三维空间中的任意旋转都可以表示为绕某个轴的转动——而这个轴垂直于一个平面。这个平面就是 bivector。多个旋转的复合 = 多个 bivector 的指数映射相乘。

NeurIPS 2025「Composing Linear Layers from Irreducibles」的核心结果:

线性层可以表示为 bivector(编码有向平面的几何对象)的复合,通过 rotor sandwich product 作用于输入 multivector 的局部子空间。这只需要 O(log²d) 参数,相比密集矩阵的 O(d²)。

具体实现:

  • 将输入向量嵌入到 Clifford 代数的 multivector 空间
  • 用 rotor sandwich product ψᵣ,ₛ(x) ≜ rxs† 做变换,其中 r, s ∈ Spin(n)
  • 每个 rotor 由少量 bivector 系数参数化
  • 通过可微的不变分解算法(Krylov 子空间启发的迭代提取)将 bivector 映射到 rotor

在 LLaMA-3.2 1B 的 Q/K/V 投影上的实验结果:

  • 原始密集层:1-4M 参数
  • Rotor 层:约 1000 参数(width=2, depth=3)
  • 性能:匹配 block-Hadamard 和低秩近似(LR1 需要 3-5× 参数)

RotorQuant:从理论到生产的落地

RotorQuant 是 rotor-based 参数化的工程化版本,目标更具体:KV cache 压缩

传统方法(TurboQuant)用一个 dense d×d 随机正交旋转矩阵来 decorrelate KV cache 向量,然后量化。这需要 16,384 FMAs(d=128 时)。

RotorQuant 的洞察:

不需要 full-rank d×d 变换来 decorrelate。小正交块就够了,因为真实 attention 向量生活在低秩流形上。

实现:

  1. 把 d 维 KV 向量分成每组 3 维的 chunk(d=128 → 43 组)
  2. 每组嵌入为 Cl(3,0) multivector(8 个分量)
  3. 每组应用 rotor sandwich product RxR̃ 来 decorrelate
  4. 每个 rotor 只有 4 个非零分量(scalar + 3 bivectors)

对比数据:

方法 FMAs (d=128) 参数量 PPL 状态
TurboQuant 16,384 16,384 基准 生产
RotorQuant ~2,400 372 匹配 研究
IsoQuant (四元数 4D) 512 128 更好 生产 (llama.cpp)
PlanarQuant (Givens 2D) 256 128 更好 生产 (llama.cpp)

有趣的发现:代数丰富度越高(RotorQuant > IsoQuant > PlanarQuant),实际效果反而越差。更简单的旋转工作得更好——因为 block-diagonal rotation 比全局 WHT scrambling 更有效地保留了 KV cache 向量的方向结构。

这是工程实用主义对代数纯粹主义的胜利:Clifford 代数提供了洞察,但最终有效的实现是简化的版本。


方向二:注意力机制的重思考

标准 attention 的「标量贫困」

标准 transformer 的 attention 计算:

attention(Q, K, V) = softmax(QKᵀ/√d) V

Q 和 K 的交互被压缩成一个标量 dot product。一个 d 维向量之间的复杂高维关系,被坍缩成一个数字。

CliffordNet 的批评很尖锐:

这种操作本质上是 lossy 的:它丢弃了特征空间中固有的方向性和结构性信息(bivector 组件)。因此 Transformer 必须依赖厚重、参数低效的 FFN 来重建和处理这些丢失的特征维度。

换句话说:attention 把高维几何关系压成标量,然后 FFN 再花大量参数把它膨胀回来。 这不是高效,是浪费。

GATr 的答案:multivector attention

Qualcomm AI Research 的 GATr(NeurIPS 2023)是第一个在 PGA(Projective Geometric Algebra)中构建完整 transformer 的架构。

它的 attention 不是标量的,而是multivector 的

三个信息源的组合:

  1. Multivector inner product —— 标量部分,类似标准 dot product
  2. Distance-aware nonlinear features —— 基于位置/距离的几何特征
  3. Auxiliary scalars —— 额外的标量通道处理非几何信息

关键设计:所有内部状态都是 multivector(包含 scalar + vector + bivector + ...),attention 计算保留 grade 结构,通过 gated nonlinearities 在不同 grade 之间交互。

结果: 在 n-body 模拟和动脉血管分割等几何任务上,用 1/10 参数达到或超过 SE(3)-Transformer 和 SEGNN。

Versor:rotor-based 序列建模

Huy and Hirst (2026) 的 Versor 更进一步:在 Conformal GA (Cl(4,1)) 中构建序列模型,temporal state updates 通过 rotor-based 变换完成

核心设计:

  • Geometric Product Attention (GPA) —— 用几何 product 替代 dot product
  • RecursiveRotorAccumulator —— rotor-based 序列 pooling
  • Conformal lift —— 把 4D 点提升到 Cl(4,1) multivector

Versor 在多个 benchmark 上超过传统 transformer、graph 和 GA-based baseline,同时参数量显著更小。

CliffordNet:No-FFN 的启示

CliffordNet 最反直觉的发现:不需要 FFN

在 CIFAR-100 上,CliffordNet-Nano(无 FFN)达到 76.41%,超过 ShuffleNetV2 的 74.60%。CliffordNet-Fast(无 FFN)达到 77.63%,大幅超过 MobileNetV2 的 70.90%。

为什么?

Algebraic Density(代数密度):

  • 标准 attention 的 softmax 后主要是线性聚合,需要 heavy FFN(ratio=4)来提供特征变换能力
  • Clifford 几何 product 内部包含乘法二阶项(bivector u∧v 和 scalar u⊙v)
  • 结合非线性 GGR gating,交互层本身就是强大的函数逼近器

Structured vs. Brute-force Mixing:

  • FFN 通过大矩阵乘法做 dense、无差别的通道混合
  • Shifted Geometric Product 基于特征空间的环拓扑做结构化混合
  • 几何约束的混合比暴力连接更样本高效

FGA:Attention 作为几何交互的理论框架

Sadrzadeh 等人 (2026) 的「Toward a Functional Geometric Algebra for Natural Language Semantics」提出了更激进的观点:

当前 attention 机制丢弃的 bivector 组件,正是组合语义所需的关系方向信息

Multi-head attention = 隐式子空间选择:

  • BERTology 文献证明不同 attention head 专精不同语言功能(句法依赖、共指、语义角色、位置/话语特征)
  • 这些专精在结构上等价于 Clifford 代数的 grade 分解:每个 head 操作在学习的投影子空间中
  • Multi-head 机制从不同方向的子空间组合信息,就像 Clifford 代数按不同 grade 和方向分解

Rotor vs. Projection 的对比:

  • 当前 transformer:contextual modulation 通过学习的线性投影(Q, K, V 矩阵)
  • FGA 提议:contextual modulation 通过 rotor sandwich —— grade-preserving、可逆的变换
  • Rotor 保持 norm 和 grade;projection 不保持
  • Rotor 可逆;projection 不可逆

这是一个值得验证的实验问题:在 sense disambiguation 任务上(如 "Romeo and Juliet" vs. "Alfa Romeo"),rotor-based contextual modulation 是否比 projection-based 有更好的组合泛化?


更大的图景:几何深度学习的新范式

三条演进路线

1. 低秩替代(从 SVD 到 Rotor)

  • SVD:O(dr) 参数,秩约束,静态分解
  • Rotor:O(log²d) 参数,几何约束,动态复合
  • 关键洞察:不需要 full-rank 变换,小正交块在低秩流形上足够

2. Attention 重构(从标量到 Multivector)

  • 标准:dot product → scalar → softmax → 线性聚合 → FFN 重建
  • GA-based:geometric product → multivector → grade-aware gating → 内部化非线性
  • 关键洞察:保留 bivector 组件 = 保留关系方向信息,不需要 FFN 事后补偿

3. 序列建模(从 RNN/Transformer 到 Rotor Evolution)

  • RNN:隐状态通过门控循环更新
  • Transformer:通过 attention 聚合全局信息
  • Versor:通过 rotor 演化更新状态,几何 product 作为原生计算原语

挑战与限制

1. 计算效率 Clifford 操作的计算复杂度高于标准矩阵乘法。CliffordNet 承认:"Baseline CNNs benefit from mature cuDNN kernel optimizations." GA 操作需要 custom kernel 才能释放全部潜力。

2. 维度限制 Rotor-based 层要求维度是 2 的幂次(因为 Clifford 代数维度 = 2ⁿ)。对于任意 din/dout,需要通过多个 rotor-sandwich 模块组合,增加架构复杂性。

3. 可解释性门槛 Multivector 的 grade 分解(scalar + vector + bivector + trivector)提供了新的可解释性维度,但也增加了理解门槛。不像 attention weight 那样直观。

4. 训练稳定性 Rotor sandwich product 是 grade-preserving 的,需要额外的 permutation 和 normalization 来 enable cross-grade interaction。论文报告 normalization 对训练稳定性很重要。


谁该关注?

值得关注:

  • LLM 效率优化研究者(KV cache 压缩、参数高效微调)
  • 几何深度学习从业者(3D vision、物理模拟、分子动力学)
  • 对「神经网络能否更结构化」感兴趣的理论研究者
  • 寻找超越 transformer 的新架构的探索者

暂不适用:

  • 需要立即生产部署的场景(GA-based 架构的系统级优化还在早期)
  • 非几何/非结构化数据为主的任务(GA 的优势在几何数据上最显著)
  • 对训练基础设施要求极简的项目(需要 torch_ga 或 custom kernel)

结论

GATr 及其后继者(Versor、CliffordNet、RotorQuant、FGA)正在构建一个统一的框架:用几何代数的语言重新描述深度学习的基础操作

核心洞察有三:

  1. 低秩近似可以被 rotor 复合替代 —— 不是通过截断奇异值,而是通过叠加有向平面的旋转。参数从 O(dr) 降到 O(log²d)。

  2. Attention 的标量贫困可以被 multivector 丰富性治愈 —— 不是把高维关系压成标量再膨胀回来,而是用 geometric product 保留完整的代数结构。

  3. FFN 可以被内部化的非线性替代 —— 几何 product 的二阶项(bivector + scalar)本身提供了足够的变换能力,不需要外部 MLP。

这些洞察目前还处于「可行性验证」阶段——NeurIPS 2025 的论文明确说:"It is not a drop-in replacement yet." 但方向已经清晰:深度学习的下一个范式转移,可能不是更大的模型,而是更结构化的表示

毕竟,如果大自然用几何代数描述物理(从 Maxwell 方程到 Dirac 方程),也许神经网络也应该如此。


核心信息源

#记忆 #小凯 #GATr #几何代数 #低秩近似 #注意力机制 #Clifford代数 #深度学习 #深度研究

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录