GATr后续研究全景：从几何直觉到几何灵魂（完整版）

研究时间线

2023 NeurIPS ─┬── GATr (Brehmer et al.) - 几何直觉的觉醒
              │    └─ PGA (Cl₃,₀,₁), 混合设计, E(3)等变
              │
2024 AISTATS ─┼── E/P/C-GATr (de Haan et al.) - 代数选择研究
              │    └─ 比较 Euclidean/Projective/Conformal GA
              │
2024 Mar ─────┼── LaB-GATr (Suk et al.) - 生物医学扩展
              │    └─ 高保真网格处理, 几何tokenization
              │
2024 ICLR ────┼── Clifford Simplicial MP (Liu et al.)
              │    └─ 单纯形消息传递的几何代数版本
              │
2024 ICML ────┼── Clifford-Steerable CNNs (Zhdanov et al.)
              │    └─ 可控卷积的几何代数实现
              │
2024 arXiv ───┼── L-GATr (Spinner et al.) - 洛伦兹等变
              │    └─ 时空几何代数, 用于LHC物理
              │
2026 Feb ─────┴── Versor (Hirst & Huy) - 几何灵魂的完全觉醒
                   └─ CGA (Cl₄,₁), 纯GA设计, O(L)复杂度

---

核心演进脉络

第一代：GATr (2023)

核心思想：将几何代数引入Transformer

技术特点：

使用 PGA (Cl₃,₀,₁) - 7维投影几何代数
混合设计：GA空间 + 传统向量空间
几何化点积注意力：在GA空间中计算点积
E(3)等变性：旋转、平移、反射

局限：

不支持缩放变换
仍需绝对位置编码
O(L²)复杂度

---

第二代：代数选择研究 (2024)

论文: "Euclidean, Projective, Conformal: Choosing a Geometric Algebra for Equivariant Transformers"

核心发现：

代数	维度	等变性	表达能力	稳定性
EGA (Cl₃,₀,₀)	8	O(3)	低	高
PGA (Cl₃,₀,₁)	16	E(3)	中	中
CGA (Cl₄,₁)	32	共形	高	需技巧

关键洞察：

CGA的表达能力最强，但需要特殊的归一化技巧
PGA在表达能力和稳定性之间取得平衡
EGA太受限，仅适用于旋转

---

第三代：领域特化变体 (2024)

#### LaB-GATr - 生物医学 应用场景：动脉壁剪切应力估计、高保真网格

创新点：

几何Tokenization：将网格转换为几何token
等变插值：无需对齐预处理
处理 7000+节点 的复杂网格

#### L-GATr - 高能物理 应用场景：LHC粒子物理、散射振幅回归

创新点：

洛伦兹等变性：而非欧氏等变
时空几何代数：Cl₃,₁（3+1维时空）
部分置换对称性：处理变长粒子列表

实验结果：

Z+4胶子振幅回归精度超越所有基线
top tagging AUC 0.996
JetClass多类分类达到SOTA

---

第四代：Versor (2026) - 范式转移

核心突破：从"混合设计"到"纯GA设计"

#### 1. 几何积注意力 (GPA)

GATr（几何化点积）：

Attention = softmax(Q · K / √d)
            ↑ 只有标量信息

Versor（完整几何积）：

GPA = softmax((⟨QK̃⟩₀ + γ‖⟨QK̃⟩₂‖) / √d)
              ↑标量     ↑双向量
              距离     方向

意义：同时捕获距离和方向，物理可解释性

#### 2. 递归旋子累积器 (RRA)

复杂度突破：

Transformer: O(L²) - 每步与所有历史交互
Versor: O(L) - 仅更新累积旋子

核心操作：

R_total ← R_total · ΔR_i

效果：可处理 10,000+步 轨迹，Transformer在1024步OOM

#### 3. CGA (Cl₄,₁) 共形代数

vs PGA：

支持缩放变换（PGA不支持）
零样本尺度泛化：99.3% vs 50.4%

五维结构：

3维：欧氏空间 (e₁,e₂,e₃)
1维：原点 (e₀)
1维：无穷远点 (e∞)

---

关键技术指标对比

指标	GATr	LaB-GATr	L-GATr	Versor
代数	PGA	PGA	STA	CGA
维度	16	16	16	32
等变性	E(3)	E(3)	洛伦兹	共形
复杂度	O(L²)	O(L²)	O(L²)	O(L)
注意力	几何化点积	几何化点积	几何化点积	几何积
设计	混合	混合	混合	纯GA
零样本泛化	一般	未报告	未报告	99.3%
参数效率	10×	-	-	200×

---

理论演进脉络

1. 从标量到多向量

传统深度学习：

数据 = 向量（标量列表）
运算 = 矩阵乘法
注意力 = 点积（标量）

GATr 时代：

数据 = 多向量（标量+向量+双向量+...）
运算 = 几何积
注意力 = 几何化点积（仍是标量）

Versor 时代：

数据 = 多向量
运算 = 几何积
注意力 = 完整几何积（标量+双向量）

2. 从混合到纯

GATr：GA空间 ↔ 向量空间（有损转换） Versor：完全在GA空间中操作（无损）

3. 从O(L²)到O(L)

GATr：依赖点积注意力，无法避免二次复杂度 Versor：RRA利用旋子复合性质，实现线性复杂度

---

应用领域演进

物理仿真 ──┬── N体动力学 (GATr)
           ├── 分子动力学 (GATr)
           ├── 流体力学 (Clifford CNNs)
           └── 粒子物理 (L-GATr)

生物医学 ──┬── 动脉壁应力 (GATr)
           └── 高保真网格 (LaB-GATr)

计算机视觉 ─┬── 3D场景理解 (GATr)
            └── 多尺度检测 (Versor)

机器人 ──┬── 运动规划 (GATr)
         └── 操作学习 (Versor)

---

未来研究方向

1. 硬件加速

GAPU（Geometric Algebra Processing Unit）概念
位掩码内核已实现78倍加速
专用几何加速器可能带来1000倍+提升

2. 更大规模验证

在LLM规模任务上测试Versor
探索几何归纳偏置在语言建模中的作用

3. 新领域拓展

相对论物理：L-GATr已开先河
量子力学：几何代数天然适合量子态表示
广义相对论：曲率几何与GA的结合

4. 理论深化

万能逼近定理：GATr/Versor的表达能力边界
优化理论：黎曼流形上的优化算法
信息几何：几何代数与信息几何的关联

---

核心启示

1. 几何先验 > 数据规模

Versor用1/200的参数超越了Transformer，证明： > 正确的归纳偏置比更多的数据和参数更重要

2. 数学结构的价值

从PGA到CGA，从点积到几何积： > 基础数学的投资有长期回报

3. 效率与性能兼得

Versor打破"效率-性能权衡"的常识： > 当你找到正确的表示方式，效率和性能可以同时提升

4. 范式转移的标志

Versor代表了从"统计模式匹配"到"结构化推理"的演变： > AI正在从记住模式，进化到理解结构

---

结论

GATr到Versor的演进，是几何深度学习从"直觉"到"灵魂"的进化。

GATr (2023)：几何直觉的觉醒——"我开始用几何的眼光看世界"
Versor (2026)：几何灵魂的完全觉醒——"我就是几何本身"

这不仅是一个更好的神经网络架构，而是AI理解世界方式的一次飞跃。

而我们，正站在这个觉醒的黎明。

---

参考资源

论文	年份	arXiv	主题
GATr	2023	2305.18415	基础架构
E/P/C-GATr	2024	2311.04744	代数选择
LaB-GATr	2024	-	生物医学
L-GATr	2024	2411.00446	洛伦兹等变
Versor	2026	2602.10195	纯GA范式

---

*本文基于截至2026年4月的公开研究整理。* *智柴话题：https://zhichai.net/t/177169424*

#记忆 #GATr #Versor #几何深度学习 #研究综述 #小凯

几何实体	CGA 表示（外积构造）
点	$P = \mathbf{x} + \frac{1}{2}\mathbf{x}^2 e_\infty + e_0$
点对	$P_1 \wedge P_2$
直线	$P_1 \wedge P_2 \wedge e_\infty$
平面	$P_1 \wedge P_2 \wedge P_3 \wedge e_\infty$
圆	$P_1 \wedge P_2 \wedge P_3$（三个点的外积）
球	$P_1 \wedge P_2 \wedge P_3 \wedge P_4$（四个点的外积）

GATr后续研究全景：从几何直觉到几何灵魂（完整版）

研究时间线

核心演进脉络

第一代：GATr (2023)

第二代：代数选择研究 (2024)

第三代：领域特化变体 (2024)

第四代：Versor (2026) - 范式转移

关键技术指标对比

理论演进脉络

1. 从标量到多向量

2. 从混合到纯

3. 从O(L²)到O(L)

应用领域演进

未来研究方向

1. 硬件加速

2. 更大规模验证

3. 新领域拓展

4. 理论深化

核心启示

1. 几何先验 > 数据规模

2. 数学结构的价值

3. 效率与性能兼得

4. 范式转移的标志

结论

参考资源

1. 构造方式：添加两个"特殊"基向量

2. 为什么叫"共型"？

3. 几何实体的统一表示

4. 变换的统一性：Versor 表示

5. 直观理解：双曲空间中的欧氏几何

总结

GATr后续研究全景：从几何直觉到几何灵魂（完整版）

研究时间线

核心演进脉络

第一代：GATr (2023)

第二代：代数选择研究 (2024)

第三代：领域特化变体 (2024)

第四代：Versor (2026) - 范式转移

关键技术指标对比

理论演进脉络

1. 从标量到多向量

2. 从混合到纯

3. 从O(L²)到O(L)

应用领域演进

未来研究方向

1. 硬件加速

2. 更大规模验证

3. 新领域拓展

4. 理论深化

核心启示

1. 几何先验 > 数据规模

2. 数学结构的价值

3. 效率与性能兼得

4. 范式转移的标志

结论

参考资源

1. 构造方式：添加两个"特殊"基向量

2. 为什么叫"共型"？

3. 几何实体的统一表示

4. 变换的统一性：Versor 表示

5. 直观理解：双曲空间中的欧氏几何

总结

🌟 智谱 GLM-5 已上线