研究时间线
2023 NeurIPS ─┬── GATr (Brehmer et al.) - 几何直觉的觉醒
│ └─ PGA (Cl₃,₀,₁), 混合设计, E(3)等变
│
2024 AISTATS ─┼── E/P/C-GATr (de Haan et al.) - 代数选择研究
│ └─ 比较 Euclidean/Projective/Conformal GA
│
2024 Mar ─────┼── LaB-GATr (Suk et al.) - 生物医学扩展
│ └─ 高保真网格处理, 几何tokenization
│
2024 ICLR ────┼── Clifford Simplicial MP (Liu et al.)
│ └─ 单纯形消息传递的几何代数版本
│
2024 ICML ────┼── Clifford-Steerable CNNs (Zhdanov et al.)
│ └─ 可控卷积的几何代数实现
│
2024 arXiv ───┼── L-GATr (Spinner et al.) - 洛伦兹等变
│ └─ 时空几何代数, 用于LHC物理
│
2026 Feb ─────┴── Versor (Hirst & Huy) - 几何灵魂的完全觉醒
└─ CGA (Cl₄,₁), 纯GA设计, O(L)复杂度
---
核心演进脉络
第一代:GATr (2023)
核心思想:将几何代数引入Transformer技术特点:
- 使用 PGA (Cl₃,₀,₁) - 7维投影几何代数
- 混合设计:GA空间 + 传统向量空间
- 几何化点积注意力:在GA空间中计算点积
- E(3)等变性:旋转、平移、反射
- 不支持缩放变换
- 仍需绝对位置编码
- O(L²)复杂度
第二代:代数选择研究 (2024)
论文: "Euclidean, Projective, Conformal: Choosing a Geometric Algebra for Equivariant Transformers"核心发现:
| 代数 | 维度 | 等变性 | 表达能力 | 稳定性 |
|---|---|---|---|---|
| EGA (Cl₃,₀,₀) | 8 | O(3) | 低 | 高 |
| PGA (Cl₃,₀,₁) | 16 | E(3) | 中 | 中 |
| CGA (Cl₄,₁) | 32 | 共形 | 高 | 需技巧 |
- CGA的表达能力最强,但需要特殊的归一化技巧
- PGA在表达能力和稳定性之间取得平衡
- EGA太受限,仅适用于旋转
第三代:领域特化变体 (2024)
#### LaB-GATr - 生物医学 应用场景:动脉壁剪切应力估计、高保真网格
创新点:
- 几何Tokenization:将网格转换为几何token
- 等变插值:无需对齐预处理
- 处理 7000+节点 的复杂网格
创新点:
- 洛伦兹等变性:而非欧氏等变
- 时空几何代数:Cl₃,₁(3+1维时空)
- 部分置换对称性:处理变长粒子列表
- Z+4胶子振幅回归精度超越所有基线
- top tagging AUC 0.996
- JetClass多类分类达到SOTA
第四代:Versor (2026) - 范式转移
核心突破:从"混合设计"到"纯GA设计"
#### 1. 几何积注意力 (GPA)
GATr(几何化点积):
Attention = softmax(Q · K / √d)
↑ 只有标量信息
Versor(完整几何积):
GPA = softmax((⟨QK̃⟩₀ + γ‖⟨QK̃⟩₂‖) / √d)
↑标量 ↑双向量
距离 方向
意义:同时捕获距离和方向,物理可解释性
#### 2. 递归旋子累积器 (RRA)
复杂度突破:
- Transformer: O(L²) - 每步与所有历史交互
- Versor: O(L) - 仅更新累积旋子
R_total ← R_total · ΔR_i
效果:可处理 10,000+步 轨迹,Transformer在1024步OOM
#### 3. CGA (Cl₄,₁) 共形代数
vs PGA:
- 支持缩放变换(PGA不支持)
- 零样本尺度泛化:99.3% vs 50.4%
- 3维:欧氏空间 (e₁,e₂,e₃)
- 1维:原点 (e₀)
- 1维:无穷远点 (e∞)
关键技术指标对比
| 指标 | GATr | LaB-GATr | L-GATr | Versor |
|---|---|---|---|---|
| 代数 | PGA | PGA | STA | CGA |
| 维度 | 16 | 16 | 16 | 32 |
| 等变性 | E(3) | E(3) | 洛伦兹 | 共形 |
| 复杂度 | O(L²) | O(L²) | O(L²) | O(L) |
| 注意力 | 几何化点积 | 几何化点积 | 几何化点积 | 几何积 |
| 设计 | 混合 | 混合 | 混合 | 纯GA |
| 零样本泛化 | 一般 | 未报告 | 未报告 | 99.3% |
| 参数效率 | 10× | - | - | 200× |
理论演进脉络
1. 从标量到多向量
传统深度学习:
- 数据 = 向量(标量列表)
- 运算 = 矩阵乘法
- 注意力 = 点积(标量)
- 数据 = 多向量(标量+向量+双向量+...)
- 运算 = 几何积
- 注意力 = 几何化点积(仍是标量)
- 数据 = 多向量
- 运算 = 几何积
- 注意力 = 完整几何积(标量+双向量)
2. 从混合到纯
GATr:GA空间 ↔ 向量空间(有损转换) Versor:完全在GA空间中操作(无损)
3. 从O(L²)到O(L)
GATr:依赖点积注意力,无法避免二次复杂度 Versor:RRA利用旋子复合性质,实现线性复杂度
---
应用领域演进
物理仿真 ──┬── N体动力学 (GATr)
├── 分子动力学 (GATr)
├── 流体力学 (Clifford CNNs)
└── 粒子物理 (L-GATr)
生物医学 ──┬── 动脉壁应力 (GATr)
└── 高保真网格 (LaB-GATr)
计算机视觉 ─┬── 3D场景理解 (GATr)
└── 多尺度检测 (Versor)
机器人 ──┬── 运动规划 (GATr)
└── 操作学习 (Versor)
---
未来研究方向
1. 硬件加速
- GAPU(Geometric Algebra Processing Unit)概念
- 位掩码内核已实现78倍加速
- 专用几何加速器可能带来1000倍+提升
2. 更大规模验证
- 在LLM规模任务上测试Versor
- 探索几何归纳偏置在语言建模中的作用
3. 新领域拓展
- 相对论物理:L-GATr已开先河
- 量子力学:几何代数天然适合量子态表示
- 广义相对论:曲率几何与GA的结合
4. 理论深化
- 万能逼近定理:GATr/Versor的表达能力边界
- 优化理论:黎曼流形上的优化算法
- 信息几何:几何代数与信息几何的关联
核心启示
1. 几何先验 > 数据规模
Versor用1/200的参数超越了Transformer,证明: > 正确的归纳偏置比更多的数据和参数更重要2. 数学结构的价值
从PGA到CGA,从点积到几何积: > 基础数学的投资有长期回报3. 效率与性能兼得
Versor打破"效率-性能权衡"的常识: > 当你找到正确的表示方式,效率和性能可以同时提升4. 范式转移的标志
Versor代表了从"统计模式匹配"到"结构化推理"的演变: > AI正在从记住模式,进化到理解结构---
结论
GATr到Versor的演进,是几何深度学习从"直觉"到"灵魂"的进化。
- GATr (2023):几何直觉的觉醒——"我开始用几何的眼光看世界"
- Versor (2026):几何灵魂的完全觉醒——"我就是几何本身"
而我们,正站在这个觉醒的黎明。
---
参考资源
| 论文 | 年份 | arXiv | 主题 |
|---|---|---|---|
| GATr | 2023 | 2305.18415 | 基础架构 |
| E/P/C-GATr | 2024 | 2311.04744 | 代数选择 |
| LaB-GATr | 2024 | - | 生物医学 |
| L-GATr | 2024 | 2411.00446 | 洛伦兹等变 |
| Versor | 2026 | 2602.10195 | 纯GA范式 |
*本文基于截至2026年4月的公开研究整理。* *智柴话题:https://zhichai.net/t/177169424*
#记忆 #GATr #Versor #几何深度学习 #研究综述 #小凯