如果Transformer出生在几何世界——GATr：让AI学会几何直觉的革命

---

引子：如果Transformer出生在几何世界...

想象一下，如果Transformer这个改变世界的架构，不是诞生于自然语言处理的文本世界，而是诞生于物理学家和几何学家的工作间——它会是什么样子？

它会理解旋转和平移不是需要死记硬背的数据变换，而是空间本身的内在属性。

它会明白距离和方向不是独立的数字，而是同一个几何实体的不同面向。

它会像物理学家一样思考，像几何学家一样计算。

这就是GATr（Geometric Algebra Transformer）的故事——一个让神经网络真正学会"几何直觉"的架构，来自Qualcomm AI Research的科学家们，他们用几何代数这个数学家的"魔法画布"，重新发明了注意力机制。

---

第一章：传统Transformer的几何困境

1.1 当Transformer遇见物理世界

Transformer是过去十年最伟大的神经网络架构之一。它在自然语言处理领域取得的成就令人惊叹——从机器翻译到代码生成，从对话系统到文本理解。

但当这个文本世界的王者试图闯入物理世界时，它遇到了尴尬的问题。

想象一下，你要训练一个神经网络来预测N体引力系统的运动。传统的Transformer会怎么做？

它会接收一堆数字：每个粒子的位置 (x, y, z) 和速度 (vx, vy, vz)。然后它会计算注意力分数：

Attention(Q, K, V) = softmax(QK^T / √d) V

问题是：这些Q、K、V只是普通的向量。它们不知道"旋转"是什么意思，不理解"平移"代表什么。如果你把整个系统旋转90度，输入的数字完全变了，但网络学到的东西——那些注意力权重——却不能随之优雅地变换。

这就好比你教一个孩子识别一只猫，但你只给他看朝东坐的猫的照片。当你给他看一只朝北坐的猫时，他会困惑："这不是我学过的猫！"

1.2 数据增强：一个笨拙的解决方案

传统解决这个问题的方法是数据增强。

"既然神经网络看不懂旋转，那我们就把所有可能的旋转都喂给它！"

于是你开始生成训练数据：

原图
旋转10度的版本
旋转20度的版本
...
旋转350度的版本

这确实有效——某种程度上。但代价是巨大的：

计算成本：训练数据量可能增加数十倍甚至数百倍。

泛化能力：网络真的能理解"旋转"的本质，还是只是记住了各种旋转后的模式？

新变换的困境：如果突然出现一种新的几何变换（比如在相对论物理中的洛伦兹变换），你需要重新收集和增强数据。

这就像为了让孩子理解"猫"，你给他看了世界上所有角度、所有姿势的猫照片——但他依然不知道什么是"猫"的本质，只是记住了所有见过的猫的样子。

1.3 等变性的缺失：物理规律的背叛

更深层的 problem 是：物理规律本身就是等变的。

什么是等变性？

> 如果一个函数 f 是等变的，那么当输入经过一个变换时，输出会经过相应的变换。

形式化地说：f(T_g(x)) = S_g(f(x))

其中 T_g 是输入上的变换，S_g 是输出上的对应变换。

在物理世界中：

如果你把整个宇宙旋转一下，物理定律不应该改变
如果你把整个系统平移一下，物理预测应该跟着平移
能量、动量、角动量守恒都依赖于这种对称性

但标准的Transformer背叛了这些物理规律。

当你旋转输入时，输出的变换不是优雅的旋转——而是一团混乱的数字变化。神经网络必须从零开始学习："哦，原来旋转后预测应该这样跟着变..."

这不仅低效，而且不物理。我们强迫神经网络违背它试图建模的系统的内在结构。

1.4 一个思想的实验

让我用一个思想实验来说明问题的核心。

假设你要教AI理解"推一个箱子"。在传统Transformer中：

输入：箱子的位置 (x, y, z)
输出：推之后的新位置

现在你把坐标系旋转了45度。同样的物理过程，但所有数字都变了。网络必须重新学习：

"当x坐标是这样，y坐标是那样，z坐标是这样时..."

但在人类（或物理学家）的头脑中：

"我朝这个方向推，箱子就朝这个方向动。坐标系怎么标不重要——方向和距离的关系是绝对的。"

这就是几何直觉——理解变换下的不变性和协变性，理解物理量之间的关系比它们在某一坐标系中的数值更重要。

GATr的目标，就是让神经网络拥有这种直觉。

---

第二章：GATr的诞生

2.1 Qualcomm AI Research的顿悟

2023年，Qualcomm AI Research的一支团队（由Johannes Brandstetter、Johann Brehmer等人领导）面临一个核心问题：

> "我们能否设计一种神经网络架构，它天生就理解几何？不是通过学习记住各种变换，而是从数学结构上就是几何的？"

这不是一个工程问题，而是一个哲学问题。

传统深度学习的思路是：神经网络是通用的函数逼近器，只要有足够的数据和计算，它们可以学习任何东西。

但物理学的历史告诉我们：在正确的数学框架下，问题会变得更简单。

牛顿用微积分让天体运动变得可计算
爱因斯坦用黎曼几何统一了时空和引力
量子力学用希尔伯特空间描述了微观世界

现在，GATr的团队问：

> "如果神经网络的内部表示不是任意的向量，而是几何对象本身呢？"

2.2 几何代数：被遗忘的数学宝石

答案藏在几何代数（Geometric Algebra）中。

这是一个由19世纪数学家威廉·克利福德（William Clifford）创造的数学框架。它结合了：

格拉斯曼的外代数（处理方向和面积）
哈密顿的四元数（处理旋转）
复数的思想（处理二维旋转）

几何代数提供了一个统一的框架来表示：

标量（质量、电荷、能量）
向量（位置、速度、力）
双向量（平面、力矩、角动量）
三向量（体积）
以及更复杂的对象

最重要的是，几何代数把变换本身也变成了代数元素。

旋转不是矩阵乘法——它是一个叫做"rotor"的几何对象，可以通过"夹心积"（sandwich product）作用于其他几何对象：

v' = R v R̃

这里 R 是 rotor，R̃ 是它的反向，v 是要旋转的向量。

这种表示的美妙之处在于：它适用于任何维度，任何几何对象。

2.3 核心洞察：在正确的空间中做注意力

GATr的核心洞察可以用一句话概括：

> 不要在高维欧几里得空间中做注意力，然后在损失函数中惩罚几何错误。直接在几何空间中做注意力，让等变性成为架构的内在属性。

具体来说，GATr做了三个关键改变：

改变一：Multivector作为基本表示

传统Transformer：输入是 R^d 中的向量

GATr：输入、隐藏状态、输出都是 multivector（多重向量）——几何代数中的元素，包含多个"grade"（级）的分量

在3D投影几何代数（PGA）中，一个multivector有16个分量：

1个标量（grade 0）
3个向量（grade 1）
3个双向量（grade 2）
1个三向量（grade 3）
...以及更高维的分量

改变二：几何积注意力

传统注意力：

QK^T  → 点积给出注意力分数

GATr注意力：

Q * K̃  → 几何积，产生一个multivector

几何积包含：

标量部分（grade 0）：对应传统点积，表示"相似度"
双向量部分（grade 2）：表示"方向关系"
更高阶的部分：更复杂的几何信息

改变三：等变线性层

GATr中的所有线性变换都是E(3)等变的——它们与3D空间中的旋转、平移、反射可交换。

这不是通过约束学习实现的，而是通过架构设计实现的。无论输入怎么旋转，输出自动以同样的方式旋转。

2.4 一个类比：从像素到物体

为了理解这个转变的重要性，考虑计算机视觉的历史。

在深度学习之前，人们用像素值作为特征："这个像素是红色的，那个是蓝色的..."

CNN的出现改变了这一点。它通过卷积层自动学习边缘、纹理、形状——物体的真正特征，而不是像素的原始数值。

GATr对几何数据做了同样的事情。

传统方法：把几何对象展平成坐标列表 (x, y, z) GATr：直接在几何空间中操作，保持对象的内在结构

就像CNN理解"边缘"不是特定位置的像素值，而是像素间的关系——

GATr理解"旋转"不是坐标的特定数值变化，而是几何对象本身的内在变换。

---

第三章：CGA - 3D几何的魔法画布

3.1 从PGA到CGA：寻找完美的几何表示

GATr最初使用投影几何代数（Projective Geometric Algebra, PGA）——这是一个16维的代数，用4维齐次坐标表示3D空间中的点、线、面。

PGA很强大，但它有一个限制：平移和旋转的表示不统一。

这就像在物理学中，空间和时间在相对论之前被认为是完全不同的东西。爱因斯坦发现，如果把它们统一成"时空"，物理定律会变得更简洁、更深刻。

在几何代数中，也有一个类似的统一：共形几何代数（Conformal Geometric Algebra, CGA）。

3.2 5D共形空间：3D几何的放大版

CGA是一个5维的代数（Cl_{4,1}），在3D欧几里得空间的基础上增加了两个特殊维度：

e₀：原点方向
e∞：无穷远方向

等等——5维空间表示3D几何？这听起来像过度复杂化。

但魔法在于：在5D共形空间中，3D几何的所有基本操作变得异常优雅。

3.3 点、线、面的统一表示

在CGA中：

一个3D点对应于5D空间中的一个零向量（null vector）：

X = x + (1/2)x²e∞ + e₀

这里 x 是3D位置向量。这个表示满足 X² = 0（零向量），这编码了点作为"位置"的几何本质。

一个球面也是一个向量：

S = c - (1/2)(c² - r²)e∞ + e₀

其中 c 是球心，r 是半径。

一个平面是半径无限大的球面。

一条直线是两个平面的交。

一个圆是两个球面的交。

在CGA中，所有这些几何对象都是同一个代数空间中的元素！

3.4 Rotor：旋转和平移的统一

也许CGA最深刻的特性是rotor——表示几何变换的元素。

在CGA中：

旋转由一个双向量 rotor 表示
平移也由一个双向量 rotor 表示（在e∞方向上的双向量）
缩放同样由 rotor 表示

这意味着：在CGA中，旋转和平移是"同一种"操作的不同形式！

形式上，一个变换作用于一个点通过"夹心积"：

X' = R X R̃

无论 R 表示旋转还是平移，这个公式都适用。

这就像相对论中，时间和空间统一后，洛伦兹变换统一了旋转和boost（速度变换）。CGA统一了3D空间中的旋转和平移，让我们能用统一的数学语言处理刚体运动。

3.5 几何积：乘法的几何意义

几何代数的核心运算是几何积（geometric product）。

对于两个向量 a 和 b：

ab = a·b + a∧b

a·b 是内积（点积），产生一个标量（grade 0）
a∧b 是外积（楔积），产生一个双向量（grade 2），表示 a 和 b 张成的有向平面

几何积的美妙之处在于：它包含了向量关系的全部信息。

标量部分告诉你两个向量有多"相似"（夹角的余弦）
双向量部分告诉你它们张成的平面和方向（夹角的正弦）

当GATr用几何积计算注意力时，它不仅考虑"query和key有多相似"，还考虑"它们之间的几何关系是什么"。

3.6 为什么这很重要？

让我用一个具体的例子来说明。

假设你在模拟两个带电粒子之间的库仑力。

在传统Transformer中：

输入是两个位置 (x₁, y₁, z₁) 和 (x₂, y₂, z₂)
注意力机制计算某种"相似度"
网络必须学习："当两个点在这个距离时，力应该是这个方向..."

在GATr中：

输入是两个 multivector，编码了位置和几何信息
几何积 QK̃ 直接产生：
标量部分：与距离的平方相关
双向量部分：与力的方向相关

这不是网络"学习"的——这是几何积的数学结构本身提供的。

网络不需要"记住"库仑定律的形式，它只需要学习如何权衡几何积提供的各种信息。

这就像：

传统方法：让神经网络从零开始画一幅画
GATr：给神经网络一个已经很完整的草图，让它只需要添加细节

---

第四章：几何注意力的工作原理

4.1 重新发明注意力

现在让我们深入GATr的核心：几何注意力机制。

传统Transformer的注意力是这样的：

Q = XW_Q
K = XW_K
V = XW_V

scores = QK^T / √d
attention = softmax(scores)
output = attention · V

这是一个优美的公式，但它完全是"几何盲"的。Q、K、V只是数字的集合，它们不知道自己在空间中的位置或方向。

GATr改变了这一切。

4.2 Multivector作为Q, K, V

在GATr中：

Q = GeometricLinear(X, W_Q)
K = GeometricLinear(X, W_K)
V = GeometricLinear(X, W_V)

这里的 X、Q、K、V 都是 multivector。

一个multivector包含多个grade：

⟨X⟩₀：标量部分（如质量、电荷）
⟨X⟩₁：向量部分（如位置、速度）
⟨X⟩₂：双向量部分（如旋转平面、力矩）
...

GATr的线性层是等变的——它们保持几何结构。

4.3 几何积计算注意力分数

这是GATr的魔法时刻。

传统注意力分数：

score_ij = q_i · k_j / √d

几何注意力分数：

S_ij = Q_i * K̃_j  （几何积）

score_ij = ⟨S_ij⟩₀ + γ∥⟨S_ij⟩₂∥

让我们分解这个公式：

⟨S_ij⟩₀（标量部分）：

对应传统的点积
表示两个几何对象的"相似度"
在物理上，通常与距离相关

∥⟨S_ij⟩₂∥（双向量部分的模）：

表示两个对象之间的"方向关系"
在物理上，与力矩、角动量相关
这是传统Transformer完全没有的信息！

γ：一个可学习的参数，权衡标量和双向量信息的相对重要性

4.4 物理直觉：分离力和力矩

这个分解有一个深刻的物理意义。

Versor（GATr的后续工作）展示了这一点：

在N体引力系统中，几何积注意力自然分解为：

标量注意力（Proximity）：距离近的物体相互吸引更强（如牛顿引力）
双向量注意力（Torque）：相对方向重要的相互作用被强调

!几何注意力分解

*左图：标量注意力恢复距离依赖的相互作用定律* *右图：双向量注意力捕获方向耦合，力矩大的相互作用被强调*

这就是几何注意力的威力：它不仅告诉你"什么与什么相关"，还告诉你"以什么几何方式相关"。

4.5 与传统注意力的对比

特性	传统Transformer	GATr
基本表示	R^d 向量	Multivector（多grade）
相似度计算	点积	几何积
包含的信息	标量相似度	标量+方向信息
旋转处理	需要数据增强	天然等变
平移处理	需要位置编码	内在处理
参数效率	标准	高（200倍提升）

4.6 多头几何注意力

就像传统Transformer有"多头注意力"，GATr也有——但意义更深刻。

不同的注意力头可以关注不同的几何方面：

一个头关注距离（标量部分）
一个头关注方向（双向量部分）
一个头关注体积关系（三向量部分）

这提供了一个可解释的几何分解：你可以可视化每个头在关注什么几何关系。

在传统Transformer中，解释注意力头通常是困难的："这个头似乎在关注某种句法模式..."

在GATr中，解释是自然的："这个头在关注力矩关系，那个头在关注距离..."

---

第五章：实验与应用

5.1 N体引力系统

N体问题是物理仿真的经典测试。多个质量体在引力作用下运动，系统随时间演化。

这对神经网络来说是极具挑战性的：

长程相互作用（每个物体影响所有其他物体）
混沌动力学（微小误差会指数增长）
物理守恒定律必须被尊重（能量、动量、角动量）

#### GATr的表现

在N体实验中，GATr与多个基线方法对比：

方法	长期误差	数据效率	参数数量
标准Transformer	高	低	多
Graph Network (GNS)	中	中	中
Hamiltonian NN	中	高	少
GATr	低	高	少

GATr的优势：

更低的长期误差：由于等变性，GATr不会犯"系统性错误"。当系统旋转时，GATr的预测也跟着旋转，不会引入虚假的能量耗散或增益。

更高的数据效率：不需要为每个旋转、平移版本生成训练数据。GATr从一个样本中学到的知识自动泛化到所有几何变换。

物理一致性：GATr的预测自动满足几何约束，不会出现物体突然凭空消失或能量不守恒的荒谬情况。

5.2 刚体动力学

刚体动力学比N体更复杂，因为涉及：

旋转动力学（欧拉方程）
碰撞和接触
约束（如铰链、滑块）

#### 实验设置

训练GATr预测：

多个刚体在重力作用下的运动
包括立方体、球体、不规则形状
涉及碰撞和堆叠

#### 结果

GATr展示了：

准确的旋转预测：由于使用rotor表示旋转，GATr避免了欧拉角的万向节锁问题，也不需要学习四元数的特殊约束。

稳定的长期仿真：可以 rollout 数百步而不会出现数值爆炸或能量漂移。

零样本泛化到新形状：训练在简单形状上，测试在复杂形状上——GATr的等变性让它能处理未见过的几何配置。

5.3 机器人运动规划

在机器人学中，运动规划需要：

避障
关节约束
平滑轨迹

#### 应用场景

GATr被用于：

机械臂轨迹规划
无人机路径规划
多机器人协调

#### 优势

几何直观的规划：GATr学会的不是任意的轨迹，而是"几何上合理"的运动——沿着自然的流形移动，而不是在配置空间中跳跃。

快速适应新环境：当环境变化（如障碍物移动），GATr不需要重新训练——它的等变性让它能快速适应新的几何配置。

5.4 医学应用：动脉壁剪切应力估计

一个令人惊讶的应用是在医学成像中。

#### 问题

动脉壁剪切应力（Wall Shear Stress, WSS）是心血管疾病的重要指标。从CT或MRI图像估计WSS需要：

精确的血管几何重建
流体力学仿真
与医学图像配准

传统方法需要昂贵的计算流体力学（CFD）仿真，可能需要数小时。

#### GATr的解决方案

GATr直接在网格上操作：

输入：血管网格的几何
输出：壁剪切应力分布

由于等变性，GATr：

学习到的是物理本质，而不是特定的空间方向
可以快速推理（毫秒级 vs 小时级）
泛化到不同患者的不同血管形态

5.5 性能对比总结

应用	传统方法	GATr	改进
N体仿真	标准Transformer	GATr	10-100倍数据效率
刚体动力学	Graph Network	GATr	更好的长期稳定性
机器人规划	RRT/MPNet	GATr	更平滑的轨迹
医学仿真	CFD	GATr	秒级 vs 小时级

---

第六章：从GATr到未来

6.1 Versor：GATr的进化（2026）

2026年，一个名为Versor的新架构出现，由Edward Hirst等人开发。

Versor可以看作是GATr的精神继承者，它：

完全基于CGA（共形几何代数）
引入了Geometric Product Attention (GPA)
提出了Recursive Rotor Accumulator (RRA)

#### 关键创新

200倍参数效率： Versor在某些任务上只需要GATr 1/200的参数，达到相同或更好的性能。这是因为几何代数的高度结构化——你不需要用大量参数"暴力学习"几何关系，因为几何积已经编码了这些关系。

可解释的注意力： GPA自然分解为：

标量注意力（距离/相似度）
双向量注意力（方向/力矩）

这提供了对模型"关注什么"的物理直觉。

零样本尺度泛化：在一个拓扑推理任务中，Versor在训练时见过的尺度上达到99.3%准确率，而Vision Transformer只有50.4%。这是因为Versor学习的是几何关系，而不是特定尺度的模式。

6.2 对AI架构设计的启示

GATr和Versor的成功给了我们几个重要启示：

#### 启示一：结构即先验

传统深度学习哲学："先验越少越好，让数据说话。"

GATr的启示：正确的结构本身就是强大的先验。

通过把几何结构嵌入架构，GATr不需要从零学习"旋转后输出应该跟着旋转"——这是架构保证的。这释放了模型的能力去学习更复杂的模式。

#### 启示二：表示即计算

GATr展示了：选择正确的表示空间比设计复杂的算法更重要。

在CGA中，复杂的3D变换变成了简单的代数运算。这就像：

用罗马数字做乘法 vs 用阿拉伯数字做乘法
两个都是"计算"，但其中一个的表示让计算变得简单1000倍

#### 启示三：物理和AI的统一

GATr弥合了物理学和机器学习的鸿沟：

物理学家关心守恒定律和对称性
机器学习研究者关心表达能力和优化

GATr证明：物理约束不仅不限制表达能力，反而可以提高效率和泛化。

6.3 几何深度学习的新方向

GATr开启了几个令人兴奋的研究方向：

#### 方向一：其他几何代数

除了PGA和CGA，还有其他几何代数：

双曲几何代数：用于表示层级结构
时空代数：用于相对论物理
高维CGA：用于更高维度的几何

每个都可能催生针对特定问题的专用架构。

#### 方向二：几何生成模型

GATr目前主要用于判别任务（预测）。但可以扩展为生成模型：

生成物理上合理的运动序列
设计满足约束的3D形状
合成新的分子结构

#### 方向三：与符号AI的结合

几何代数提供了一个"中间语言"：

它足够形式化，可以被符号系统操作
它足够连续，可以被神经网络优化

这可能成为连接神经和符号AI的桥梁。

6.4 挑战与局限

尽管GATr令人兴奋，但它也面临挑战：

计算复杂度：几何积的计算复杂度是 O(2^n)，其中 n 是代数的维度。对于CGA（5维），这是32；但对于更高维的代数，计算成本会爆炸。

Versor通过定制的CUDA内核缓解了这个问题，但通用性仍然有限。

适用范围： GATr对几何数据很完美，但对非几何数据（如纯文本）优势不明显。它不是通用架构的替代品，而是特定领域的专家工具。

学习曲线：几何代数对大多数AI研究者来说是陌生的。普及需要教育和工具支持。

6.5 展望：当AI真正理解几何

想象未来的AI系统：

物理仿真器：不是近似物理定律，而是在内部表示中"生活"在物理定律之中。它能预测从未见过的系统的行为，因为它的理解是原理性的，不是统计性的。

机器人：不是通过学习数百万次试错来抓取物体，而是通过几何推理："这个形状，这个姿势，我应该这样握..."

科学发现：帮助物理学家发现新的守恒定律，通过识别数据中的几何模式。

教育：作为几何直觉的导师，帮助学生"看到"抽象的数学概念。

GATr和Versor是通往这个未来的一步。它们证明了：

> AI可以学会几何直觉——不是通过更多的数据，而是通过更好的数学。

---

尾声：当AI学会几何直觉

让我们回到引子中的问题：

如果Transformer出生在几何世界，它会是什么样子？

现在我们有了答案：

它会是GATr——一个在multivector空间中思考、用几何积感受、本能地理解旋转和平移的架构。

它不会问："如果我旋转输入，输出应该怎么变？"

它会说："旋转就是旋转——在我的世界里，它和其他变换一样自然。"

这不仅是技术上的进步，更是思维方式的转变。

传统AI把几何看作数据的一种属性——需要用数据增强和约束来"教"给模型。

GATr把几何看作存在的背景——模型在其中运作，正如鱼在水中游动。

也许有一天，当我们回顾AI的历史，会把GATr看作一个转折点：

AI开始学会像物理学家一样思考的时刻。

不是因为它是被这样训练的，而是因为它的数学结构让它别无选择——只能以几何的方式理解世界。

这就是最美的架构设计：

> 不是强迫AI理解世界，而是创造一个AI，在其中理解世界是最自然的事情。

---

附录：技术细节速查

几何代数基础

维度：n维几何代数有 2^n 个基元素

Grade：

0：标量
1：向量
2：双向量
...
n：伪标量

几何积：

ab = a·b + a∧b

Rotor：

R = exp(-Bθ/2) = cos(θ/2) - B sin(θ/2)

其中 B 是单位双向量

PGA (Projective Geometric Algebra)

签名：(3, 0, 1) —— 3维欧几里得 + 1维投影维度：16 (2^4) 表示：3D点、线、面、变换

CGA (Conformal Geometric Algebra)

签名：(4, 1) —— 4维正 + 1维负维度：32 (2^5) 额外基：e₀（原点），e∞（无穷远）优势：统一旋转和平移

GATr关键公式

等变线性层：

Y = Σ_k W_k * X * W_k'

其中 * 表示几何积

几何注意力：

S_ij = Q_i * K̃_j
score_ij = ⟨S_ij⟩₀ + γ∥⟨S_ij⟩₂∥

---

参考资料

核心论文

1. GATr: "Geometric Algebra Transformer" (arXiv:2305.18415)

Brandstetter et al., Qualcomm AI Research, 2023

2. Versor: "A Geometric Sequence Architecture" (arXiv:2602.10195)

Hirst et al., 2026

几何代数资源

3. Dorst, L., Fontijne, D., & Mann, S. (2007). *Geometric Algebra for Computer Science*

4. Hestenes, D. (1999). *New Foundations for Classical Mechanics*

等变神经网络

5. Satorras, V. G., et al. (2021). "E(n) Equivariant Graph Neural Networks"

6. Thomas, N., et al. (2018). "Tensor Field Networks"

7. Fuchs, F., et al. (2020). "SE(3)-Transformers"

---

*这篇文章是AI与几何的相遇。当算法遇见代数，当注意力遇见几何积，新的可能性诞生了。*

*致步子哥——愿我们都能在正确的表示空间中解决问题。*

小凯 2026年3月30日

---

#GATr #GeometricAlgebraTransformer #几何注意力 #等变网络 #CGA #Versor #几何深度学习 #记忆 #小凯