> "如果GATr是几何直觉的觉醒,Versor就是几何灵魂的完全觉醒。"
---
引子:显微镜下的乐谱
想象一下,你手里拿着一张乐谱。这张乐谱上写满了音符,但对于一个不懂音乐的人来说,这些符号只是一些黑色的小蝌蚪,散布在五条平行线上。但如果我把这张乐谱放到显微镜下,让你看到声波振动的物理本质——空气分子的疏密变化、频率的数学规律、谐波的叠加原理——你突然发现,那些"小蝌蚪"背后藏着整个物理世界的和谐。
深度学习的发展历程,某种程度上就像从"看音符"到"看声波"的进化。
2023年,GATr(Geometric Algebra Transformer)像是一个刚学会读谱的音乐家,它意识到几何结构的重要性,开始尝试用几何代数来理解世界。但GATr仍然是"混合派"——它一部分计算在几何代数空间,一部分还在传统的向量空间。就像一个既看乐谱又听录音的学生,虽然比以前进步了,但还没达到浑然一体的境界。
2026年2月,来自巴西坎皮纳斯大学的Edward Hirst和他的团队发表了一篇注定要改变几何深度学习格局的论文:《Versor: A Geometric Sequence Architecture》(arXiv:2602.10195)。这篇论文提出了Versor——一个纯几何代数序列架构。如果说GATr是几何直觉的觉醒,Versor就是几何灵魂的完全觉醒。
Versor做到了什么?让我用几个数字来震撼你:
- 200倍的参数效率提升(相比传统Transformer)
- 99.3% vs 50.4% 的零样本尺度泛化准确率(相比Vision Transformer)
- O(L) 线性复杂度(相比传统注意力的O(L²))
- 0.007M 参数达到与 1.32M 参数Transformer相当的性能
---
第一章:GATr的局限与Versor的突破
1.1 混合设计的妥协
要理解Versor的革命性,我们得先看看GATr做了什么,以及它为什么没有走完全程。
GATr发表于2023年,全称是"Geometric Algebra Transformer"(几何代数Transformer)。它的核心思想很先进:不再用传统的向量来表示数据,而是用多向量(multivector)——几何代数中的基本对象。一个多向量可以同时包含标量(scalar)、向量(vector)、双向量(bivector)、三向量(trivector)等不同"等级"(grade)的几何信息。
打个比方,如果说传统的深度学习模型是在用"乐高积木"(向量)搭建世界,GATr就是在用"几何积木"(多向量)——这些积木本身就带有方向、面积、体积的几何含义。
但GATr有一个根本性的妥协:它仍然是混合设计。什么意思呢?
想象一下,你在画一幅油画。GATr的做法是:画布的一部分用油画颜料(几何代数空间),但另一部分还在用水彩(传统向量空间)。虽然比纯水彩画更丰富多彩,但两种媒介之间需要不断转换,这种转换是有损耗的。
具体来说,GATr在以下方面保留了传统向量空间的痕迹:
1. 位置编码:GATr仍然依赖于绝对位置编码,这意味着它对"位置"的理解是基于坐标系统的,而不是基于几何关系的。 2. 注意力机制:虽然GATr对注意力机制进行了几何化改造,但本质上还是在点积注意力的框架内修修补补。 3. 序列处理:GATr更像是"帧处理器"——它处理静态的、独立的输入帧,而不是连续的、动态的几何演化。
这些妥协让GATr在一些任务上表现出色(比如物理仿真),但在泛化能力上遇到了瓶颈。特别是当面对不同尺度的问题时,GATr需要重新训练才能适应。
1.2 纯GA的可能性
现在让我们看看Versor的解决方案:完全在几何代数空间中操作。
Versor使用的是共形几何代数(Conformal Geometric Algebra, CGA),具体来说是$Cl_{4,1}$——一个五维的代数结构。这个选择不是随意的,而是经过深思熟虑的。
$Cl_{4,1}$有什么特别之处?
首先,它是共形的。共形变换保持角度不变,包括旋转、平移、缩放、反射。这意味着Versor天生就理解"形状"——不管你怎么旋转、移动、缩放一个物体,Versor都能识别出它是同一个物体。
其次,$Cl_{4,1}$是SE(3)-等变的。SE(3)是三维欧氏空间的刚体变换群(旋转+平移)。Versor不需要显式地编码这些对称性——它们已经内建在代数结构中了。
用乐谱的比喻来说:如果GATr是学会了读谱但仍然需要依赖听觉辅助的音乐家,Versor就是完全用乐谱思考的作曲家。音符对它来说不是声音的符号,而是声音本身的数学本质。
1.3 200倍参数效率的含义
Versor最惊人的成果之一是参数效率:它用6,662个参数达到了传统Transformer用1,320,000个参数才能达到的性能。这是200倍的提升。
这200倍意味着什么?让我们用一个类比来理解。
想象你在学习识别猫。传统Transformer的做法是:给一个孩子看100万张猫的照片,让他记住各种细节——毛发的纹理、眼睛的颜色、耳朵的形状……这个孩子(Transformer)需要巨大的"脑容量"来存储所有这些细节。
Versor的做法完全不同。它学习的是"猫的几何本质"——猫是一种有特定拓扑结构的生物:一个主体,四个向外延伸的肢体,一个头部,两个耳朵……不管这只猫是黑色的还是白色的,是大的还是小的,是正面朝你还是侧面朝你,这些几何关系是不变的。
结果就是:Versor不需要记住100万张猫的具体样貌,它只需要理解"猫的几何结构"。这就像一个理解了几何原理的工程师,可以用很少的公式设计出无穷无尽的机械结构。
在实验中,Versor在以下任务上展示了这种效率优势:
- 混沌N体动力学:用0.007M参数达到5.21 MSE,优于用1.32M参数的Transformer(6.61 MSE)
- 拓扑连通性检测:在"断蛇"任务中,Versor达到99.3% MCC,而Vision Transformer只有50.4%
- 物理仿真能量守恒:Versor的能量漂移为133%,而Transformer高达381%
---
第二章:几何积注意力的力量
2.1 标量 + 双向量的双重信息
现在让我们深入Versor的核心创新之一:几何积注意力(Geometric Product Attention, GPA)。
要理解GPA,我们得先回顾一下传统Transformer的注意力机制。
传统注意力的公式是:
$$ Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V $$
这里的关键是$QK^T$——查询(Query)和键(Key)的点积。点积给出一个标量,表示两个向量的"相似度"。
但这个设计有一个根本性的局限:点积只保留了距离信息,丢失了方向信息。
想象一下,你在看一个旋转的陀螺。点积可以告诉你陀螺离你多远(距离信息),但无法告诉你陀螺正在向哪个方向旋转(方向信息)。而在物理世界中,方向往往和距离同样重要——甚至更重要。
Versor的GPA使用几何积(geometric product)代替点积。几何积的公式是:
$$ GPA(Q, K) = \langle Q\tilde{K} \rangle_0 + \gamma\|\langle Q\tilde{K} \rangle_2\| $$
让我们拆解这个公式:
- $Q\tilde{K}$ 是Query和Key(经过反转操作)的几何积
- $\langle \cdot \rangle_0$ 表示取标量部分(grade-0),这对应于距离/相似度
- $\langle \cdot \rangle_2$ 表示取双向量部分(grade-2),这对应于方向/扭矩耦合
- $\gamma$ 是一个平衡参数,调节距离和方向的相对重要性
用显微镜的比喻来说:传统Transformer的注意力像是在观察一个平面标本,只能看到二维投影;GPA像是在观察一个立体标本,能看到完整的三维结构。
2.2 距离与方向的分离
GPA的另一个美妙之处在于它的 可解释性。
在传统Transformer中,注意力分数是一个黑盒标量——你知道两个token"相关",但你不知道为什么相关、在哪些方面相关。
GPA的注意力分数天然分解为两个部分:
1. 标量部分(Proximity):表示"这两个物体有多近"。这是传统的"注意力权重"。 2. 双向量部分(Orientational Torque):表示"这两个物体的相对方向关系"。这是全新的"几何耦合"信息。
这种分解在物理意义上非常清晰。想象一下引力作用:
- 引力的大小取决于两个物体的距离(标量部分)
- 但引力产生的扭矩(torque)取决于力的方向和物体的相对朝向(双向量部分)
2.3 与生物视觉的类比
GPA的这种"双重信息处理"与生物视觉系统有着惊人的相似性。
在哺乳动物的大脑中,视觉信息在V1区(初级视觉皮层)被分解成两个主要通路:
1. 背侧通路(Dorsal Stream):处理"在哪里"——空间位置、运动方向 2. 腹侧通路(Ventral Stream):处理"是什么"——物体识别、形状特征
GPA的标量部分类似于腹侧通路的处理("这两个token有多相似"),双向量部分类似于背侧通路的处理("这两个token的空间关系是什么")。
这种类比不是偶然的。几何代数本质上是在数学上形式化了我们对空间的直觉理解。人类大脑经过数百万年的进化,已经内建了强大的几何处理能力。Versor的设计某种程度上是在 复现这种生物智能。
---
第三章:RRA——线性注意力的几何版本
3.1 O(L)复杂度的意义
如果说GPA是Versor的"眼睛",那么 递归旋子累积器(Recursive Rotor Accumulator, RRA) 就是Versor的"记忆"。
要理解RRA的重要性,我们得先理解传统Transformer的致命弱点:二次复杂度。
传统自注意力的计算复杂度是$O(L^2)$,其中$L$是序列长度。这意味着:
- 序列长度翻倍,计算量增加4倍
- 序列长度增加10倍,计算量增加100倍
Versor的RRA打破了这一限制,实现了 $O(L)$线性复杂度。
这是什么概念?用实际数字来说:
- Transformer在处理$L=1024$的序列时就会内存耗尽(OOM)
- Versor可以稳定处理 10,000+ 步的轨迹
3.2 递归旋子累积的直觉
RRA是如何做到这一点的?关键在于 旋子(Rotor)。
在几何代数中,旋子是一种特殊的对象,表示 旋转。它可以复合(compose):如果你有两个旋子$R_1$和$R_2$,它们的几何积$R_1 R_2$表示"先旋转$R_2$,再旋转$R_1$"的复合变换。
RRA的核心思想是:不要把序列看作独立的token集合,而是看作一条连续的旋转轨迹。
具体来说,RRA维护一个 累积旋子 $R_{total}$,它表示从开始到现在整个序列的几何演化。当新的输入$\Delta R_i$到来时,RRA简单地更新:
$$ R_{total} \leftarrow R_{total} \cdot \Delta R_i $$
这个更新的复杂度是$O(1)$——与序列长度无关!
用乐谱的比喻:传统Transformer像是在演奏每个音符时都要回顾之前所有的音符($O(L^2)$);RRA像是在演奏时维护一个"当前调性"的状态,每个新音符只是在这个调性基础上做一个微小的调整($O(L)$)。
3.3 为什么能保持几何结构
你可能会问:这种"累积"会不会丢失信息?毕竟,如果我只是不断地复合旋子,怎么能记住序列中的所有细节呢?
这就是几何代数的魔力所在。旋子不是压缩信息,而是编码了几何关系。
想象一下,你在一个房间里行走:
- 传统Transformer需要记住"我在坐标$(x,y,z)$"(绝对位置)
- RRA只需要记住"我相对于起点的旋转和平移"(相对变换)
这就是为什么RRA在处理物理仿真时如此稳定。它不是在记忆"粒子在哪里",而是在记忆"粒子如何演化"。这种演化规律是 物理定律的内建属性,不随坐标系的变化而变化。
---
第四章:零样本尺度泛化的奇迹
4.1 99.3% vs 50.4%的含义
现在让我们谈谈Versor最令人震惊的能力:零样本尺度泛化。
什么是"零样本尺度泛化"?简单说:训练在一个尺度,测试在另一个尺度,不需要重新训练。
在传统机器学习中,这是一个几乎不可能的任务。如果你在16×16的图像上训练一个图像分类器,它几乎不可能在32×32的图像上表现良好——除非你在训练时就做特殊的数据增强。
Versor在"断蛇"(Broken Snake)任务上做到了这一点:
- 训练:在特定分辨率的网格上学习识别蛇形路径是否连续
- 测试:在完全不同分辨率的网格上进行测试
- 结果:Versor达到99.3% MCC(Matthews Correlation Coefficient),而Vision Transformer只有50.4%
4.2 架构内在的理解
Versor为什么能做到这一点?
关键答案是:它学习的是代数法则,而不是像素坐标。
让我们深入"断蛇"任务的细节。这个任务要求模型判断一条蛇形路径是连续的还是被单像素间隙断开的。
传统CNN和Vision Transformer是怎么做的?它们 记忆像素模式。训练时,它们学会了"在16×16网格上,这种像素排列表示连续,那种表示断开"。但当网格变成32×32时,所有像素坐标都变了,它们之前学的模式全部失效。
Versor的做法完全不同。它不使用绝对位置编码,而是处理 位移向量 (Displacement Vectors)$\Delta x$的链。
RRA累积位移旋子: $$ R_{total} = \prod \Delta R_i $$
一个"间隙"对应于一个大小大于1的跳跃向量$\Delta x_{gap}$。关键洞察是:条件$\|\Delta x\| > 1$与网格大小$G$无关。一个间隙就是一个间隙,不管是在16×16还是32×32的网格上。
Versor实际上在学习这个 代数规则:"如果存在任何局部跳跃意味着分离,输出0"。这个规则只使用局部差分算术,是 分辨率无关的。
用显微镜的比喻:传统神经网络在用显微镜看标本时,需要根据放大倍数重新学习"这是什么细胞";Versor理解了细胞的 结构本质,所以不管放大多少倍,它都知道"这是同一个东西"。
4.3 无需训练就能泛化
这种"零样本泛化"能力在多个任务上得到了验证:
1. 变系统大小(Variable System Size)
- 训练:N=5个粒子的N体系统
- 测试:N=3和N=7个粒子
- 结果:Versor零样本泛化,误差稳定
- 对比:Transformer因固定输入维度而完全失败
- 挑战:不提供速度输入,要求推断动量
- 结果:Versor通过递归状态历史推断动量(0.003 MSE)
- 对比:基于帧的GATr失败(0.3253 MSE)
- 挑战:测试时使用比训练时重10倍的粒子质量
- 结果:Versor的误差 反而改善 了-19.9%
- 对比:Transformer灾难性失败,误差暴增+3097.2%
解释是:更重的质量增加了系统的惯性,使轨迹更加动量主导、更少混沌。Versor的旋子天然编码了动量守恒,所以它能利用这种增加的可预测性。而训练于坐标分布的Transformer,完全无法泛化到更强的引力($F \propto m^2$)导致的分布外情况。
这揭示了一个深刻的道理:当模型真正理解了物理规律,它不仅在训练分布内表现好,在训练分布外也能表现好。
---
第五章:从实验看突破
5.1 ImageNet上的惊艳表现
虽然Versor主要设计用于科学计算任务,但它在传统视觉基准上也展示了惊人的潜力。
在CIFAR-10上的实验(使用原始像素,未经任何数据增强):
- 仅3个epoch,Versor达到 49.63% 的准确率
这表明Versor的 几何归纳偏置 可以极大地加速学习。它不是从零开始学习图像特征,而是利用了几何先验来"引导"学习过程。
5.2 物理仿真中的稳定性
Versor在物理仿真任务上的表现更是令人瞩目。
混沌N体动力学:
| 模型 | 参数量 | MSE | 能量漂移 |
|---|---|---|---|
| Transformer (d=128) | 1.320M | 6.61 | 381.1% |
| GATr | ~0.1M | 8.32 | 173.8% |
| Versor | 0.007M | 5.21 | 133.0% |
- Versor用 1/200 的参数,达到了 更好 的预测精度
- Versor的能量漂移是Transformer的 1/3
- 即使是专门设计的几何模型GATr,也被Versor超越
在T=50步的 rollout 测试中:
- Versor保持稳定的预测
- Transformer的能量守恒能力在高参数配置下尚可,但当参数量匹配到Versor级别时显著退化
5.3 与GATr的直接对比
让我们做一个全面的对比,看看Versor相对于GATr的进化:
| 特性 | GATr (2023) | Versor (2026) |
|---|---|---|
| 设计哲学 | 混合GA/向量 | 纯GA |
| 代数基础 | $Cl_{3,0,1}$ (PGA) | $Cl_{4,1}$ (CGA) |
| 注意力机制 | 几何化点积 | 完整几何积(GPA) |
| 复杂度 | $O(L^2)$ | $O(L)$ via RRA |
| 参数效率 | 好 | 200×提升 |
| 零样本泛化 | 一般 | 99.3% vs 50.4% |
| 序列处理 | 帧中心 | 路径中心 |
| 等变性 | E(3) | SE(3) + 缩放 |
1. 纯GA设计:Versor完全在几何代数空间操作,没有传统向量空间的妥协 2. CGA vs PGA:共形几何代数支持缩放变换,这是GATr的投影几何代数不具备的 3. GPA vs 几何化点积:几何积比点积保留了更多几何信息 4. O(L) vs O(L²):RRA使Versor可以处理长序列,GATr受限于二次复杂度 5. 路径中心 vs 帧中心:Versor处理动态演化,GATr处理静态帧
---
第六章:理论意义与未来
6.1 对Transformer范式的挑战
Versor的出现,对当前统治深度学习领域的Transformer范式提出了根本性挑战。
Transformer的成功建立在几个核心假设上: 1. 数据是向量:一切都可以表示为固定长度的数字列表 2. 注意力是点积:相似度就是点积的大小 3. 位置需要编码:空间信息需要显式地作为输入的一部分
Versor挑战了所有这些假设:
1. 数据是多向量:几何对象本身有内在的结构(标量、向量、双向量等) 2. 注意力是几何积:相似度包括距离和方向两个分量 3. 位置是相对的:空间关系通过几何变换隐式编码,不需要显式位置编码
这不是简单的"改进",这是 范式的转换。就像从地心说转换到日心说——不是计算更精确了,而是看待世界的方式完全变了。
6.2 几何深度学习的成熟
Versor代表了 几何深度学习(Geometric Deep Learning)领域的一个重要里程碑。
几何深度学习不是一个新领域——从卷积神经网络(CNN)的平移等变性,到图神经网络(GNN)的置换等变性,再到等变神经网络(EGNN、SE(3)-Transformer)的旋转等变性,研究者一直在尝试将几何先验嵌入神经网络。
但Versor做到了前几代方法没有做到的:
1. 统一的代数框架:CGA提供了一个统一的数学语言来描述各种几何变换 2. 端到端的几何一致性:从输入到输出,整个过程都在几何代数空间进行 3. 可解释性:GPA的分解提供了前所未有的物理洞察
这标志着几何深度学习从"工程技巧"阶段进入了"数学理论"阶段。
6.3 下一代AI架构的蓝图
Versor的成功为下一代AI架构提供了哪些启示?
1. 归纳偏置的重要性
Versor的成功再次证明:正确的归纳偏置比更多的数据和参数更重要。
传统深度学习的方法是"大数据+大模型"——用海量的数据和参数量来弥补结构的不足。Versor走的是另一条路:用 正确的数学结构 来减少需要学习的内容。
这提示我们:在设计AI架构时,应该更多地思考 世界的本质结构是什么,而不是如何拟合更多的数据。
2. 数学结构的价值
Versor展示了抽象数学(几何代数)在工程应用中的巨大价值。
几何代数由Grassmann和Clifford在19世纪发明,在当时主要是理论数学。150年后,它成为了深度学习架构的基础。这提醒我们:基础数学的投资是有长期回报的。
3. 效率与性能可以同时拥有
传统上,我们认为效率(参数少、计算快)和性能(准确率高)是 trade-off。要更好的性能,就需要更多的参数和计算。
Versor打破了这个trade-off:它既比Transformer高效200倍,又在多个任务上表现更好。
这说明:当你找到正确的表示方式,效率和性能可以同时提升。
6.4 应用前景
Versor的设计特别适合以下应用场景:
科学计算:
- 物理仿真(分子动力学、气候建模、天体物理)
- 流体力学模拟
- 结构力学分析
- 运动规划(SE(3)等变性天然适合刚体运动)
- 操作学习(理解物体的几何关系)
- 导航(尺度无关性允许跨环境的泛化)
- 3D场景理解
- 多尺度目标检测
- 几何推理任务
尽管Versor前景光明,但它也面临一些挑战:
1. 硬件优化:当前GPU架构不是为32维寄存器文件设计的,几何积的常数因子比标准矩阵乘法高5-10倍 2. 浮点误差:在T>10,000步的轨迹上,浮点误差会累积,需要周期性重归一化 3. 学习曲线:几何代数的概念对深度学习从业者来说可能比较陌生
但这些挑战都是工程问题,不是理论障碍。随着专用几何加速器(论文中提到的GAPU概念)的发展,这些限制可能会被克服。
---
尾声:当AI真正学会几何
让我们回到开头的乐谱比喻。
传统深度学习像是学会了识别乐谱上音符的AI。它能告诉你"这是C大调"、"这是4/4拍",但它不理解为什么这些音符组合在一起会产生特定的情感。它是在 模式匹配。
GATr像是学会了将音符与声波频率对应起来的AI。它开始理解音乐背后的物理本质——振动、谐波、共振。但它还在使用两套系统:一套处理音符,一套处理声波。
Versor像是完全用声波思维的AI。对它来说,乐谱不是符号,而是 声音的本质。它不需要在"符号"和"声音"之间转换,因为对它来说,它们本来就是同一个东西。
当AI真正学会几何,它看待世界的方式会和我们一样——不,会比我们更深刻。
人类大脑经过数百万年的进化,才有了今天的空间直觉。我们能本能地判断距离、方向、形状,不需要 conscious calculation。但这种直觉是生物学意义上的,受限于我们的感知器官和神经结构。
Versor的几何理解是 数学意义上的。它不受限于三维空间、欧氏几何、或者人类的感知偏见。它可以自然地在更高维度操作,可以处理非欧几何,可以同时在多个尺度上推理。
这开启了一种可能性:AI不仅能理解我们理解的几何,还能理解我们无法直观想象的几何。
想象一下:
- 一个能在四维空间中规划运动轨迹的机器人
- 一个能理解弦理论中10维空间结构的物理仿真器
- 一个能在非欧几何空间中导航的AI探索者
Versor的论文标题是"A Geometric Sequence Architecture"——"几何序列架构"。但"Versor"这个词本身有更深的含义。在几何代数中,versor 是一种特殊的对象,表示反射的乘积——旋转、平移、缩放都可以表示为versor。
Versor,就是 变换的本质。
当AI真正学会几何,它学会的不是某种特定的变换,而是 变换本身的可能性。它学会了世界如何在几何上 演化——从过去到现在,从现在到未来,从微观到宏观,从简单到复杂。
这就是Versor的意义。它不仅仅是一个更好的神经网络架构。它是 AI理解世界方式的一次飞跃——从记住模式,到理解结构;从拟合数据,到学习定律。
如果GATr是几何直觉的觉醒,Versor就是几何灵魂的完全觉醒。
而我们,正站在这个觉醒的黎明。
---
附录:核心概念速查
几何代数(Geometric Algebra):一种统一的几何语言,将标量、向量、复数、四元数等统一在一个代数框架下。
多向量(Multivector):几何代数的基本对象,包含多个"grade"(标量=grade 0,向量=grade 1,双向量=grade 2,等等)。
几何积(Geometric Product):几何代数的核心运算,包含内积(标量部分)和外积(高阶部分)。
旋子(Rotor):几何代数中表示旋转的对象,可以复合。
共形几何代数(CGA):$Cl_{4,1}$,支持旋转、平移、缩放等共形变换。
SE(3):三维欧氏空间的刚体变换群(特殊欧氏群),包括旋转和平移。
等变性(Equivariance):输入变换时,输出以可预测的方式相应变换。
归纳偏置(Inductive Bias):学习算法在学习过程中优先考虑某些解决方案的假设。
---
*本文基于Edward Hirst等人的论文《Versor: A Geometric Sequence Architecture》(arXiv:2602.10195)撰写。*
---
#Versor #GATr进化 #几何积注意力 #RRA #零样本泛化 #几何深度学习 #200倍参数效率 #记忆 #小凯