深渊中的变换:当注意力机制遇见李群的数学之美
深渊中的变换:当注意力机制遇见李群的数学之美
> *The Token Is a Group Element: On Lie-Algebra Attention over Matrix Lie Groups* > > 作者:Przemyslaw Musialski | arXiv: 2026-06-xx | cs.LG, cs.CV, cs.GR
---
🌌 引言:一个问题的诞生
想象你站在巴黎卢浮宫的德农馆,面对达·芬奇的《岩间圣母》。你向左移动三步,画中的光线便柔和了几分;你踮起脚尖,圣母的视角便从俯视转为平视;你侧身歪头,整个画面的几何关系在你的视网膜上重组。你并未改变画作本身,但你的每一个姿态——平移、旋转、倾斜——都在重新定义你与这幅艺术之间的"关系"。
这就是几何变换的本质:它不是改变物体,而是改变观察者与世界之间的"相对姿态"。
两千年前,欧几里得在《几何原本》中建立了平面几何的公理体系;一百年前,埃莉·嘉当(Élie Cartan)将连续变换的概念形式化为李群和李代数;五年前,Transformer架构中的注意力机制让机器学会了"关注"什么。而在今天,一位研究者提出了一个大胆的问题:
如果我们把注意力的token直接放在李群上——不是让token携带特征,而是让token本身就是一个变换——会发生什么?
这个问题像一颗投入湖面的石子,它所激起的涟漪触及了数学、物理和计算机科学最深处的共鸣。
---
🧭 第一章:从欧几里得到诺特——对称性的千年脉络
1.1 什么是"变换"?一个日常的追问
让我们从最朴素的问题开始。
假设你手里拿着一张家人的照片。你可以做哪些事情而不改变照片的"本质"?
- 你可以把它平移:向左、向右、向上、向下。照片里的笑容不会因此改变。
- 你可以把它旋转:顺时针90度、180度、任意角度。虽然方向变了,但照片依然是那张照片。
- 你可以把它缩放:放大看细节,缩小看整体。比例变了,但内容没变。
群的定义非常简洁:一个集合配上一个二元运算(在这里是"复合",即先做一个变换再做另一个),满足四个条件:封闭性、结合律、单位元、逆元。就像搭积木一样,从这四块简单的积木出发,可以构建出描述整个宇宙对称性的宏伟建筑。
1.2 李群:连续变换的化身
十九世纪末,挪威数学家索菲斯·李(Sophus Lie)在研究微分方程时意识到,如果变换是"连续"的——就像你可以将照片旋转30度、30.1度、30.01度,而不仅仅是90度或180度——那么这个群就多了一层结构:光滑流形。
这就是李群(Lie group):同时是群(有代数结构)和光滑流形(有微分结构)的数学对象。它是连续对称性的化身。
最简单的例子:
- SO(2):平面旋转群。所有绕原点的旋转构成一个群,它同时也是一个圆(一维流形)。
- SO(3):三维空间旋转群。所有绕任意轴的旋转,构成一个三维流形。
- SE(2):平面刚体运动群。包含旋转和平移,是二维空间中的"位置+朝向"。
- SE(3):三维刚体运动群。机器人学中的核心数学对象。
1.3 李代数:李群的"线性近似"
在微积分中,我们知道任何光滑函数在某一点附近都可以用线性函数近似。这个线性近似的斜率就是导数。
李群也有类似的"线性近似"。在单位元附近(即"什么都不做"的变换附近),李群的结构可以被一个向量空间近似,这个向量空间就是李代数(Lie algebra)。
李代数捕捉了李群的"无穷小变换":
- SO(2)的李代数是$\mathfrak{so}(2)$,由一个生成元构成:无穷小旋转。
- SO(3)的李代数是$\mathfrak{so}(3)$,由三个生成元构成:分别对应绕x、y、z轴的无穷小旋转。
- SE(2)的李代数是$\mathfrak{se}(2)$,包含旋转和两个方向的平移。
---
🔭 第二章:注意力机制——从"关注"到"关系"
2.1 费曼的困惑:为什么我们需要注意力?
让我们做一个思想实验。
假设你走进一个拥挤的派对。房间里有100个人,音乐声震耳欲聋。你如何在5分钟内找到你的好友?
你不可能同时"处理"房间里所有人的信息——你的大脑带宽有限。你会: 1. 扫视房间,快速过滤掉明显不是的人(基于身高、发色、衣着) 2. 对"候选者"投入更多注意力 3. 验证:走近确认
这就是注意力的本质:在大量信息中,选择性地聚焦于最相关的部分。
2.2 Transformer的注意力:向量的"舞蹈"
2017年,Vaswani等人在《Attention Is All You Need》中提出了Transformer架构。其核心是自注意力机制(self-attention):
给出一组token(可以是词、图像块、或任何离散单元),注意力机制为每一对token计算一个"关联分数"。这个分数通常通过查询(query)和键(key)的点积来计算:
$$\text{score}(q, k) = \frac{q \cdot k}{\sqrt{d}}$$
然后,这些分数被归一化为概率分布,用于加权聚合值(value)向量。
在几何上,这相当于:每个token是一个向量,注意力分数衡量了向量之间的"方向相似性"。如果两个向量指向相似的方向,它们的点积就大,注意力分数就高。
2.3 问题的关键:token的"身份危机"
但这里有一个深刻的问题:在标准注意力中,token是什么?
- 在NLP中,token是一个词或子词,被编码为向量。
- 在ViT中,token是一个图像块,被编码为向量。
- 在任意应用中,token是一个带有"特征载荷"的向量。
向量表示对刚性变换(旋转、平移)没有自然的等变性。
如果你旋转一个图像,它的图像块向量应该以一种可预测的方式变换,但标准注意力并不能保证这一点。你需要额外的机制(如位置编码、数据增强)来"教"模型这种不变性。
---
⚡ 第三章:当token成为群元素——范式转换
3.1 一个大胆的构想
现在,让我们回到论文的核心思想。
作者提出:如果我们把token从"携带特征的向量"变成"裸变换"——即李群的元素——会怎样?
具体来说:
- 每个token $g_i$ 是一个矩阵李群的元素
- 没有特征载荷
- 没有外部表示 $\rho(g)$ 来"承载"它
- token本身就是变换
3.2 相对几何:自然的"注意力分数"
如果token是群元素,那么两个token之间的"关系"是什么?
在群论中,有一个自然的概念:相对姿态(relative pose)。如果$g_i$和$g_j$是两个群元素,那么$g_i^{-1} g_j$就是从$i$到$j$的相对变换。
这个构造是典范的(canonical):它不依赖于任何外部选择,完全由群结构决定。在欧几里得群SE(2)中,$g_i^{-1} g_j$就是"从位置i到位置j需要做的变换"。
现在,注意力分数可以这样定义:
$$s_{ij} = -\frac{\|\log(g_i^{-1} g_j)\|_\lambda^2}{\tau}$$
让我们拆解这个公式:
- $g_i^{-1} g_j$:相对变换(群元素)
- $\log$:对数映射,将群元素映射到李代数(线性空间)
- $\|\cdot\|_\lambda$:李代数上的范数,通常用Frobenius内积加权
- $\tau$:温度参数
3.3 等变性:几乎"自动"获得
一个美妙的性质是:这种构造对$G$的对角作用天然是等变的。
什么意思?如果我们同时对所有token施加同一个群变换$h \in G$,即$g_i \mapsto h g_i$,那么:
$$(h g_i)^{-1} (h g_j) = g_i^{-1} h^{-1} h g_j = g_i^{-1} g_j$$
相对变换不变!因此,注意力分数也不变。这就是等变性——模型自动学习到了变换的对称性,而不需要从数据中学习。
用更通俗的比喻:如果所有人都同时向左走三步,他们之间的相对位置不变。模型"理解"了这一点,因为它内置了群的结构。
3.4 上循环条件:一致性的保证
还有一个深刻但容易被忽略的性质:上循环条件(cocycle condition)自动满足。
对于三个token $i, j, k$,我们有: $$(g_i^{-1} g_j)(g_j^{-1} g_k) = g_i^{-1} g_k$$
这意味着"从i到j再到k"的变换,等于"直接从i到k"的变换。这是几何上的一致性条件——在欧几里得空间中,它就是我们熟悉的三角形的向量加法。
这个条件自动满足,是因为群的结构已经保证了它。而在标准注意力中,这种一致性需要模型从数据中学习,且没有任何理论保证它一定能学到。
---
🧪 第四章:实验验证——理论在数字中的回响
4.1 实验设计:序列补全任务
论文在三个序列补全任务上验证了Lie-Algebra Attention: 1. SE(2):平面刚体运动(旋转+平移) 2. SO(3):三维旋转 3. Aff(2):二维仿射变换(包含缩放、剪切)
这些任务的本质是:给定一个变换序列的前半部分,预测后半部分。这类似于"如果你知道物体是怎么从A到B再到C的,那么它接下来会怎么到D?"
4.2 结果:参数效率的革命
实验结果令人震惊:
- 在SE(2)上,Lie-Algebra Attention的闭式分数(closed-form score)超过了在相同不变量上训练的MLP核,同时使用的参数少了50到80倍。
- 在SO(3)和Aff(2)上,同样展现了显著的优势。
- 向量基线破坏不变性:一个标准的向量token注意力基线,在不变性度量上偏离了五到十二个数量级($10^5$到$10^{12}$)!这意味着标准注意力几乎完全"忘记"了几何结构。
4.3 为什么参数效率如此重要?
这是一个根本性的问题。在机器学习时代,我们习惯了"大力出奇迹"——更大的模型、更多的参数、更多的数据。但Lie-Algebra Attention告诉我们:
如果你把正确的数学结构嵌入架构中,你需要的参数可以指数级减少。
这不是因为模型更"聪明",而是因为它不再需要从数据中学习群论的基本事实——这些事实被编码在了架构本身中。就像人类不需要学习"1+1=2"的每个实例,因为我们内置了数的概念。
---
🌠 第五章:意义与展望——数学之美的回归
5.1 对表示论的反思
传统上,将李群用于机器学习的方法通常依赖于表示论(representation theory):
- 寻找群作用的不可约表示(irreps)
- 使用球谐函数(spherical harmonics)
- 使用Clebsch-Gordan积来处理张量积
Lie-Algebra Attention绕过了所有这些复杂机制。它不需要不可约表示,不需要球谐函数,不需要Clebsch-Gordan积。它只需要一个基本的事实:
如果token是群元素,那么注意力分数就是相对变换的代数范数。
这让人想起爱因斯坦建立广义相对论时的策略:不依赖于坐标系,只依赖于内蕴几何。
5.2 与物理学的共鸣
在物理学中,对称性和守恒律是核心概念。诺特定理告诉我们:每一个连续对称性对应一个守恒律。
- 时间平移对称性 → 能量守恒
- 空间平移对称性 → 动量守恒
- 旋转对称性 → 角动量守恒
5.3 局限性与开放问题
当然,这篇论文也有其局限性:
1. 适用范围:目前只在矩阵李群上验证,对于更一般的李群(如无限维李群)还需要扩展。
2. 对数映射的选取:对数映射需要在一个包含所有相对姿态的坐标卡(chart)上定义,对于某些群,可能需要多个坐标卡覆盖。
3. 与深度学习的集成:如何将这种注意力机制与现有的深度架构(如Transformer、GNN)无缝集成,还需要更多工程上的探索。
4. 计算复杂度:对数映射和矩阵指数的计算成本需要权衡。
---
📝 结语:在数学的花园中漫步
让我们用一个比喻来结束这篇解读。
想象一个建筑师在设计一座桥梁。传统的方法是给建筑师大量的桥梁图片,让他通过观察学习桥梁的结构。 he'll notice that bridges usually have arches, or beams, or cables. But he doesn't know why.
而数学的方法是给建筑师力学和材料学的知识。他知道了:张力、压力、扭矩。他不需要看一万座桥,就能设计出合理的结构。更进一步,他设计的桥不是对已有桥的模仿,而是对物理定律的回应。
Lie-Algebra Attention就像是在机器学习的世界中引入"力学":不是让模型盲目地从数据中学习几何关系,而是把几何本身作为先验知识嵌入架构。结果是:更少的参数、更好的泛化、更深刻的可解释性。
这不是说数据驱动的方法不重要。而是说,当数据和结构携手时,我们能看到更远的地方。
在费曼的物理学讲义中,有这样一段话:
> "自然只用最长的线来编织她的图案,所以每一片织物都能揭示整个挂毯的结构。"
Lie-Algebra Attention正是这样一根长线:从欧几里得的几何,到嘉当的微分几何,再到诺特的对称性,最终在注意力机制中找到了它的回响。数学之美,从未远离。
---
📚 参考文献
1. Musialski, P. (2026). *The Token Is a Group Element: On Lie-Algebra Attention over Matrix Lie Groups*. arXiv preprint. 2. Vaswani, A., et al. (2017). Attention Is All You Need. *NeurIPS*, 5998-6008. 3. Cartan, É. (1930). *La théorie des groupes finis et continus et l'analysis situs*. Mémorial des Sciences Mathématiques. 4. Noether, E. (1918). Invariante Variationsprobleme. *Nachrichten von der Gesellschaft der Wissenschaften zu Göttingen*, 235-257. 5. Hall, B. C. (2015). *Lie Groups, Lie Algebras, and Representations*. Springer. 6. Cohen, T., & Welling, M. (2016). Group Equivariant Convolutional Networks. *ICML*, 2990-2999. 7. Weiler, M., et al. (2018). 3D Steerable CNNs: Learning Rotationally Equivariant Features in Volumetric Data. *NeurIPS*, 10381-10392.
---
*解读完成于 2026年6月23日* *#论文 #arXiv #李群 #注意力机制 #数学之美 #小凯*
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens