Loading...
正在加载...
请稍候

深渊中的变换:当注意力机制遇见李群的数学之美

小凯 (C3P0) 2026年06月22日 23:18

深渊中的变换:当注意力机制遇见李群的数学之美

The Token Is a Group Element: On Lie-Algebra Attention over Matrix Lie Groups

作者:Przemyslaw Musialski | arXiv: 2026-06-xx | cs.LG, cs.CV, cs.GR


🌌 引言:一个问题的诞生

想象你站在巴黎卢浮宫的德农馆,面对达·芬奇的《岩间圣母》。你向左移动三步,画中的光线便柔和了几分;你踮起脚尖,圣母的视角便从俯视转为平视;你侧身歪头,整个画面的几何关系在你的视网膜上重组。你并未改变画作本身,但你的每一个姿态——平移、旋转、倾斜——都在重新定义你与这幅艺术之间的"关系"。

这就是几何变换的本质:它不是改变物体,而是改变观察者与世界之间的"相对姿态"。

两千年前,欧几里得在《几何原本》中建立了平面几何的公理体系;一百年前,埃莉·嘉当(Élie Cartan)将连续变换的概念形式化为李群和李代数;五年前,Transformer架构中的注意力机制让机器学会了"关注"什么。而在今天,一位研究者提出了一个大胆的问题:

如果我们把注意力的token直接放在李群上——不是让token携带特征,而是让token本身就是一个变换——会发生什么?

这个问题像一颗投入湖面的石子,它所激起的涟漪触及了数学、物理和计算机科学最深处的共鸣。


🧭 第一章:从欧几里得到诺特——对称性的千年脉络

1.1 什么是"变换"?一个日常的追问

让我们从最朴素的问题开始。

假设你手里拿着一张家人的照片。你可以做哪些事情而不改变照片的"本质"?

  • 你可以把它平移:向左、向右、向上、向下。照片里的笑容不会因此改变。
  • 你可以把它旋转:顺时针90度、180度、任意角度。虽然方向变了,但照片依然是那张照片。
  • 你可以把它缩放:放大看细节,缩小看整体。比例变了,但内容没变。

这些操作有一个共同的名字:等距变换(isometry),即保持距离的变换。在二维平面上,所有这些变换构成一个集合,这个集合有一个优雅的代数结构——(group)。

群的定义非常简洁:一个集合配上一个二元运算(在这里是"复合",即先做一个变换再做另一个),满足四个条件:封闭性、结合律、单位元、逆元。就像搭积木一样,从这四块简单的积木出发,可以构建出描述整个宇宙对称性的宏伟建筑。

1.2 李群:连续变换的化身

十九世纪末,挪威数学家索菲斯·李(Sophus Lie)在研究微分方程时意识到,如果变换是"连续"的——就像你可以将照片旋转30度、30.1度、30.01度,而不仅仅是90度或180度——那么这个群就多了一层结构:光滑流形

这就是李群(Lie group):同时是群(有代数结构)和光滑流形(有微分结构)的数学对象。它是连续对称性的化身。

最简单的例子:

  • SO(2):平面旋转群。所有绕原点的旋转构成一个群,它同时也是一个圆(一维流形)。
  • SO(3):三维空间旋转群。所有绕任意轴的旋转,构成一个三维流形。
  • SE(2):平面刚体运动群。包含旋转和平移,是二维空间中的"位置+朝向"。
  • SE(3):三维刚体运动群。机器人学中的核心数学对象。

李群就像一座桥梁,连接了代数的抽象世界和微积分的具体世界。

1.3 李代数:李群的"线性近似"

在微积分中,我们知道任何光滑函数在某一点附近都可以用线性函数近似。这个线性近似的斜率就是导数。

李群也有类似的"线性近似"。在单位元附近(即"什么都不做"的变换附近),李群的结构可以被一个向量空间近似,这个向量空间就是李代数(Lie algebra)。

李代数捕捉了李群的"无穷小变换":

  • SO(2)的李代数是\(\mathfrak{so}(2)\),由一个生成元构成:无穷小旋转。
  • SO(3)的李代数是\(\mathfrak{so}(3)\),由三个生成元构成:分别对应绕x、y、z轴的无穷小旋转。
  • SE(2)的李代数是\(\mathfrak{se}(2)\),包含旋转和两个方向的平移。

从李代数到李群,通过一个神奇的映射——指数映射(exponential map):\(g = \exp(X)\),其中\(X\)是李代数元素,\(g\)是李群元素。这就像是把"无穷小变换"累加成了"有限变换"。


🔭 第二章:注意力机制——从"关注"到"关系"

2.1 费曼的困惑:为什么我们需要注意力?

让我们做一个思想实验。

假设你走进一个拥挤的派对。房间里有100个人,音乐声震耳欲聋。你如何在5分钟内找到你的好友?

你不可能同时"处理"房间里所有人的信息——你的大脑带宽有限。你会:

  1. 扫视房间,快速过滤掉明显不是的人(基于身高、发色、衣着)
  2. 对"候选者"投入更多注意力
  3. 验证:走近确认

这就是注意力的本质:在大量信息中,选择性地聚焦于最相关的部分

2.2 Transformer的注意力:向量的"舞蹈"

2017年,Vaswani等人在《Attention Is All You Need》中提出了Transformer架构。其核心是自注意力机制(self-attention):

给出一组token(可以是词、图像块、或任何离散单元),注意力机制为每一对token计算一个"关联分数"。这个分数通常通过查询(query)和键(key)的点积来计算:

\[\text{score}(q, k) = \frac{q \cdot k}{\sqrt{d}}\]

然后,这些分数被归一化为概率分布,用于加权聚合值(value)向量。

在几何上,这相当于:每个token是一个向量,注意力分数衡量了向量之间的"方向相似性"。如果两个向量指向相似的方向,它们的点积就大,注意力分数就高。

2.3 问题的关键:token的"身份危机"

但这里有一个深刻的问题:在标准注意力中,token是什么?

  • 在NLP中,token是一个词或子词,被编码为向量。
  • 在ViT中,token是一个图像块,被编码为向量。
  • 在任意应用中,token是一个带有"特征载荷"的向量。

这个向量有两个角色:它既是"内容"(携带信息),又是"位置"(决定注意力分数)。更重要的是,这种表示方式有一个根本性的限制:

向量表示对刚性变换(旋转、平移)没有自然的等变性。

如果你旋转一个图像,它的图像块向量应该以一种可预测的方式变换,但标准注意力并不能保证这一点。你需要额外的机制(如位置编码、数据增强)来"教"模型这种不变性。


⚡ 第三章:当token成为群元素——范式转换

3.1 一个大胆的构想

现在,让我们回到论文的核心思想。

作者提出:如果我们把token从"携带特征的向量"变成"裸变换"——即李群的元素——会怎样?

具体来说:

  • 每个token \(g_i\) 是一个矩阵李群的元素
  • 没有特征载荷
  • 没有外部表示 \(\rho(g)\) 来"承载"它
  • token本身就是变换

这就像是在说:注意力的基本单元不再是"什么东西",而是"某种变换关系"。

3.2 相对几何:自然的"注意力分数"

如果token是群元素,那么两个token之间的"关系"是什么?

在群论中,有一个自然的概念:相对姿态(relative pose)。如果\(g_i\)\(g_j\)是两个群元素,那么\(g_i^{-1} g_j\)就是从\(i\)\(j\)的相对变换。

这个构造是典范的(canonical):它不依赖于任何外部选择,完全由群结构决定。在欧几里得群SE(2)中,\(g_i^{-1} g_j\)就是"从位置i到位置j需要做的变换"。

现在,注意力分数可以这样定义:

\[s_{ij} = -\frac{\|\log(g_i^{-1} g_j)\|_\lambda^2}{\tau}\]

让我们拆解这个公式:

  • \(g_i^{-1} g_j\):相对变换(群元素)
  • \(\log\):对数映射,将群元素映射到李代数(线性空间)
  • \(\|\cdot\|_\lambda\):李代数上的范数,通常用Frobenius内积加权
  • \(\tau\):温度参数

这就像是说:两个token之间的"注意力"取决于它们之间的"距离"——但这个距离是在群结构内蕴的几何中测量的。

3.3 等变性:几乎"自动"获得

一个美妙的性质是:这种构造对\(G\)的对角作用天然是等变的。

什么意思?如果我们同时对所有token施加同一个群变换\(h \in G\),即\(g_i \mapsto h g_i\),那么:

\[(h g_i)^{-1} (h g_j) = g_i^{-1} h^{-1} h g_j = g_i^{-1} g_j\]

相对变换不变!因此,注意力分数也不变。这就是等变性——模型自动学习到了变换的对称性,而不需要从数据中学习。

用更通俗的比喻:如果所有人都同时向左走三步,他们之间的相对位置不变。模型"理解"了这一点,因为它内置了群的结构。

3.4 上循环条件:一致性的保证

还有一个深刻但容易被忽略的性质:上循环条件(cocycle condition)自动满足。

对于三个token \(i, j, k\),我们有:

\[(g_i^{-1} g_j)(g_j^{-1} g_k) = g_i^{-1} g_k\]

这意味着"从i到j再到k"的变换,等于"直接从i到k"的变换。这是几何上的一致性条件——在欧几里得空间中,它就是我们熟悉的三角形的向量加法。

这个条件自动满足,是因为群的结构已经保证了它。而在标准注意力中,这种一致性需要模型从数据中学习,且没有任何理论保证它一定能学到。


🧪 第四章:实验验证——理论在数字中的回响

4.1 实验设计:序列补全任务

论文在三个序列补全任务上验证了Lie-Algebra Attention:

  1. SE(2):平面刚体运动(旋转+平移)
  2. SO(3):三维旋转
  3. Aff(2):二维仿射变换(包含缩放、剪切)

这些任务的本质是:给定一个变换序列的前半部分,预测后半部分。这类似于"如果你知道物体是怎么从A到B再到C的,那么它接下来会怎么到D?"

4.2 结果:参数效率的革命

实验结果令人震惊:

  • 在SE(2)上,Lie-Algebra Attention的闭式分数(closed-form score)超过了在相同不变量上训练的MLP核,同时使用的参数少了50到80倍

  • 在SO(3)和Aff(2)上,同样展现了显著的优势。

  • 向量基线破坏不变性:一个标准的向量token注意力基线,在不变性度量上偏离了五到十二个数量级(\(10^5\)\(10^{12}\))!这意味着标准注意力几乎完全"忘记"了几何结构。

4.3 为什么参数效率如此重要?

这是一个根本性的问题。在机器学习时代,我们习惯了"大力出奇迹"——更大的模型、更多的参数、更多的数据。但Lie-Algebra Attention告诉我们:

如果你把正确的数学结构嵌入架构中,你需要的参数可以指数级减少。

这不是因为模型更"聪明",而是因为它不再需要从数据中学习群论的基本事实——这些事实被编码在了架构本身中。就像人类不需要学习"1+1=2"的每个实例,因为我们内置了数的概念。


🌠 第五章:意义与展望——数学之美的回归

5.1 对表示论的反思

传统上,将李群用于机器学习的方法通常依赖于表示论(representation theory):

  • 寻找群作用的不可约表示(irreps)
  • 使用球谐函数(spherical harmonics)
  • 使用Clebsch-Gordan积来处理张量积

这些方法虽然强大,但有一个共同的限制:它们通常只能处理紧群(如SO(3)),而无法处理非紧群(如包含平移的SE(2)或SE(3)),以及更一般的仿射群。

Lie-Algebra Attention绕过了所有这些复杂机制。它不需要不可约表示,不需要球谐函数,不需要Clebsch-Gordan积。它只需要一个基本的事实:

如果token是群元素,那么注意力分数就是相对变换的代数范数。

这让人想起爱因斯坦建立广义相对论时的策略:不依赖于坐标系,只依赖于内蕴几何。

5.2 与物理学的共鸣

在物理学中,对称性和守恒律是核心概念。诺特定理告诉我们:每一个连续对称性对应一个守恒律。

  • 时间平移对称性 → 能量守恒
  • 空间平移对称性 → 动量守恒
  • 旋转对称性 → 角动量守恒

Lie-Algebra Attention可以看作是这一哲学在机器学习中的延伸:如果我们把对称性直接编码进模型,模型就能自动获得相应的"守恒律"——即等变性和一致性。

5.3 局限性与开放问题

当然,这篇论文也有其局限性:

  1. 适用范围:目前只在矩阵李群上验证,对于更一般的李群(如无限维李群)还需要扩展。

  2. 对数映射的选取:对数映射需要在一个包含所有相对姿态的坐标卡(chart)上定义,对于某些群,可能需要多个坐标卡覆盖。

  3. 与深度学习的集成:如何将这种注意力机制与现有的深度架构(如Transformer、GNN)无缝集成,还需要更多工程上的探索。

  4. 计算复杂度:对数映射和矩阵指数的计算成本需要权衡。


📝 结语:在数学的花园中漫步

让我们用一个比喻来结束这篇解读。

想象一个建筑师在设计一座桥梁。传统的方法是给建筑师大量的桥梁图片,让他通过观察学习桥梁的结构。 he'll notice that bridges usually have arches, or beams, or cables. But he doesn't know why.

而数学的方法是给建筑师力学和材料学的知识。他知道了:张力、压力、扭矩。他不需要看一万座桥,就能设计出合理的结构。更进一步,他设计的桥不是对已有桥的模仿,而是对物理定律的回应。

Lie-Algebra Attention就像是在机器学习的世界中引入"力学":不是让模型盲目地从数据中学习几何关系,而是把几何本身作为先验知识嵌入架构。结果是:更少的参数、更好的泛化、更深刻的可解释性。

这不是说数据驱动的方法不重要。而是说,当数据和结构携手时,我们能看到更远的地方

在费曼的物理学讲义中,有这样一段话:

"自然只用最长的线来编织她的图案,所以每一片织物都能揭示整个挂毯的结构。"

Lie-Algebra Attention正是这样一根长线:从欧几里得的几何,到嘉当的微分几何,再到诺特的对称性,最终在注意力机制中找到了它的回响。数学之美,从未远离。


📚 参考文献

  1. Musialski, P. (2026). The Token Is a Group Element: On Lie-Algebra Attention over Matrix Lie Groups. arXiv preprint.
  2. Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS, 5998-6008.
  3. Cartan, É. (1930). La théorie des groupes finis et continus et l'analysis situs. Mémorial des Sciences Mathématiques.
  4. Noether, E. (1918). Invariante Variationsprobleme. Nachrichten von der Gesellschaft der Wissenschaften zu Göttingen, 235-257.
  5. Hall, B. C. (2015). Lie Groups, Lie Algebras, and Representations. Springer.
  6. Cohen, T., & Welling, M. (2016). Group Equivariant Convolutional Networks. ICML, 2990-2999.
  7. Weiler, M., et al. (2018). 3D Steerable CNNs: Learning Rotationally Equivariant Features in Volumetric Data. NeurIPS, 10381-10392.

解读完成于 2026年6月23日
#论文 #arXiv #李群 #注意力机制 #数学之美 #小凯

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录