论文: The Token Is a Group Element: On Lie-Algebra Attention over Matrix Lie Groups
作者: Przemyslaw Musialski
arXiv: 2606.20547
🌌 序幕:一个古老的数学幽灵
1872年,挪威数学家索菲斯·李(Sophus Lie)在研究微分方程时,偶然发现了一个惊人的结构:连续变换群。他想,如果有一种"几何",它的基本元素不是点,而是变换本身——旋转、平移、缩放、剪切——那会怎样?
150年后,在硅谷某栋大楼的地下室里,一个训练着Vision Transformer的工程师盯着屏幕上的注意力热图,完全没有意识到:她正在使用的注意力机制,与李当年的 vision 之间,只隔着一层窗户纸。
而2026年6月的这篇论文,就是那根戳破窗户纸的手指。
📖 第一章:从"向量"到"变换"——注意力机制的两次出生
🧠 1.1 注意力机制:AI的"聚光灯"
让我们先回到2017年,那个被Transformer改变的夏天。
注意力机制的本质,用费曼的话说,就是:"在一大堆东西中,找出哪些东西之间有关系。"
想象一下你走进一个嘈杂的派对。房间里有一百个人在同时说话。你的大脑是怎么运作的?它不会逐个处理所有声音,而是自动"聚焦"到和你说话的人身上,同时模糊掉背景噪音。这就是注意力——一种选择性的聚焦机制。
在Transformer中,这个机制被数学化为三个步骤:
- Query(查询):"我在找什么?"
- Key(键):"你有什么?"
- Value(值):"如果匹配,我给你什么?"
具体来说,如果你有n个token(可以理解为n个词,或n个图像块),注意力机制会计算每对token之间的"相似度分数":
然后,每个token的新表示,是所有其他token的Value的加权平均,权重就是上面算出的相似度。
这就像一个社交网络的中心性算法:每个人(token)的"新形象",取决于他所有朋友(相关token)的"影响力"加权平均。
🎭 1.2 但这里有一个问题
这个机制漂亮、优雅、高效。但它有一个隐含的假设:token是向量。
更准确地说,token被嵌入到一个向量空间 ℝ^d 中,注意力分数是向量内积的函数。这有什么问题吗?
问题在于:世界不总是向量。
当你说"把椅子旋转30度",你描述的是一个 变换,不是向量。当你说"把图像缩放2倍然后平移10像素",你描述的也是一个 变换。变换有结构:它们可以组合(先旋转再缩放),有逆操作(逆时针旋转30度抵消顺时针旋转30度),有单位元(什么都不做)。
这种结构,数学家称之为群(Group)。
🏛️ 第二章:李群——变换的"代数"
📐 2.1 什么是群?
群是一个非常抽象但极其强大的数学概念。它描述的是 一组操作,以及这些操作如何组合。
一个经典例子:想象一个正方形。你可以对它做四种操作:
- 旋转0°(什么都不做,单位元)
- 旋转90°
- 旋转180°
- 旋转270°
这些操作构成一个群。因为:
- 任意两个操作组合,还是这四个之一(封闭性)
- 有"什么都不做"这个操作(单位元)
- 每个操作都有逆操作(旋转90°的逆是旋转270°)
- 操作组合满足结合律(先旋转90°再旋转180° = 先旋转180°再旋转90°)
🔄 2.2 李群:可以"平滑"变换的群
李群是连续的群。它们的元素不是离散的操作(如旋转90°、180°),而是 连续变化的变换。
最重要的例子:
SO(2):平面上的旋转群。每个元素是一个2×2旋转矩阵,由角度θ参数化:
SE(2):平面上的刚体变换群(旋转+平移)。每个元素是一个3×3矩阵:
其中R是旋转,t是平移。
SO(3):三维空间中的旋转群。每个元素是一个3×3正交矩阵,行列式为1。想象一个球体,任意旋转它,SO(3)描述了所有可能的旋转。
Aff(2):二维仿射变换群。包括旋转、平移、缩放、剪切。这是"最强"的二维变换群,几乎包含了所有常见的2D图像变换。
这些群有什么共同特点?它们都是矩阵李群——每个群元素都是一个矩阵,群操作是矩阵乘法。
🧮 2.3 李代数:在"单位元"附近做微积分
李群很强大,但它们是弯曲的流形(想象一下SO(3)是一个三维球体的内部加上一些额外的结构)。在弯曲的空间上做微积分很麻烦。
李天才地发现:每个李群,在它的"单位元"(什么都不做的那个操作)附近,都有一个 线性近似空间,称为 李代数(Lie Algebra)。
李代数是 线性的,所以你可以在上面做微积分、加向量、求梯度。然后通过一个叫 指数映射(exponential map) 的函数,可以把李代数上的向量"映射"回李群上的元素。
这就像:地球表面是弯曲的(李群),但你在地面上的某一点,可以展开一个平面地图(李代数)。在平面上计算很方便,然后你可以把结果"卷回"地球表面。
李代数上的运算有一个关键工具:对数映射(logarithm map)。给定两个李群元素g_i和g_j,它们之间的"差异"可以表示为:
这个\(w_ij\)是李代数上的元素,描述了"从\(g_i\)到\(g_j\)需要做的变换"。
⚡ 第三章:论文的核心思想——把Token放在群上
🎯 3.1 一个激进的提议
传统Transformer:token是向量,注意力分数是向量的内积。
这篇论文:token是 李群元素,注意力分数是 李代数范数。
具体来说:
Token的定义:
g_i ∈ G (G是一个矩阵李群,如SE(2)、SO(3)、Aff(2))
token不再是一个d维向量,而是一个矩阵变换。
相对几何:
这个相对变换是 内蕴的(intrinsic)——它不依赖于任何外部参考系,是群结构本身定义的。
注意力分数:
这是 负的平方李代数范数。物理上,它衡量的是"从token i到token j需要做的变换有多大"。变换越大,分数越低(因为是负数),表示两个token"距离越远",注意力越弱。
关键:这个分数是**闭式(closed-form)**的,不需要学习!没有MLP,没有可训练参数,没有核函数。它是纯粹由群的几何结构决定的。
🌊 3.2 为什么这很重要?
传统注意力需要学习一个核函数(通常是MLP或点积),这意味着:
- 需要大量参数
- 需要大量数据来训练
- 学到的核可能不是几何上"正确"的
而李代数注意力:
- 零参数(分数是闭式的)
- 自动等变(Equivariance):如果所有输入变换都乘以同一个群元素,输出也变换同样的方式。这是"物理一致性"的数学保证。
- 自动满足上循环条件(Cocycle Condition):\(d(i,j) + d(j,k) = d(i,k)\) 这种度量性质自动成立。
- 到达仿射群:Aff(2)包含了缩放和剪切,这是传统方法(基于不可约表示或满射指数映射)无法处理的。
🧪 3.3 实验验证
论文在三个序列完成任务上验证了方法:
-
SE(2) 序列完成:给定一个旋转+平移序列的前几个元素,预测下一个。闭式分数匹配学习的MLP核,在SE(2)上甚至优于它,使用50-80倍更少的参数。
-
SO(3) 旋转预测:预测三维旋转序列的下一个元素。同样表现出色。
-
Aff(2) 仿射变换:这是最困难的,因为Aff(2)是非紧、非阿贝尔的,包含缩放和剪切。传统方法在这里完全失效,而李代数注意力仍然有效。
最关键的对比:一个基于向量token的基线(传统方法)在等变性上"破坏了五到十二个数量级"(invariance broken by five to twelve orders of magnitude)。这意味着传统方法在几何一致性上几乎完全失效。
🎨 第四章:为什么这像一场"认知革命"
🧩 4.1 从"表示"到"变换"
传统机器学习的一个基本假设是:数据应该被表示为向量。词是向量,图像是向量,用户是向量。
但这篇论文问了一个根本性的问题:如果数据的本质不是"状态"而是"变换"呢?
想象一下:你描述一个场景,不是说"椅子在(3,4)位置",而是说"从原点出发,平移(3,4)到达椅子"。前者是状态,后者是变换。如果世界本质上是变换的组合,那么把token看作变换,可能比看作向量更自然。
🔗 4.2 与物理学的共鸣
物理学中,一个深刻的认识是:物理定律应该在变换下保持不变。牛顿定律在任何惯性参考系中都一样,爱因斯坦的相对论在任何参考系中都一样。这种"不变性"或"等变性"是物理理论的核心要求。
李代数注意力把同样的原则引入AI:模型的注意力分数应该在群变换下保持一致。这不是一个"工程选择",而是对"模型理解世界方式"的深刻约束。
🌉 4.3 通往"几何深度学习"的桥梁
几何深度学习(Geometric Deep Learning)是一个新兴领域,它试图把对称性和几何结构纳入深度学习。传统的尝试(如等变神经网络、steerable CNN)往往依赖于表示论(irreducible representations)和球谐函数(spherical harmonics),数学上复杂且难以推广到非紧群。
这篇论文提供了一条新路径:忘掉表示论,直接使用李代数。因为token是群元素,相对几何是自然的,等变性是自动的,你不需要复杂的数学工具包。
🔮 第五章:局限与未来
⚠️ 5.1 当前局限
-
适用性:目前只在序列完成任务上验证。真正的图像/语言任务需要把"像素"或"词"映射到群元素,这本身就是一个研究问题。
-
对数映射的定义域:log映射只在单位元附近的某个邻域有定义("对数图")。对于"远离"单位元的变换,需要多个图(atlas)来覆盖整个群。论文假设所有相对姿态都在一个对数图内,这在某些应用中可能不成立。
-
计算成本:矩阵指数和对数计算比向量点积更昂贵。虽然论文说实验中没有出现瓶颈,但大规模应用需要优化。
🚀 5.2 未来方向
-
视觉Transformer:将图像块表示为SE(2)或Aff(2)元素,使得注意力在旋转/缩放/平移下自然等变。这对机器人视觉、医学图像分析尤其重要。
-
3D点云处理:点云数据的SO(3)等变性是核心问题。李代数注意力可能比当前的向量注意力更自然。
-
物理仿真:世界模型(world models)需要物理一致性。如果状态是变换而不是向量,模型的预测可能更"物理正确"。
-
与流匹配的连接:流匹配(flow matching)是生成模型的新范式,它也在学习流形上的变换。李代数注意力与流匹配在数学上可能有深层联系。
📝 结语:一场关于"基础"的重新思考
150年前,李在研究微分方程时创造了李群和李代数。他可能从未想过,这些纯数学的工具会在21世纪被用来改进图像生成模型。
但这篇论文提醒我们:基础数学的力量在于它的普适性。群论描述的是"变换的组合规律",这是宇宙的基本语言。当AI从"向量空间"走向"群流形",它不仅仅是在做一个工程改进,而是在学习用更本质的语言描述世界。
费曼曾经说过:"如果你认为你理解了量子力学,那你就不理解量子力学。" 对于注意力机制,也许有一天我们会说:"如果你认为注意力是向量点积,那你还没理解注意力。"
因为注意力的本质,不是计算相似度,而是理解关系。而当关系本身就是变换时,把token放在群上,就是回到了理解的源头。
"数学是现实的诗歌。" —— 大卫·希尔伯特
📚 参考文献
- Musialski, P. (2026). The Token Is a Group Element: On Lie-Algebra Attention over Matrix Lie Groups. arXiv:2606.20547.
- Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS.
- Weiler, M., et al. (2018). 3D Steerable CNNs. NeurIPS.
- Cohen, T., & Welling, M. (2016). Group Equivariant Convolutional Networks. ICML.
#论文 #arXiv #注意力机制 #李群 #几何深度学习 #小凯
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。