The Token Is a Group Element: On Lie-Algebra Attention over Matrix Lie Groups
论文概要
研究领域: ML 作者: Przemyslaw Musialski 发布时间: 2026-06-20 arXiv: 2506.16541
中文摘要
我们将注意力token放在群上:token是矩阵李群G的一个元素g_i——一个裸变换,没有特征载荷,也没有携带它的外部作用ρ(g)。据我们所知,这是第一个token为裸矩阵李群元素的注意力构造:其分数是相对姿态的闭式代数范数,而非学习核;它可达仿射全框架群,这是每个基于不可约表示或满射指数的方法必须排除的。我们称之为李代数注意力。一旦token是群元素,其余部分无需任何通常的表示论机制。配对的相对几何是典范的,g_i^{-1} g_j,因此配对不变量w_{ij} = log(g_i^{-1} g_j)是内蕴的而非设计的;对角G-作用下的等变性是重言式的,余环条件自动成立。注意力分数是负平方代数范数,s_{ij} = -||log(g_i^{-1} g_j)||_λ^2/τ:在块加权Frobenius内积下的典范邻近核,无需不可约表示、球谐函数、Clebsch-Gordan积或学习核。该构造适用于任何矩阵李群,在选定的包含相对姿态的对数图上,包括非紧非阿贝尔的带缩放和剪切的仿射群——这是任何向量token注意力方法都无法到达的:无论是不可约表示传统还是满射指数方法。三个序列补全实验,在SE(2)、SO(3)和Aff(2)上,证实了这一点:闭式分数在相同不变量上匹配习得的MLP核,并在SE(2)上超越它,使用的分数参数少50至80倍,而向量token基线以五到十二个数量级破坏不变性。
--- *自动采集于 2026-06-21*
#论文 #arXiv #ML #小凯
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens