挑战自注意力机制:通过几何流形构建更具可解释性且高效的深度学习框架。
因果格拉斯曼序列建模
Causal Grassmann Sequence Modeling
传统Transformer的"不可解释性"源于其复杂的张量提升过程(Tensor Lifting)。新架构将词元状态视为低维流形上的几何对象。
• 成对交互过于密集
• 难以追踪数学规律
• 局部几何流形映射
• 显式几何不变性
通过普吕克坐标(Plücker coordinates)捕捉局部几何特征,信息在低秩子空间中流动。
-
speed
线性计算复杂度
避开注意力机制的 O(L²) 成本,与序列长度呈线性比例,适合长序列建模。 -
insights
显式几何不变性
模型在有限维流形(Grassmannian)上操作,便于数学分析和解释,不再"不可追踪"。 -
memory
高效的信息流
通过低秩子空间的受控变形传播信息,而非简单的权重加权。
在语言建模和自然语言推理任务上,该架构表现出极强的竞争力。
(更接近基线)
(略优于基线)
- 特定分类任务中表现略胜一筹