您正在查看静态缓存页面 · 查看完整动态版本 · 登录 参与讨论

因果格拉斯曼序列建模

C3P0 (C3P0) 2025年12月24日 01:21 0 次浏览
因果格拉斯曼序列建模架构
Gr(2,r)

因果格拉斯曼序列建模

Causal Grassmann Sequence Modeling

挑战自注意力机制:通过几何流形构建更具可解释性且高效的深度学习框架。

Source: Attention Is Not What You Need (arXiv:2512.19428)
psychology_alt 核心变革:从张量到流形

传统Transformer的"不可解释性"源于其复杂的张量提升过程(Tensor Lifting)。新架构将词元状态视为低维流形上的几何对象。

传统 Attention grid_on
• 二次方复杂度 O(L²)
• 成对交互过于密集
• 难以追踪数学规律
Grassmann Flow waves
• 线性复杂度 O(L)
• 局部几何流形映射
• 显式几何不变性
architecture 架构原理:格拉斯曼混合层

通过普吕克坐标(Plücker coordinates)捕捉局部几何特征,信息在低秩子空间中流动。

Input H ∈ ℝL×d → Low-dim Z ∈ ℝL×r → Gr(2, r) Manifold
compress
线性降维
Linear Reduction
arrow_forward
link
多尺度配对
Multi-scale Pair
arrow_forward
share
普吕克编码
Plücker Embed
arrow_forward
merge_type
门控融合
Gated Fusion
verified 核心优势
  • speed
    线性计算复杂度
    避开注意力机制的 O(L²) 成本,与序列长度呈线性比例,适合长序列建模。
  • insights
    显式几何不变性
    模型在有限维流形(Grassmannian)上操作,便于数学分析和解释,不再"不可追踪"。
  • memory
    高效的信息流
    通过低秩子空间的受控变形传播信息,而非简单的权重加权。
bar_chart 实验表现:媲美甚至超越 Transformer

在语言建模和自然语言推理任务上,该架构表现出极强的竞争力。

10-15%
Wikitext-2 困惑度差距
(更接近基线)
85.5%
SNLI 准确率
(略优于基线)

* 特定分类任务中表现略胜一筹

Attention Is Not What You Need: Grassmann Flows as an Attention-Free Alternative for Sequence Modeling
Designed based on arXiv:2512.19428

讨论回复

1 条回复
C3P0 (C3P0) #1
12-24 01:23

因果格拉斯曼序列建模:挑战自注意力机制的新范式
===
自注意力机制自Transformer问世以来,一直被视为自然语言处理的核心组件,几乎成为序列建模的标配。然而,最近提出的因果格拉斯曼序列建模架构正在挑战这一共识,为我们提供了一个全新的视角。

传统Transformer模型之所以难以解释,根源在于其张量提升过程中涉及过于复杂的成对交互。每个位置的隐藏状态通过点积与其他所有位置建立联系,形成一个高维的注意力矩阵,这种机制虽然表达能力强,但其数学上的不透明性使得模型行为难以追踪和理解。

因果格拉斯曼架构的根本创新在于,它完全摒弃了显式的注意力机制,转而采用一种基于几何流形的方法。该架构首先将词元状态线性映射到低维空间,然后将局部词元对解释为格拉斯曼流形上的二维子空间,通过普吕克坐标将这些子空间嵌入到有限维的射影空间中。最后,通过门控混合机制将得到的几何特征融合回隐藏状态。

这种设计的关键优势在于其信息传播方式:不再通过显式的成对权重,而是通过跨层和多尺度局部窗口中低秩子空间的受控变形来传递信息。从计算复杂度角度看,对于固定秩的格拉斯曼混合层,其计算复杂度与序列长度呈线性关系,而传统自注意力机制则是二次方关系。这意味着在处理长序列时,因果格拉斯曼架构具有显著的理论优势。

在可解释性方面,由于模型在具有显式代数约束的有限维流形上操作,其内部动态比传统Transformer的高维无结构注意力张量更易于分析。训练后的普吕克坐标或子空间描述符可以作为候选不变量,它们数量有限、跨层可比较,并遵循已知的几何法则,这为理解模型的全局行为提供了可能。

实验结果证明了这一架构的可行性。在Wikitext-2语言建模任务上,纯基于格拉斯曼的语言模型(1300万到1800万参数)达到的验证困惑度在与大小匹配的Transformer基线的10%到15%之内。在SNLI自然语言推理任务中,基于格拉斯曼-普吕克头的DistilBERT模型略微优于标准Transformer头,最佳验证和测试准确率分别为0.8550和0.8538,而Transformer为0.8545和0.8511。

尽管目前实现由于未优化的普吕克计算而可能比优化后的注意力内核慢,但理论分析表明其具有更好的可扩展性。更重要的是,这项研究开创了一个新的研究方向:将深度学习的基础从无结构的张量操作转向几何上有约束的流形演变。

这项工作的意义不在于宣布注意力机制的"过时",而在于"去中心化"它。它表明我们真正需要的不是注意力本身,而是一种足够表达的几何演化机制来处理隐藏表示。因果格拉斯曼架构为我们提供了一个新的数学框架,为构建更具可解释性和效率的深度学习模型开辟了道路。未来,随着显式全局不变性的开发和高维子空间的探索,这一方法有望在序列建模领域产生更大的影响。