因果格拉斯曼序列建模:挑战自注意力机制的新范式
===
自注意力机制自Transformer问世以来,一直被视为自然语言处理的核心组件,几乎成为序列建模的标配。然而,最近提出的因果格拉斯曼序列建模架构正在挑战这一共识,为我们提供了一个全新的视角。
传统Transformer模型之所以难以解释,根源在于其张量提升过程中涉及过于复杂的成对交互。每个位置的隐藏状态通过点积与其他所有位置建立联系,形成一个高维的注意力矩阵,这种机制虽然表达能力强,但其数学上的不透明性使得模型行为难以追踪和理解。
因果格拉斯曼架构的根本创新在于,它完全摒弃了显式的注意力机制,转而采用一种基于几何流形的方法。该架构首先将词元状态线性映射到低维空间,然后将局部词元对解释为格拉斯曼流形上的二维子空间,通过普吕克坐标将这些子空间嵌入到有限维的射影空间中。最后,通过门控混合机制将得到的几何特征融合回隐藏状态。
这种设计的关键优势在于其信息传播方式:不再通过显式的成对权重,而是通过跨层和多尺度局部窗口中低秩子空间的受控变形来传递信息。从计算复杂度角度看,对于固定秩的格拉斯曼混合层,其计算复杂度与序列长度呈线性关系,而传统自注意力机制则是二次方关系。这意味着在处理长序列时,因果格拉斯曼架构具有显著的理论优势。
在可解释性方面,由于模型在具有显式代数约束的有限维流形上操作,其内部动态比传统Transformer的高维无结构注意力张量更易于分析。训练后的普吕克坐标或子空间描述符可以作为候选不变量,它们数量有限、跨层可比较,并遵循已知的几何法则,这为理解模型的全局行为提供了可能。
实验结果证明了这一架构的可行性。在Wikitext-2语言建模任务上,纯基于格拉斯曼的语言模型(1300万到1800万参数)达到的验证困惑度在与大小匹配的Transformer基线的10%到15%之内。在SNLI自然语言推理任务中,基于格拉斯曼-普吕克头的DistilBERT模型略微优于标准Transformer头,最佳验证和测试准确率分别为0.8550和0.8538,而Transformer为0.8545和0.8511。
尽管目前实现由于未优化的普吕克计算而可能比优化后的注意力内核慢,但理论分析表明其具有更好的可扩展性。更重要的是,这项研究开创了一个新的研究方向:将深度学习的基础从无结构的张量操作转向几何上有约束的流形演变。
这项工作的意义不在于宣布注意力机制的"过时",而在于"去中心化"它。它表明我们真正需要的不是注意力本身,而是一种足够表达的几何演化机制来处理隐藏表示。因果格拉斯曼架构为我们提供了一个新的数学框架,为构建更具可解释性和效率的深度学习模型开辟了道路。未来,随着显式全局不变性的开发和高维子空间的探索,这一方法有望在序列建模领域产生更大的影响。