🌊 引子:两条河流的交汇
你有没有想过,一个语言模型在读一篇长文章时,它的"记忆"究竟是怎么工作的?
想象一下你在读一本推理小说。读到最后一章,侦探说出了凶手名字。你之所以能恍然大悟,是因为你的大脑在几十页前就已经默默记下了一条关键线索——可能是凶手上衣口袋里露出的一角手帕,也可能是他在楼梯转角处那个不自然的停顿。这条线索在时间中沉睡了很久,但当真相揭晓的那一刻,它从记忆的深水中浮了上来。
这种长程依赖的能力——从遥远的过去召回一条信息,并且让它不被沿途的噪声淹没——正是现代序列模型面临的核心挑战。
今天,这个领域有两条河流在奔流。
一条叫Transformer,它靠一种叫做"自注意力"的机制工作。简单来说,它像一个图书馆管理员,每次读到新内容时,都会回头翻遍整本书,计算每段文字与新内容的相关性,然后把最相关的部分挑出来。这种方法极其强大,但它的代价是二次方的计算复杂度——书越厚,翻书的次数呈平方级增长。更隐蔽的问题是,当整本书都很"平"、没有哪一段特别突出时,注意力就会像阳光洒在广阔的湖面上一样被稀释开来,任何单个信息点的影响力都只剩下 \(O(1/t)\) 的那么一点微光。
另一条河流叫Mamba(以及它所属的"状态空间模型"家族)。它更像一个流浪者,只背着一个随身的小包(叫做"隐状态"),每到一个新地方,就把看到的东西塞进包里,同时可能丢掉一些旧的。这种方法的代价是线性的,意味着它可以走很远很远而不累。但问题是,包的容量有限——旧的东西会以指数速度被遗忘。你昨天塞进去的一条线索,经过一百页后,可能只剩下 \(e^{-100}\) 那么一点几乎可以忽略的痕迹。
两条河流各有利弊。Transformer选择一次性回头读完所有内容,但会累、会稀释;Mamba选择轻装前行,但会遗忘。
2026年4月,一个叫 Sessa(Selective State Space Attention)的新架构出现了。它的核心想法简单到令人惊讶:
如果把Transformer的"注意力"注入Mamba的"反馈回路"里,会发生什么?
答案出乎预料地优美。Sessa在长程任务上同时击败了Transformer和Mamba,而在短程任务上依然保持竞争力。更重要的是,它的理论分析揭示了三种架构之间本质的数学差异:Transformer的记忆以 \(1/t\) 衰减(稀释),Mamba以 \(e^{-t}\) 衰减(遗忘),而Sessa可以做到 \(t^{-\beta}\) 衰减(幂律)——比指数慢得多,却又不像 \(1/t\) 那样迅速消散。
本文就来聊聊这个把两条河流汇成一片新海洋的故事。
🧭 信息如何在时间中旅行:直接读取 vs. 反馈回路
在深入Sessa之前,咱们先花点时间理解"信息如何在序列模型的时间维度中传播"这件事。这听起来很抽象,但说白了就是:一个词(token)如何影响它后面的词?
一条路:直接读取(Direct-Read)
Transformer的自注意力就是一个典型的直接读取系统。当模型在第 \(t\) 个位置输出结果时,它会回头从第0个到第 \(t\) 个位置的所有可见内容中直接挑选。
用数学语言说,输出 \(y_t\) 是值向量 \(v_j\) 的加权和:
这里的 \(\alpha_{t,j}^{\text{fwd}}\) 就是注意力权重——它们告诉模型"第 \(j\) 个词有多重要"。
这种结构的特点是:影响只经过一条"跳"。从源位置 \(\tau\) 到目标位置 \(t\),信息只走一条直接的边 \(\tau \to t\)。不需要中间站,不需要反复传递。这就像一个领导者直接给每个下属发邮件——高效、精准,但前提是领导得记得住所有人的名字和职位。
小贴士:你可以把直接读取想象成一次性的"大扫视"。你站在山顶,用望远镜扫视整片平原,找出最显眼的几个目标。但如果平原上所有东西看起来都差不多,你就很难挑出真正的重点。
问题出在"稀释"(dilution)上。当注意力权重 \(\alpha_{t,j}\) 被分散到很多位置时(论文中称之为"diffuse regime"),每个位置分到的权重大约是 \(O(1/t)\)。对于一个很早出现的源位置 \(\tau\) 和一个很远的当前位置 \(t\),权重衰减的速度是 \(O(1/\ell)\),其中 \(\ell = t - \tau\) 是时间间隔。换句话说,信息不会被主动遗忘,但会随着越来越多新内容的加入而被冲淡。
另一条路:反馈回路(Feedback)
状态空间模型(SSM)走的是完全不同的路线。它维护一个隐状态 \(h_t\),并通过递推公式不断更新:
这里的 \(A_{\text{ssm},t}\) 是状态转移矩阵。信息从 \(\tau\) 传到 \(t\) 要走一条长长的链:\(\tau \to \tau+1 \to \tau+2 \to \cdots \to t\)。每一步都要经过状态转移矩阵的"过滤"。
以Mamba为例,它的离散化转移矩阵是:
其中 \(\Delta_t\) 是输入依赖的步长。如果 \(\Delta_t\) 不接近0,那么每一步都会按 \(e^{-\lambda \Delta_t}\) 的因子衰减。累积走 \(\ell\) 步后,衰减因子是:
论文提出了一个关键概念叫 "failed freeze time"(冻结时间失败):如果Mamba不能在长区间内保持 \(\Delta_r \approx 0\)(也就是不能"冻结"记忆),那么累积的离散化时间会线性增长,导致指数级遗忘。
小贴士:Mamba有点像传话游戏。第一个人说一句悄悄话,传给第二个人时可能漏掉几个词,第二个人再传给第三个人时又漏掉一些……传到第十个人的时候,最初的信息可能已经面目全非。Mamba通过"选择性冻结"(selective freeze)来减缓这个过程——在关键时刻把 \(\Delta_t\) 压到接近0,相当于让传话的人大声复述一遍。但如果环境嘈杂、关键时刻太多,这个方法就会失效。
三种路由方式的图景
论文用一幅非常直观的图来总结三种架构在时间维度上的信息路由方式:
| 架构 | 路由方式 | 数学特征 |
|---|---|---|
| Transformer | 单跳直接边 \(\tau \to t\) | 权重 \(\sim 1/\ell\),稀释 |
| Mamba | 单条链 \(\tau \to \cdots \to t\) | 权重 \(\sim e^{-c\ell}\),指数遗忘 |
| Sessa | 多跳多路径聚合 | 权重 \(\sim \ell^{-\beta}\),幂律衰减 |
Sessa的魔力就在于:它在反馈回路内部引入了注意力机制,使得信息可以从 \(\tau\) 到 \(t\) 经过多条不同长度的路径传播,而这些路径的贡献被累加起来。这正是幂律衰减的来源——路径数随长度增长,部分抵消了每一步的衰减。
🧠 Sessa的魔法:把注意力注入反馈路径
好了,现在咱们来解剖Sessa的架构。看看它是如何把Transformer和Mamba"缝合"在一起的。
整体结构:一个门控MLP包裹的混合器
Sessa的基本计算单元是一个block,它的结构看起来很熟悉:
这和许多现代解码器架构(如Gated MLP)基本一致。真正的创新在 Mixer 里面。
混合器内部:前向注意力 + 反馈注意力 + 因果求解
Sessa的Mixer接收 \(\bar{a} \in \mathbb{R}^{T \times D}\),输出 \(s \in \mathbb{R}^{T \times D}\)。它包含三个核心组件:
1. 前向注意力(Forward Attention)
和Transformer一样,Sessa也有一套前向的因果自注意力:
这里用了 RoPE(旋转位置编码)来注入相对位置信息。\(f_t\) 是"前向信号"——类似于Transformer的输出,是一次性读取的结果。
2. 反馈注意力(Feedback Attention)
这是Sessa的灵魂。它用另一套注意力机制来为反馈路径生成权重:
注意反馈注意力不使用RoPE——因为反馈路径本身就有严格的时间方向性(严格下三角),它已经内嵌了绝对时间顺序。
反馈权重通过一个标量增益 \(\gamma_t\) 进行调制:
然后用这些权重构建反馈路由矩阵:
\(\gamma_t\) 的作用是控制反馈的"强度"——它的范围被限制在 \((-1, 1)\) 内,这保证了系统的稳定性(后文会详细讨论)。由于 \(\alpha_{t,\cdot}^{\text{fb}}\) 是一个在严格过去上的概率分布,\(B_{\text{fb}}\) 的每一行和都被 \(|\gamma_t| < 1\) 所约束,这确保了反馈不会无限放大。
3. 因果下三角求解(Causal Lower-Triangular Solve)
最后,Mixer的输出 \(s\) 是通过求解一个线性系统得到的:
或者写成递推形式:
小贴士:这个方程看起来吓人,其实本质上就是一个"带权重的累积和"。想象你在写日记,每一天你不仅写下当天的新感受 \(f_t\),还会回头翻翻过去的日记,挑出几篇最相关的(由 \(\alpha_{t,j}^{\text{fb}}\) 决定相关性),把它们的内容按一定比例(\(\gamma_t\))混入今天的记录中。Transformer只写新感受;Mamba只翻昨天那一页;Sessa则是翻了所有过去的日记,还按重要性做了加权。
多跳路由的视角
论文给出了一个非常优美的数学解释。因为 \(B_{\text{fb}}\) 是严格下三角矩阵,在有限时间范围 \(T\) 上它是幂零的(\(B_{\text{fb}}^T = 0\)),所以:
因此 Mixer 的输出可以展开为:
每一项 \(B_{\text{fb}}^k f\) 对应经过 \(k\) 次内部反馈步的贡献。更具体地说,对于指标 \(\tau \leq t\):
这是对从 \(\tau\) 到 \(t\) 的所有长度为 \(k\) 的有向路径求和!
这意味着,在Sessa中,信息可以从 \(\tau\) 到 \(t\) 经过多条不同长度的路径传播:直接一跳(\(k=1\))、经过两个中间点(\(k=2\))、三个中间点(\(k=3\))……所有路径的贡献都被累加起来。而在Transformer中只有 \(k=1\) 的单跳路径;在Mamba中只有 \(k=\ell\)(固定等于间隔长度)的单条链式路径。
正是这种路径多样性,让Sessa在长程传播中表现出截然不同的数学行为。
📊 Power-Law记忆尾:为什么指数和倒数都不够
现在咱们来到论文最精彩的部分——理论分析。三位主角(Transformer、Mamba、Sessa)在长程记忆上的数学差异,被用一套统一的Jacobian分析框架精确刻画出来。
诊断工具:Jacobian tells the story
论文定义了三种Jacobian(即敏感度矩阵)来诊断记忆机制:
1. 固定路由Jacobian:冻结注意力权重,只看线性映射的衰减行为。
- Transformer: \(J^{\text{attn}}_{t,\tau} = \alpha_{t,\tau}^{\text{fwd}} I_D\) —— 直接由注意力权重决定
- Mamba: \(J^{\text{ssm}}_{t,\tau} = C_{\text{ssm},t} \left(\prod_{r=\tau+1}^{t} A_{\text{ssm},r}\right) B_{\text{ssm},\tau}\) —— 状态转移链
- Sessa: \(J^{\text{sessa}}_{t,\tau} = [(I - B_{\text{fb}})^{-1}]_{t,\tau}\) —— 反馈求解的逆矩阵
2. 端到端Jacobian:考虑完整非线性块的实际敏感度 \(\partial y_t / \partial x_\tau\)。
3. 深层标量传输分数:对于多层堆叠,提取标量分数来比较源和干扰器的影响。
三种衰减律
在"扩散路由"(diffuse routing)的共同假设下——也就是注意力不能sharp地集中在少数几个位置,而是分散在整个可见窗口上——三种架构表现出三种截然不同的衰减律:
Transformer:\(O(1/\ell)\) —— 稀释
在扩散注意力制度下,每个位置的注意力权重约为 \(O(1/|W_t|)\)。对于全前缀注意力,\(|W_t| = t+1\),所以老token \(\tau = O(1)\) 和当前位置 \(t \asymp \ell\) 之间的权重是 \(O(1/\ell)\)。
这不是"遗忘",而是"稀释"——随着上下文越来越长,每个历史token分到的"注意力蛋糕"越来越小。
Mamba:\(O(e^{-c\ell})\) —— 指数遗忘
在"冻结时间失败"(failed freeze time)的制度下——也就是Mamba不能在长区间内保持 \(\Delta_r \approx 0\)——累积离散化时间线性增长:
导致:
这是指数级的遗忘。经过100步后,影响可能已经小到机器精度都捕捉不到了。
Sessa:\(O(\ell^{-\beta})\) —— 幂律衰减
这是Sessa的招牌。在扩散反馈路由假设下(\(\alpha_{t,j}^{\text{fb}} \leq c_2/t\),\(|\gamma_t| \leq \gamma_{\text{max}}\),且 \(\gamma_{\text{max}} c_2 < 1\)),定理8证明:
这个衰减律叫做幂律(power-law)——它比 \(1/\ell\) 更慢(因为 \(\beta_{\text{tail}} < 1\) 时 \(\ell^{-\beta_{\text{tail}}} \gg 1/\ell\) 对于大 \(\ell\)),又比 \(e^{-c\ell}\) 慢得多。
小贴士:幂律衰减是自然界中非常常见的现象。想想地震的频率——小地震很多,大地震很少,它们之间的关系就是幂律。或者想想互联网链接的分布——少数网站有大量外链,大多数只有几个,这也是幂律。幂律的特点是"没有特征尺度"——不像指数衰减那样"过了一个门槛就基本消失",也不像 \(1/t\) 那样"每增加一步都按固定比例稀释"。它是某种介于两者之间的"长尾"行为。
尖锐性(Tightness)
论文不只是给了一个上界,还证明了在均匀路由(uniform routing)的具体实现制度下,这个上界是紧的——也就是说,幂律衰减的速度恰好就是 \(\Theta(\ell^{-\beta})\),而不是更悲观的估计。
在均匀路由制度下(\(\alpha_{t,j}^{\text{fb}} = \frac{\gamma}{t} \mathbf{1}[j < t]\)),论文给出了闭式解:
用Gamma函数的渐近性质,可以严格证明 \(y_{\tau+\ell} = \Theta_\tau(\ell^{-\beta_{\text{tail}}})\),其中 \(\beta_{\text{tail}} = 1 - \gamma\)。
🧮 理论高峰:灵活选择性检索
幂律衰减只是Sessa的"基本功"。论文更进一步证明了一个更强的结论:Sessa可以实现灵活的选择性检索档案(flexible selective retrieval profiles),而Transformer和Mamba做不到。
什么是"选择性检索"?
想象这样一个任务:在一篇超长的文档中,有一个特定的源位置 \(\tau_*\) 包含关键信息,周围有大量干扰内容。模型需要在很远之后的位置 \(t = \tau_* + \ell\) 精确地提取出这条信息,同时忽略所有干扰。
论文用标量传输分数(scalar transport score)\(\mathsf{S}_{t,\tau}\) 来衡量模型对源位置 \(\tau\) 的敏感度,用选择性边际(selective margin)来衡量"区分源和干扰器"的能力:
当 \(\mathsf{M} > 0\) 时,模型能够可靠地区分源和干扰器。
灵活的检索档案
定理12是论文的理论高峰。它证明了在身份归一化的设定下(identity-normalized formulation),对于任意给定的参数 \(\beta \in (0,1)\) 和深度 \(k \geq 1\),Sessa可以实现如下形式的检索档案:
其中指数 \(\nu_k(\beta) = k(1-\beta) - 1\) 可以取各种值:
- 当 \(\nu_k(\beta) < 0\):衰减型档案——长程影响随距离衰减
- 当 \(\nu_k(\beta) = 0\):冻结型档案——长程影响保持恒定(不增不减)
- 当 \(\nu_k(\beta) > 0\):增长型档案——长程影响甚至随距离增长
小贴士:"增长型"档案听起来很疯狂——离得越远反而记得越清楚?这其实不是物理上的"记忆增强",而是说在某些构造下,模型可以通过深层机制让远距离检索的"信噪比"不降反升。这就像一个侦探,线索越分散、干扰越多,他反而越能锁定核心关联,因为干扰器之间互相抵消,而真正的线索在深层网络中被不断放大。
特别地:
- \(k=1\)(单层):只能实现衰减型(\(\nu_1(\beta) = -\beta < 0\))
- \(k \geq 2\) 且 \(\beta = 1 - 1/k\):可以实现冻结型(\(\nu_k(\beta) = 0\))
- \(k \geq 2\) 且 \(\beta < 1 - 1/k\):可以实现增长型(\(\nu_k(\beta) > 0\))
这意味着:深度是Sessa实现灵活检索的关键。单层只能衰减,多层才能冻结甚至增长。
对比类的"不可能性"结果
命题13给出了匹配的不可能性证明:在同样的扩散路由制度下,固定深度的Transformer和"冻结时间失败"的Mamba无法实现冻结型或增长型档案。它们只能衰减。
- Transformer的深层衰减律是 \((\log \ell)^{N_{\text{layer}}-1} / \ell\) ——趋于0
- Mamba的深层衰减律是 \((1+\ell)^{N_{\text{layer}}-1} e^{-c_* \ell}\) ——也趋于0
因此,Sessa不仅在衰减速度上更快,而且在可实现的检索行为类型上更丰富。这种差异是定性的,不只是定量的。
🔬 实验验证:长程任务的压倒性胜利
理论再优美,也得有实验撑腰。论文在三个任务上进行了评估:两个长程合成任务和一个短程语言建模任务。
SymbolSoup:在噪音海洋中打捞信息
SymbolSoup是一个长程分类数据集。每个样本包含三个噪音块和两个"风格化"块(含有真正信息的内容),风格化块的顺序随机。噪音块的长度使得两个信息块被隔开很远。
| 模型 | SymbolSoup 准确率 |
|---|---|
| Sessa | 86.01% |
| Transformer | 79.21% |
| Mamba2 | 5.00%(≈随机猜测) |
Mamba2完全失败了——这被论文解释为与其"冻结时间失败"理论一致:当噪音使得选择信号难以分离时,Mamba2无法维持记忆走廊,长程信息被指数级衰减掉。
Diffuse MQAR:在扩散干扰中召回关联
Diffuse MQAR是改进版的"多查询关联召回"(Multi-Query Associative Recall)。与原版不同,这里的干扰器使用了共享前缀和不匹配后缀的结构,让区分变得更加困难。测试集包含比训练集4倍更长的检索间隔。
| 模型 | Diffuse MQAR Token 准确率 |
|---|---|
| Sessa | 15.41% |
| Transformer | 12.22% |
| Mamba2 | 0.21% |
同样,Mamba2几乎完全失败。值得注意的是,Transformer在这个任务上也不如Sessa,这证实了扩散注意力在长程关联召回中的局限性。
SimpleStories:短程语言建模的权衡
在短上下文语言建模(synthetic short stories,每个故事都很短)上,情况有所不同:
| 模型 | 困惑度 (Perplexity) | Top-1 准确率 | Top-5 准确率 |
|---|---|---|---|
| Transformer | 7.67 | 50.44% | 78.50% |
| Mamba2 | 7.72 | 50.30% | 78.30% |
| Sessa | 8.37 | 49.14% | 77.12% |
Sessa在短上下文上略弱于两个基线。论文给出了一个诚实的解释:
"在短上下文制度下,反馈机制不那么必要。在匹配的参数量下,Sessa的一部分容量被分配给了反馈分支,而这个分支在短程任务上可能没有被充分利用。"
为了验证这个解释,他们做了消融实验:移除反馈分支但保持架构其余部分不变。结果:
- 困惑度从 8.37 降到 8.09
- Top-1准确率从 49.14% 提升到 49.65%
这证实了Sessa在短程上确实付出了一定代价,但这种代价是设计上的权衡——把容量留给长程能力。当任务不需要长程推理时,反馈分支就是闲置资产。
🏛️ 稳定性、位置编码与万能近似
论文的理论贡献不止于记忆衰减。还有三个重要的补充结果值得一提。
BIBO稳定性
Lemma 4.2证明了在假设反馈增益满足 \(|\gamma_t| \leq \rho(R) < 1\) 的情况下,Sessa的因果下三角求解在 \(\ell_\infty\) 范数下是BIBO稳定的(Bounded-Input Bounded-Output)。这意味着:有界的输入一定会产生有界的输出,不会出现反馈失控导致的爆炸。
内部位置编码
一个出人意料的发现:Sessa的反馈分支不需要显式的位置编码(如RoPE或绝对位置嵌入)。
Lemma 4.10证明:单个Sessa block可以产生一个确定性的、严格递增的位置信号 \((p_t)_{t=0}^{T-1}\),使得对于所有输入,输出都是 \(y_t = x_t + p_t\)。更进一步,Corollary 4.13证明这个位置索引 \(t\) 可以通过一个连续的逐token映射从输出中恢复出来。
这意味着:反馈机制本身就能生成绝对位置信息!前向分支用RoPE处理相对位置,反馈分支则利用其固有的时间不对称性(严格下三角结构)来自发地编码绝对位置。这种"自包含"的位置编码能力减少了对外部位置编码的依赖。
万能近似
Theorem 14证明了Sessa网络(配合token-wise的线性适配器)可以在任意紧集上万能近似任何连续的因果序列映射。这意味着Sessa在理论上是足够强大的——只要参数量足够,它可以近似任何合理的序列到序列的函数。
🌌 讨论:为什么这篇论文重要
Sessa的论文题为《Selective State Space Attention》,但它的贡献远不止一个新架构。它提供了一套统一的理论框架,让我们得以用同一套语言(信息路由、Jacobian分析、衰减律)来比较三种不同的序列建模范式。
核心洞察:时间路由的重要性
论文反复强调一个主题:
"长程行为不仅取决于路由系数如何生成,还取决于它们如何随时间组合。"
当sharp retrieval失败时(这在超长上下文下是大概率事件),这种组合方式的差异就决定了成败:
- Transformer的单跳直接读取 → 稀释
- Mamba的单链反馈 → 指数遗忘
- Sessa的多跳多路径反馈 → 幂律衰减
对未来架构的启示
Sessa的设计理念——"把输入依赖的路由机制嵌入反馈回路内部"——可能会启发更多混合架构的出现。我们可能会看到更多尝试把Transformer的"选择性"和RNN/SSM的"状态持久性"结合起来的工作。
不过,论文也诚实地指出了局限:
- Sessa的密集完整前缀实现在序列长度 \(T\) 上仍是二次方的(因为三角求解的复杂度)。虽然论文提到可以用优化的三角求解核(如TRSM)来避免显式构造逆矩阵,但长序列的实际效率仍有待更大规模的验证。
- 短上下文上的性能下降提示了一个普适的设计困境:没有一个架构能在所有长度制度上都做到最优。未来的工作可能需要动态机制来自适应地启用或禁用反馈路径。
- 实验规模相对较小(SymbolSoup、Diffuse MQAR、SimpleStories),尚未在真实的大规模语言语料(如SlimPajama、PG19)或DNA、音频、物理模拟等模态上验证。这些将是后续研究的重要方向。
📚 参考文献
-
Vaswani et al. (2017). Attention is all you need. NeurIPS 2017. 提出了Transformer架构和自注意力机制,奠定了现代序列模型的基础。
-
Gu & Dao (2024). Mamba: Linear-time sequence modeling with selective state spaces. COLM 2024. 提出了Mamba架构,将输入依赖的选择性机制引入状态空间模型,实现了线性复杂度序列建模。
-
Dao & Gu (2024). Transformers are SSMs: Generalized models and efficient algorithms through structured state space duality. ICML 2024. 提出了Mamba-2和SSD框架,统一了Transformer和状态空间模型的视角。
-
Huang et al. (2025). Understanding input selectivity in Mamba: Impact on approximation power, memorization, and associative recall capacity. ICML 2025. 分析了Mamba中"冻结时间"(freeze time)机制的理论特性,为Sessa论文中的"failed freeze time"分析提供了基础。
-
Horbatko (2026). Sessa: Selective State Space Attention. arXiv:2604.18580v1. 本文解读的核心论文,提出了将注意力机制注入反馈路径的Sessa架构,并给出了幂律记忆尾和灵活选择性检索的理论分析。
标签: #每日论文 #PapersCool #Sessa #状态空间模型 #注意力机制
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。