2026年5月29日,arXiv。
一个 Northwestern 的博士生团队在论文里写下这样一个公式:
\(o_PLX = o_SA - Σ_KV · ρ\)
看起来只是对 softmax attention 做了一点减法。但减去的这个东西,却可能是 Transformer 六年来最重要的注意力变体之一。
一、这是啥:从"看所有人"到"看懂局部"
1.1 softmax attention 的十年困局
2017年,Attention Is All You Need 横空出世。softmax attention 的公式谁都背得熟:
\(Attention(Q, K, V) = softmax(QK^T/√d) · V\)
query 问一句,key 库里的所有人回答,value 按权重加权平均。简单、优雅、有效。
但这里藏着一个结构性假设:softmax attention 本质上是一个局部常数估计器(Nadaraya-Watson estimator)。它假设每个 query 附近的 key 都服从同一个常数分布,然后做加权平均。
当 key 在 query 周围均匀分布时,这没问题。但当 key 不均匀——比如 query 落在边界附近,或者 key 分布有梯度——softmax attention 就会系统性地低估边界。这叫做边界偏差(boundary bias)。
过去六年,人们用各种方式修补这个漏洞:
- Linear Attention(Katharopoulos et al., 2020):去掉 softmax,用核技巧,把复杂度降到线性,但牺牲了长程依赖
- Mamba / SSM(Gu & Dao, 2024):用状态空间模型替代注意力,O(1) 状态大小,但在上下文检索上一直打不过 softmax
- FlashAttention(Dao et al., 2022):不改动机制,只是用 IO 感知算法把计算效率拉满
这些方案都在效率上做文章,但 没人去碰机制本身的假设——softmax 的"常数估计"前提。
1.2 Local Linear Attention:从常数到线性
2026年初,Zuo 等人提出了 Local Linear Attention(LLA)。核心思想很简单:
如果 softmax attention 假设 key 在 query 附近是 常数,那如果我们假设它是线性的呢?
线性估计器比常数估计器多了一个自由度:它允许 key 在 query 附近有一个梯度。数学上,这相当于把假设空间从 \({c}\)(常数函数)扩展到 \({b + W(x - q)}\)(线性函数)。
Zuo 等人从理论上证明:在偏差-方差权衡上,LLA 严格优于 softmax attention——只要 query 附近的 key 分布不均匀(而这在语言模型中几乎总是成立)。
但 LLA 有一个致命的工程问题:每 token 都需要求解一个线性系统 \(Σ_i · x = μ_i\),用共轭梯度法迭代。这带来了三重灾难:
- I/O 密集:每次迭代都要遍历 KV cache,内存访问远超 softmax
- 数值敏感:大 \(λ\) 会让 LLA 退化为 softmax,小 \(λ\) 会导致病态矩阵
- 低精度不兼容:FP16/BF16 下的共轭梯度不稳定
所以 LLA 虽然理论上漂亮,但从未被用于大规模预训练。
1.3 Parallax:参数化的局部线性注意力
Parallax 的团队看到了 LLA 的核心价值,也看清了它的工程死穴。他们的解法出人意料地简洁:
不去求解 \(ρ\),而是学习 \(ρ\)。
LLA 中,\(ρ_i* = Σ_i^{-1} · μ_i\) 是"最优探针"——它精确地量化了 query 周围 key 的线性梯度。但求解这个代价太高。Parallax 的做法是:用一个可学习的投影矩阵 \(W_R\),直接从输入 \(x\) 映射出 \(ρ\)。
公式变成:
\(o_i^PLX = o_i^SA - Σ_KV^(i) · ρ_i\)
其中 \(ρ_i = W_R · x_i\),\(Σ_KV^(i)\) 是 \(KV\) 的加权协方差。
这什么意思?
Parallax 把 LLA 重新解释为对 softmax attention 的 加性修正:softmax attention 的输出,减去一个"协方差修正项"。这个修正项衡量了 query 附近 key 的分布不均匀性,并通过一个可学习的探针 \(ρ\) 来补偿边界偏差。
更妙的是,Parallax 把 LLA 的每 token 求解,转化为一个 全参数化的线性层——训练和推理的开销降到了和额外一个投影矩阵相当。
二、有啥用:为什么这只"第二只眼"能看得更准
2.1 一个统一的注意力家族
Parallax 的论文中最漂亮的图,是一张"注意力机制家谱"(Figure 1)。它把所有注意力机制放进一个三维坐标系:
- 带宽轴(Bandwidth):softmax 加权(\(h\) 有限)→ 均匀加权(\(h → ∞\))
- 探针轴(Probe):零探针(\(ρ = 0\))→ 参数化探针(\(ρ = W_R · x\))→ 求解探针(\(ρ = Σ^{-1} · μ\))
- 结构轴(Affine):有截距(保留 \(v̄\))→ 无截距(Linear Attention)
在这个坐标系里:
- Softmax Attention = 零探针 + softmax 加权 + 有截距
- Linear Attention = 参数化探针 + 均匀加权 + 无截距(\(当 h→∞, v̄=k̄=0\))
- MesaNet = 求解探针 + 均匀加权 + 无截距
- LLA = 求解探针 + softmax 加权 + 有截距
- Parallax = 参数化探针 + softmax 加权 + 有截距
这张图的价值远超一篇论文:它第一次把 所有主流注意力变体 放进同一个数学框架,揭示了它们之间的血缘关系。过去六年,注意力研究像是一堆孤岛——Linear Attention、Mamba、FlashAttention、MesaNet 各说各话。Parallax 给它们发了一张族谱。
2.2 硬件效率:FlashAttention 的终结者?
Parallax 不仅在理论上更优雅,在工程上也有硬实力。
论文提出了一种 硬件感知的流式算法(streaming algorithm),专门优化 decode 阶段的 I/O 和计算强度。关键洞察:Parallax 的额外计算(协方差修正)可以被安排成 计算密集 而非 内存密集——通过重排序计算,让 GPU 的 Tensor Core 充分饱和。
实验结果:在 0.6B 和 1.7B 参数规模的预训练中,Parallax 的困惑度(perplexity) 持续优于 softmax attention。更重要的是,这种优势在 参数匹配 和 计算匹配 两种控制下都成立——这意味着 Parallax 不是"用更多参数换性能",而是 架构本身更高效。
但最震撼的发现不是这些。
2.3 Muon 解锁了 Parallax:架构-优化器的"锁钥配对"
论文中最反直觉的实验,藏在 Section 4.3。
Parallax 的探针 \(ρ = W_R · x\) 是一个参数化矩阵。但团队发现:如果不用 Muon 优化器,Parallax 和 softmax attention 几乎没有区别。
AdamW 训练下,Parallax 的 \(ρ\) 矩阵几乎不更新,修正项接近于零,模型退化为 softmax attention。但换成 Muon(一种基于正交化的二阶优化器)后,Parallax 突然"活"了——修正项开始显著非零,困惑度大幅领先。
为什么?
Muon 的更新方向是 谱归一化 的(spectral norm),它保持矩阵的条件数为 1。这恰好解决了 Parallax 探针的 幅值张力 问题:在 AdamW 下,\(ρ\) 的范数容易被压到零(因为梯度信号的协方差项很稀疏),但 Muon 的正交化更新能 维持 \(ρ\) 的幅值,让它真正起到修正作用。
这是论文作者的断言:
"To our knowledge, this is the first empirical demonstration of strong architecture-optimizer codesign for attention mechanisms in the architecture research literature."
翻译成人话:这是注意力架构研究史上,第一次实锤证明"架构和优化器必须锁钥配对"。
这个发现的意义远超 Parallax 本身。它暗示:过去六年,我们可能一直在用 错误的优化器 训练 次优的架构——不是架构不够好,而是 AdamW 的 \(ℓ_∞\) 几何无法激活某些架构的潜力。
三、怎么用:Parallax 的边界与追问
3.1 局部窗口的代价
Parallax 的线性估计只在 query 的 局部邻域 有效。论文没有明确讨论窗口大小的选择,但 LLA 的理论表明:窗口大小是一个 带宽参数 \(h\),需要在偏差和方差之间权衡。
小窗口 → 线性近似更精确,但样本少 → 方差大
大窗口 → 样本多,但"局部线性"假设失效 → 偏差大
Parallax 把 \(h\) 作为超参数,但最优值是多少?不同层、不同任务是否需要不同的 h?论文没有回答。
3.2 100万 token 的上下文:Parallax 能走多远?
Parallax 的流式算法让 decode 阶段的效率媲美 FlashAttention。但在超长上下文(100万 token)场景下,局部线性估计的精度衰减曲线如何?
理论上,当 context 远超局部窗口,Parallax 和 full attention 的 gap 会放大——因为 distant token 的信息只能间接传递(通过局部窗口的层叠)。论文只做到标准长度预训练,超长上下文的表现仍是未知数。
3.3 解释性的黑盒
Parallax 给 attention 加了一个协方差修正项。这修正项到底在补偿什么?是边界偏差?是 key 分布的梯度?是语义聚类的几何结构?
论文没有可视化 ρ 矩阵的语义行为。如果 Parallax 被广泛采用,attention 的可解释性会进一步下降——我们不仅要解释 softmax 权重,还要解释一个 可学习的协方差探针。
3.4 优化器的军备竞赛
Parallax + Muon 的组合,标志着 LLM 训练进入"架构-优化器协同设计"时代。但这意味着什么?
- 未来每种新架构,都需要配一个"专用优化器"?
- AdamW 的通用性神话终结了?
- 二阶优化器的计算开销(Muon 需要 SVD 近似)是否能在超大规模(100B+)下接受?
论文只在 1.7B 规模验证了 Muon 的效果。更大规模是否还成立?这是 OpenAI 和 Anthropic 的工程师才有钱回答的问题。
四、结语:一只眼睛看局部,一只眼睛看全局
Parallax 的命名很有意思。Parallax(视差)是天文学概念:从不同位置观察同一物体,看到的像会有位移。通过测量视差,可以推算物体的距离。
Parallax attention 的隐喻也是如此:softmax attention 是"从中心看",Parallax 的修正项是"从边缘看"。两个视角的差,揭示了 key 分布的真实几何。
但更重要的是,Parallax 揭示了一个被忽视六年的真相:softmax attention 不是 attention 的终极形态,而是一个有偏差的估计器。 所有围绕效率的修补(Linear Attention、Mamba、FlashAttention),都是在承认这个偏差的前提下做妥协。Parallax 选择了一条更激进的路:修正偏差本身。
代价是:你需要一个更聪明的优化器(Muon)来激活这个修正。收益是:一旦激活,模型对局部结构的感知能力会显著增强。
这不是"更快"的 attention。这是 更准 的 attention。
核心参考文献
- Vaswani et al. (2017). Attention Is All You Need. NeurIPS.
- Katharopoulos et al. (2020). Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention. ICML.
- Gu & Dao (2024). Mamba: Linear-Time Sequence Modeling with Selective State Spaces. ICML.
- Dao et al. (2022). FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness. NeurIPS.
- Zuo et al. (2026). Parallax: Parameterized Local Linear Attention for Language Modeling. arXiv:2605.29157.
#论文 #注意力机制 #线性注意力 #LLM #Muon优化器 #架构设计 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。