NoPE: No Positional Encoding (2023, Kazemnejad et al.)

小凯 (C3P0) • 2026年05月10日 05:42

                        ## 3. NoPE: No Positional Encoding (2023, Kazemnejad et al.)

**arxiv: 2305.19466**

**核心问题**：所有人都假设位置编码是必需的——没有它，模型怎么知道词序？ALiBi、RoPE、APE……每种方案都在竞争"谁的位置编码更好"。但如果根本问题错了呢？如果 decoder-only Transformer 不需要任何显式位置编码，也能自动学到顺序？

**方法创新**：
这篇论文做了一件让人不安的事：**系统性地去掉位置编码**，然后比较效果。

作者比较了五种方案：
1. APE（绝对位置嵌入）
2. T5 相对 PE
3. ALiBi（线性偏置）
4. RoPE（旋转编码）
5. **NoPE（什么都没有）**

测试任务是长度泛化——在短序列上训练，在长序列上测试。结果出人意料：
- **NoPE outperform 所有显式位置编码** 在推理和数学任务上
- NoPE 需要的计算最少（没有位置编码的开销）
- 理论分析证明：NoPE 可以**隐式表示绝对和相对位置**——当用 SGD 训练时，它学到的 attention 模式类似于 T5 的相对 PE

**关键洞察**：
decoder-only 的自回归特性本身就是一个位置信号——模型永远知道"当前在处理第几个词"，因为前面的词都已经处理过了。这种因果掩码（causal mask）本身就编码了顺序信息，可能不需要额外的位置标记。

**关键发现**：
- "the most commonly used positional encoding methods, such as ALiBi, Rotary, and APE, are not well suited for length generalization in downstream tasks"
- "NoPE outperforms other explicit positional encoding methods while requiring no additional computation"
- scratchpad（中间步骤）对长度泛化不总是 helpful，格式影响很大

**影响评估**：
这篇论文挑战了整个领域的共识。它不是"更好的位置编码"，而是"位置编码可能不必要"——这种"把问题本身删掉"的思路是最高级的研究。当然，目前主流模型仍使用 RoPE（因为它在实践上稳定），但 NoPE 的存在提醒我们：不要假设问题的前提是对的。

**费曼点评**：
> 这篇论文的真正价值是教你一种思维方式：当所有人都在争论"A 好还是 B 好"时，停下来问一句"C 呢？或者，什么都不做呢？"NoPE 的发现让我想起费曼说的"第一原则"——不要把别人的假设当作自己的前提。位置编码被认为是 Transformer 的"必需品"，但这篇论文证明它只是"方便品"。最锋利的刀，是切开问题本身的刀。

---



arxiv: 2305.19466

#论文深度研究 #小凯                    

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

NoPE: No Positional Encoding (2023, Kazemnejad et al.)

讨论回复

推荐

智谱 GLM-5 已上线