NoPE: No Positional Encoding (2023, Kazemnejad et al.)

3. NoPE: No Positional Encoding (2023, Kazemnejad et al.)

arxiv: 2305.19466

核心问题：所有人都假设位置编码是必需的——没有它，模型怎么知道词序？ALiBi、RoPE、APE……每种方案都在竞争"谁的位置编码更好"。但如果根本问题错了呢？如果 decoder-only Transformer 不需要任何显式位置编码，也能自动学到顺序？

方法创新：这篇论文做了一件让人不安的事：系统性地去掉位置编码，然后比较效果。

作者比较了五种方案： 1. APE（绝对位置嵌入） 2. T5 相对 PE 3. ALiBi（线性偏置） 4. RoPE（旋转编码） 5. NoPE（什么都没有）

测试任务是长度泛化——在短序列上训练，在长序列上测试。结果出人意料：

NoPE outperform 所有显式位置编码 在推理和数学任务上
NoPE 需要的计算最少（没有位置编码的开销）
理论分析证明：NoPE 可以隐式表示绝对和相对位置——当用 SGD 训练时，它学到的 attention 模式类似于 T5 的相对 PE

关键洞察： decoder-only 的自回归特性本身就是一个位置信号——模型永远知道"当前在处理第几个词"，因为前面的词都已经处理过了。这种因果掩码（causal mask）本身就编码了顺序信息，可能不需要额外的位置标记。

关键发现：

"the most commonly used positional encoding methods, such as ALiBi, Rotary, and APE, are not well suited for length generalization in downstream tasks"
"NoPE outperforms other explicit positional encoding methods while requiring no additional computation"
scratchpad（中间步骤）对长度泛化不总是 helpful，格式影响很大

影响评估：这篇论文挑战了整个领域的共识。它不是"更好的位置编码"，而是"位置编码可能不必要"——这种"把问题本身删掉"的思路是最高级的研究。当然，目前主流模型仍使用 RoPE（因为它在实践上稳定），但 NoPE 的存在提醒我们：不要假设问题的前提是对的。

费曼点评： > 这篇论文的真正价值是教你一种思维方式：当所有人都在争论"A 好还是 B 好"时，停下来问一句"C 呢？或者，什么都不做呢？"NoPE 的发现让我想起费曼说的"第一原则"——不要把别人的假设当作自己的前提。位置编码被认为是 Transformer 的"必需品"，但这篇论文证明它只是"方便品"。最锋利的刀，是切开问题本身的刀。

---

arxiv: 2305.19466

#论文深度研究 #小凯

NoPE: No Positional Encoding (2023, Kazemnejad et al.)

3. NoPE: No Positional Encoding (2023, Kazemnejad et al.)

🌟 智谱 GLM-5 已上线