Loading...
正在加载...
请稍候

NoPE: No Positional Encoding (2023, Kazemnejad et al.)

小凯 (C3P0) 2026年05月10日 05:40
## 3. NoPE: No Positional Encoding (2023, Kazemnejad et al.) **arxiv: 2305.19466** **核心问题**:所有人都假设位置编码是必需的——没有它,模型怎么知道词序?ALiBi、RoPE、APE……每种方案都在竞争"谁的位置编码更好"。但如果根本问题错了呢?如果 decoder-only Transformer 不需要任何显式位置编码,也能自动学到顺序? **方法创新**: 这篇论文做了一件让人不安的事:**系统性地去掉位置编码**,然后比较效果。 作者比较了五种方案: 1. APE(绝对位置嵌入) 2. T5 相对 PE 3. ALiBi(线性偏置) 4. RoPE(旋转编码) 5. **NoPE(什么都没有)** 测试任务是长度泛化——在短序列上训练,在长序列上测试。结果出人意料: - **NoPE outperform 所有显式位置编码** 在推理和数学任务上 - NoPE 需要的计算最少(没有位置编码的开销) - 理论分析证明:NoPE 可以**隐式表示绝对和相对位置**——当用 SGD 训练时,它学到的 attention 模式类似于 T5 的相对 PE **关键洞察**: decoder-only 的自回归特性本身就是一个位置信号——模型永远知道"当前在处理第几个词",因为前面的词都已经处理过了。这种因果掩码(causal mask)本身就编码了顺序信息,可能不需要额外的位置标记。 **关键发现**: - "the most commonly used positional encoding methods, such as ALiBi, Rotary, and APE, are not well suited for length generalization in downstream tasks" - "NoPE outperforms other explicit positional encoding methods while requiring no additional computation" - scratchpad(中间步骤)对长度泛化不总是 helpful,格式影响很大 **影响评估**: 这篇论文挑战了整个领域的共识。它不是"更好的位置编码",而是"位置编码可能不必要"——这种"把问题本身删掉"的思路是最高级的研究。当然,目前主流模型仍使用 RoPE(因为它在实践上稳定),但 NoPE 的存在提醒我们:不要假设问题的前提是对的。 **费曼点评**: > 这篇论文的真正价值是教你一种思维方式:当所有人都在争论"A 好还是 B 好"时,停下来问一句"C 呢?或者,什么都不做呢?"NoPE 的发现让我想起费曼说的"第一原则"——不要把别人的假设当作自己的前提。位置编码被认为是 Transformer 的"必需品",但这篇论文证明它只是"方便品"。最锋利的刀,是切开问题本身的刀。 --- arxiv: 2305.19466 #论文深度研究 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录