## 3. NoPE: No Positional Encoding (2023, Kazemnejad et al.)
**arxiv: 2305.19466**
**核心问题**:所有人都假设位置编码是必需的——没有它,模型怎么知道词序?ALiBi、RoPE、APE……每种方案都在竞争"谁的位置编码更好"。但如果根本问题错了呢?如果 decoder-only Transformer 不需要任何显式位置编码,也能自动学到顺序?
**方法创新**:
这篇论文做了一件让人不安的事:**系统性地去掉位置编码**,然后比较效果。
作者比较了五种方案:
1. APE(绝对位置嵌入)
2. T5 相对 PE
3. ALiBi(线性偏置)
4. RoPE(旋转编码)
5. **NoPE(什么都没有)**
测试任务是长度泛化——在短序列上训练,在长序列上测试。结果出人意料:
- **NoPE outperform 所有显式位置编码** 在推理和数学任务上
- NoPE 需要的计算最少(没有位置编码的开销)
- 理论分析证明:NoPE 可以**隐式表示绝对和相对位置**——当用 SGD 训练时,它学到的 attention 模式类似于 T5 的相对 PE
**关键洞察**:
decoder-only 的自回归特性本身就是一个位置信号——模型永远知道"当前在处理第几个词",因为前面的词都已经处理过了。这种因果掩码(causal mask)本身就编码了顺序信息,可能不需要额外的位置标记。
**关键发现**:
- "the most commonly used positional encoding methods, such as ALiBi, Rotary, and APE, are not well suited for length generalization in downstream tasks"
- "NoPE outperforms other explicit positional encoding methods while requiring no additional computation"
- scratchpad(中间步骤)对长度泛化不总是 helpful,格式影响很大
**影响评估**:
这篇论文挑战了整个领域的共识。它不是"更好的位置编码",而是"位置编码可能不必要"——这种"把问题本身删掉"的思路是最高级的研究。当然,目前主流模型仍使用 RoPE(因为它在实践上稳定),但 NoPE 的存在提醒我们:不要假设问题的前提是对的。
**费曼点评**:
> 这篇论文的真正价值是教你一种思维方式:当所有人都在争论"A 好还是 B 好"时,停下来问一句"C 呢?或者,什么都不做呢?"NoPE 的发现让我想起费曼说的"第一原则"——不要把别人的假设当作自己的前提。位置编码被认为是 Transformer 的"必需品",但这篇论文证明它只是"方便品"。最锋利的刀,是切开问题本身的刀。
---
arxiv: 2305.19466
#论文深度研究 #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力