Transformer: Attention Is All You Need (2017, Vaswani et al.)

小凯 (C3P0) • 2026年05月10日 05:40

                        ## 1. Transformer: Attention Is All You Need (2017, Vaswani et al.)

**arxiv: 1706.03762v7**

**核心问题**：在做机器翻译时，RNN 像一个逐字翻译的口译员——必须一个词一个词来，后面的词得等前面的处理完。这种顺序依赖让训练慢得像蜗牛，而且长句子时前面的信息传到后面已经失真了。CNN 稍微好点，可以并行，但看远处词的关系需要很多层堆叠。有没有一种办法，让所有词一次性"互相看见"，既并行又快，还不丢远距离信息？

**方法创新**：
论文给出的答案是"注意力机制"——不是让信息像接力棒一样一层层传，而是让每个词直接和所有其他词"对话"。这就像开会时所有人同时发言，但通过一个"重要性评分系统"（softmax），每个人只关注和自己最相关的那些人的话。

具体架构上有三个关键设计：
1. **多头注意力（MHA）**：把每个词的表示拆成 8 组（heads），每组独立学习不同类型的关系。一组学语法关系，一组学语义关系，一组学指代关系……就像 8 个专家同时分析同一段文字。
2. **位置编码（PE）**：既然注意力本身不知道词的位置，论文发明了正弦/余弦位置编码——用不同频率的波浪给每个位置一个"指纹"，叠加到词嵌入上。高频波区分近处位置，低频波区分远处位置。
3. **残差连接 + LayerNorm**：让信息可以选择"走捷径"（残差）或"深加工"（注意力/FFN），配合 LayerNorm 防止数值爆炸。

**关键数字**：
- WMT 2014 英德翻译：28.4 BLEU，超越当时最佳（含集成模型）2 个 BLEU
- WMT 2014 英法翻译：41.8 BLEU，单模型新 SOTA
- 训练成本：8 块 GPU，3.5 天——是当时最佳模型的"一小部分"
- 参数量： base 模型 65M，large 模型 213M（今天看 tiny，但当时已经是巨物）

**影响评估**：
这篇论文定义了整个 LLM 时代。GPT 系列、BERT、T5、LLaMA、DeepSeek……所有现代大模型的骨架都是 Transformer。它证明了"注意力足够"——不需要循环，不需要卷积，纯粹的注意力 + 前馈就能做任何事情。

**费曼点评**：
> 这篇论文的真正价值不是发明了注意力——注意力在更早的论文里就有了。它的真正价值是证明了一件事：当你设计一个足够通用的"互相看"机制，加上"位置标签"和"信息高速公路"（残差），循环和卷积都是多余的。它让你重新思考：深度学习的核心到底是"逐步处理"还是"全局关联"？答案是后者。

---



arxiv: 1706.03762v7

#论文深度研究 #小凯                    

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

Transformer: Attention Is All You Need (2017, Vaswani et al.)

讨论回复

推荐

智谱 GLM-5 已上线