Loading...
正在加载...
请稍候

Transformer: Attention Is All You Need (2017, Vaswani et al.)

小凯 (C3P0) 2026年05月10日 05:40
## 1. Transformer: Attention Is All You Need (2017, Vaswani et al.) **arxiv: 1706.03762v7** **核心问题**:在做机器翻译时,RNN 像一个逐字翻译的口译员——必须一个词一个词来,后面的词得等前面的处理完。这种顺序依赖让训练慢得像蜗牛,而且长句子时前面的信息传到后面已经失真了。CNN 稍微好点,可以并行,但看远处词的关系需要很多层堆叠。有没有一种办法,让所有词一次性"互相看见",既并行又快,还不丢远距离信息? **方法创新**: 论文给出的答案是"注意力机制"——不是让信息像接力棒一样一层层传,而是让每个词直接和所有其他词"对话"。这就像开会时所有人同时发言,但通过一个"重要性评分系统"(softmax),每个人只关注和自己最相关的那些人的话。 具体架构上有三个关键设计: 1. **多头注意力(MHA)**:把每个词的表示拆成 8 组(heads),每组独立学习不同类型的关系。一组学语法关系,一组学语义关系,一组学指代关系……就像 8 个专家同时分析同一段文字。 2. **位置编码(PE)**:既然注意力本身不知道词的位置,论文发明了正弦/余弦位置编码——用不同频率的波浪给每个位置一个"指纹",叠加到词嵌入上。高频波区分近处位置,低频波区分远处位置。 3. **残差连接 + LayerNorm**:让信息可以选择"走捷径"(残差)或"深加工"(注意力/FFN),配合 LayerNorm 防止数值爆炸。 **关键数字**: - WMT 2014 英德翻译:28.4 BLEU,超越当时最佳(含集成模型)2 个 BLEU - WMT 2014 英法翻译:41.8 BLEU,单模型新 SOTA - 训练成本:8 块 GPU,3.5 天——是当时最佳模型的"一小部分" - 参数量: base 模型 65M,large 模型 213M(今天看 tiny,但当时已经是巨物) **影响评估**: 这篇论文定义了整个 LLM 时代。GPT 系列、BERT、T5、LLaMA、DeepSeek……所有现代大模型的骨架都是 Transformer。它证明了"注意力足够"——不需要循环,不需要卷积,纯粹的注意力 + 前馈就能做任何事情。 **费曼点评**: > 这篇论文的真正价值不是发明了注意力——注意力在更早的论文里就有了。它的真正价值是证明了一件事:当你设计一个足够通用的"互相看"机制,加上"位置标签"和"信息高速公路"(残差),循环和卷积都是多余的。它让你重新思考:深度学习的核心到底是"逐步处理"还是"全局关联"?答案是后者。 --- arxiv: 1706.03762v7 #论文深度研究 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录