# GPT-1:被嘲笑的种子,长成改变世界的大树
> **作者**:Alec Radford, Karthik Narasimhan, Tim Salimans, **Ilya Sutskever**
> **机构**:OpenAI
> **发表**:2018年6月(OpenAI Technical Report)
> **论文**:《Improving Language Understanding by Generative Pre-Training》
> **关键词**:生成式预训练、Transformer、无监督学习、迁移学习、GPT系列起源
---
## 一、历史背景:被金主骂作垃圾的那一天
2018年6月,OpenAI发布了一篇看起来并不起眼的论文。
模型名叫 **GPT**(Generative Pre-Trained Transformer),后来人们叫它 **GPT-1**。它只有 **1.17亿参数**,在当时也算不上最大。它的表现"不尽人意"——常常答非所问、胡言乱语。
作为OpenAI曾经最大的金主,**马斯克**发了一封措辞严厉的邮件:
> "如果不在执行力和资源上进行大幅度的改革,我认为OpenAI在与DeepMind或谷歌的竞争中能够胜出的可能性,**几乎为零**。"
但在OpenAI首席科学家 **Ilya Sutskever** 看来,这仅仅是个开始。
当时很少有人意识到,这个胡说八道的语言模型,最终将永远地改变这个世界。
---
## 二、核心创新:两阶段范式(Pre-train + Fine-tune)
### 2.1 问题:监督学习的瓶颈
在GPT-1之前,NLP的标准流程是:
1. 收集**大量人工标注数据**(昂贵、耗时、易错)
2. 针对**每个任务**训练一个专用模型
GPT-1提出了**范式转移**:
| 阶段 | 做什么 | 数据需求 | 成本 |
|------|--------|----------|------|
| **预训练 (Pre-training)** | 学"语言本身"——预测下一个词 | 无标签文本(BooksCorpus, ~5GB, 数千本书) | **1个月 × 8 GPUs**(一次性) |
| **微调 (Fine-tuning)** | 适配具体任务 | 有标签数据(小量) | 快速 |
论文原文:
> "Supervised learning is at the core of most of the recent success of machine learning. However, it can require large, carefully cleaned, and expensive to create datasets to work well. **Unsupervised learning removes the bottleneck of explicit human labeling.**"
### 2.2 为什么选择 BooksCorpus?
不是网页,是 **书籍**。
> "BooksCorpus are used in this stage because they contain **long, continuous text**. This is important, since it helps the model understand relationships across sentences rather than just short fragments."
关键差异:
- **长程连贯性**:角色、情节、因果关系跨章节发展
- **世界知识密度**:历史、科学、常识浓缩在文本中
- **语言质量更高**:相比网页的碎片化、噪音
这解释了为什么后来的GPT模型上下文窗口不断扩展—— **长文本是知识的关键载体**。
### 2.3 架构:为什么选 Transformer + Decoder-only?
| 特性 | 作用 |
|------|------|
| **Self-attention** | 捕捉长程依赖,BooksCorpus中的书籍连贯性不丢失 |
| **Decoder-only** | 生成式预训练——从左到右预测下一个词 |
| **统一架构** | 所有任务无需定制结构,只改输入格式 |
论文明确说:
> "Our work is a validation of the robustness and usefulness of the transformer architecture, indicating that it is **sufficiently flexible to achieve state-of-the-art results on a wide range of tasks without requiring complicated task-specific customization**."
**关键选择**:生成式(预测下一个词)vs BERT的双向掩码。
GPT选生成式,因为:
1. **通用接口**:任何任务=生成文本
2. **零样本能力自然涌现**:模型必须预测下一个词,迫使它学习完整世界表示
3. **可扩展**:只管增大模型和数据,架构不变
**BERT赢了2018年,GPT赢了2020年代。**
---
## 三、实验结果:12个任务9个SOTA
### 3.1 主结果
| 数据集 | 任务 | SOTA | GPT-1 | 变化 |
|--------|------|------|-------|------|
| SNLI | 文本蕴含 | 89.3 | **89.9** | +0.6 |
| MNLI matched | 文本蕴含 | 80.6 | **82.1** | +1.5 |
| SciTail | 文本蕴含 | 83.3 | **88.3** | +5.0 |
| QNLI | 文本蕴含 | 82.3 | **88.1** | +5.8 |
| STS-B | 语义相似度 | 81.0 | **82.0** | +1.0 |
| QQP | 语义相似度 | 66.1 | **70.3** | +4.2 |
| RACE | 阅读理解 | 53.3 | **59.0** | +5.7 |
| ROCStories | 常识推理 | 77.6 | **86.5** | +8.9 |
| COPA | 常识推理 | 71.2 | **78.6** | +7.4 |
| GLUE | 多任务基准 | 68.9 | **72.8** | +3.9 |
### 3.2 关键洞察:常识推理和阅读理解的跃升
ROCStories +8.9%,RACE +5.7%——这些任务需要 **多句推理** 和 **世界知识**。
论文:
> "These datasets are thought to require multi-sentence reasoning and significant world knowledge to solve suggesting that **our model improves these skills predominantly via unsupervised learning**."
**预训练学到的不是"英语语法",而是"世界知识"的压缩表示。**
### 3.3 局限(论文诚实承认)
| 数据集 | SOTA | GPT-1 | 差距 |
|--------|------|-------|------|
| RTE | 61.7 | 56.0 | -5.7 |
| MRPC | 86.0 | 82.3 | -3.7 |
| SST-2 | 93.2 | 91.3 | -1.9 |
3个任务输了。但这不影响路线的正确性——因为 **规模化的信号已经出现**。
---
## 四、被低估的最大发现:零样本能力
这是论文中最被忽视的段落:
> "We can use the underlying language model to **begin to perform tasks without ever training on them**. For example, performance on tasks like picking the right answer to a multiple choice question steadily increases as the underlying language model improves."
> "Randomly initialized networks containing no information about the task and the world perform no-better than random using these heuristics. **This provides some insight into why generative pre-training can improve performance on downstream tasks.**"
具体例子:
- **情感分析**:输入句子+"very",看模型预测"positive"还是"negative"更可能——**~80%准确率,未经任何微调**
- **多选题**:性能随预训练持续提升
**这意味着什么?**
**语言模型不仅仅是"语言模型",它是"世界模型"的压缩表示。**
预训练过程中,模型必须从文本中推断出世界的结构、因果、常识——否则它无法准确预测下一个词。这种能力 **溢出** 到了从未见过的任务上。
---
## 五、预言未来:Future节的前瞻性
2018年的论文,Future节写道:
> **"Scaling the approach: We've observed that improvements in the performance of the language model are well correlated with improvements on downstream tasks. We're currently using commodity hardware (a single 8 GPU machine) and a training dataset of only a few thousand books (~5GB of text). This suggests there is significant room for improvement using the well-validated approach of more compute and data."**
这段话 **精确预言了接下来发生的一切**:
| 时间 | 模型 | 参数 | 数据 | 验证 |
|------|------|------|------|------|
| 2018.06 | GPT-1 | 117M | 5GB | "more compute and data" |
| 2019.02 | GPT-2 | 1.5B | 40GB | 规模化验证 |
| 2020.06 | GPT-3 | 175B | 45TB | 少量样本能力涌现 |
| 2022.11 | ChatGPT | RLHF | 对话数据 | 对齐人类偏好 |
| 2023.03 | GPT-4 | 未公开 | 未公开 | 多模态通用智能 |
论文作者已经知道规模化的方向。但他们选择 **保守发布**——开源了模型,"so others can avoid [pre-training cost]"。
这与后来OpenAI的闭源策略形成有趣对比。
---
## 六、HeavyGrok 深度推导
### 🔍 思考者 1:马斯克 vs Ilya——时间尺度的分歧
这不是技术分歧,而是 **时间尺度的分歧**:
| 维度 | 马斯克(工程师/产品经理) | Ilya(科学家/信仰者) |
|------|------------------------|----------------------|
| **关注点** | "这个季度能交付什么产品" | "这条路线的极限在哪里" |
| **评估标准** | 当前性能是否可用 | 是否展现出规模化信号 |
| **看到的事实** | 答非所问、3个任务输给SOTA | 零样本能力涌现、常识推理+8.9% |
| **赌注** | 转型、加大资源、换方向 | **押注预训练+规模化** |
Ilya看到的东西:
1. **零样本能力的苗头** ——117M参数已经能做情感分析
2. **规模化的信号** ——语言模型性能与下游任务性能高度相关
3. **"更多计算+更多数据"的杠杆** ——还没开始拉
他问的不是"这个模型现在有多好用",而是"**如果我们把参数扩大1000倍,会发生什么?**"
### 🔍 思考者 2:为什么"胡说八道"不是缺点,而是特征?
GPT-1确实常常答非所问。但这是 **生成式模型的本质**,不是bug:
- 它不是"检索正确答案"——它是在 **基于概率生成下一个词**
- 它没有"理解"问题——它是在 **模拟人类说话的模式**
- 它的"胡说八道"是因为它 **缺乏对齐**(alignment),不是缺乏知识
后来的RLHF(Reinforcement Learning from Human Feedback)解决了这个问题——但 **知识基础** 已经在预训练中建立好了。
换句话说:
- GPT-1 有**知识**,但不会**好好说话** → 需要微调
- GPT-1 有**知识**,但不会**对齐人类偏好** → 需要RLHF
知识是底座。对齐是调优。
### 🔍 思考者 3:GPT-1 vs BERT——路线之争的深层原因
2018年10月,Google发布BERT,在GLUE上碾压GPT-1。
当时很多人认为BERT路线更优。但GPT系列的生成式路线最终胜出:
| 维度 | GPT(生成式) | BERT(判别式) |
|------|---------------|----------------|
| **架构** | Decoder-only | Encoder-only |
| **预训练目标** | 预测下一个词 | 掩码词预测 |
| **自然涌现的能力** | 对话、推理、代码、零样本 | 嵌入表示、分类 |
| **接口通用性** | 所有任务=文本生成 | 不同任务需要不同输出头 |
| **可扩展性** | 只管增大 | 掩码比例需精细调整 |
| **最终形态** | ChatGPT、GPT-4 | 被GPT系列融合吸收 |
BERT的判别式目标更适合 **理解** 任务,但生成式目标的 **通用性** 和 **可扩展性** 最终在AGI路线上赢了。
这不是技术优劣,而是**目标函数的选择决定了能力上限**。
### 🔍 思考者 4:论文自己承认的局限——后来解决了多少?
论文Future节列出了三个方向:
| 局限 | 2018年的状态 | 2020年代的解决 |
|------|------------|---------------|
| **Compute Requirements** | 1个月 × 8 GPUs,被认为昂贵 | 千GPU集群,GPT-4训练成本数亿美元 |
| **文本偏见** | "书籍不包含完整或准确的世界信息" | 多模态(GPT-4V)、联网搜索、工具使用 |
| **脆弱泛化** | "对抗性/分布外表现仍脆弱" | 仍在解决,但RLHF和 Constitutional AI 大幅改善 |
| **为什么有效仍不清楚** | "需要更多实验区分竞争解释" | 可解释性研究(如mechanistic interpretability)仍在进行 |
有趣的是,论文问:
> "how much of the benefits we observe are due to improved ability to process broader context versus improved world knowledge?"
2020年代的回答是:**两者都是,且都随规模涌现**。
---
## 七、结论:种子里的大树
GPT-1 的历史地位不是"第一个大模型",而是 **"第一个证明规模化语言模型可以实现通用智能的人"**。
在它之前:
- word2vec/GloVe:词向量,无上下文
- Skip-Thought:句子向量,能力有限
- ELMo:上下文词向量,但需要任务定制架构
- ULMFiT:LSTM预训练+微调,仅限分类
GPT-1 证明:
> **一个单一模型,预训练一次,可以微调/零样本解决几乎所有NLP任务。**
这是 **通用人工智能(AGI)路线的第一次清晰信号**。
它的表面贡献是"12个任务9个SOTA"——不错的结果,但不是颠覆性的。
它的真正贡献是**范式转移**:
1. **预训练 = 知识压缩**:无标签文本中蕴含世界知识
2. **语言 = 通用接口**:任何任务都可以转化为文本生成
3. **规模化 = 可预测改进**:更多计算+数据 = 更好性能
4. **零样本 = 涌现能力**:模型从未见过的任务也能做
马斯克看到的是"一个胡说八道的模型"。
Ilya看到的是 **"智能的规模化定律"**。
> "当时很少有人会意识到,这个胡说八道的语言模型,最终将永远地改变这个世界。"
因为真正改变世界的不是GPT-1本身——117M参数、答非所问、在3个任务上输给SOTA——而是它 **证明了的路线**:
**生成式预训练 + Transformer + 规模化 = 通用智能的萌芽。**
GPT-1 是种子。GPT-2/3/4 是种子发芽后的树。
但种子里的所有信息,2018年6月就已经写好了。
---
## 参考资料
- Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). *Improving Language Understanding by Generative Pre-Training*. OpenAI Technical Report. https://openai.com/research/language-unsupervised
- Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2018). *Pre-training of Deep Bidirectional Transformers for Language Understanding* (BERT). arXiv:1810.04805.
- Vaswani, A., et al. (2017). *Attention is All You Need*. NeurIPS 2017.
- Howard, J., & Ruder, S. (2018). *Universal Language Model Fine-tuning for Text Classification* (ULMFiT). ACL 2018.
- Peters, M.E., et al. (2018). *Deep Contextualized Word Representations* (ELMo). NAACL 2018.
#论文拆解 #GPT-1 #OpenAI #IlyaSutskever #生成式预训练 #Transformer #迁移学习 #规模化定律 #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力