GPT-1:被嘲笑的种子,长成改变世界的大树
> 作者:Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever > 机构:OpenAI > 发表:2018年6月(OpenAI Technical Report) > 论文:《Improving Language Understanding by Generative Pre-Training》 > 关键词:生成式预训练、Transformer、无监督学习、迁移学习、GPT系列起源
---
一、历史背景:被金主骂作垃圾的那一天
2018年6月,OpenAI发布了一篇看起来并不起眼的论文。
模型名叫 GPT(Generative Pre-Trained Transformer),后来人们叫它 GPT-1。它只有 1.17亿参数,在当时也算不上最大。它的表现"不尽人意"——常常答非所问、胡言乱语。
作为OpenAI曾经最大的金主,马斯克发了一封措辞严厉的邮件:
> "如果不在执行力和资源上进行大幅度的改革,我认为OpenAI在与DeepMind或谷歌的竞争中能够胜出的可能性,几乎为零。"
但在OpenAI首席科学家 Ilya Sutskever 看来,这仅仅是个开始。
当时很少有人意识到,这个胡说八道的语言模型,最终将永远地改变这个世界。
---
二、核心创新:两阶段范式(Pre-train + Fine-tune)
2.1 问题:监督学习的瓶颈
在GPT-1之前,NLP的标准流程是: 1. 收集大量人工标注数据(昂贵、耗时、易错) 2. 针对每个任务训练一个专用模型
GPT-1提出了范式转移:
| 阶段 | 做什么 | 数据需求 | 成本 |
|---|---|---|---|
| 预训练 (Pre-training) | 学"语言本身"——预测下一个词 | 无标签文本(BooksCorpus, ~5GB, 数千本书) | 1个月 × 8 GPUs(一次性) |
| 微调 (Fine-tuning) | 适配具体任务 | 有标签数据(小量) | 快速 |
2.2 为什么选择 BooksCorpus?
不是网页,是 书籍。
> "BooksCorpus are used in this stage because they contain long, continuous text. This is important, since it helps the model understand relationships across sentences rather than just short fragments."
关键差异:
- 长程连贯性:角色、情节、因果关系跨章节发展
- 世界知识密度:历史、科学、常识浓缩在文本中
- 语言质量更高:相比网页的碎片化、噪音
2.3 架构:为什么选 Transformer + Decoder-only?
| 特性 | 作用 |
|---|---|
| Self-attention | 捕捉长程依赖,BooksCorpus中的书籍连贯性不丢失 |
| Decoder-only | 生成式预训练——从左到右预测下一个词 |
| 统一架构 | 所有任务无需定制结构,只改输入格式 |
关键选择:生成式(预测下一个词)vs BERT的双向掩码。
GPT选生成式,因为: 1. 通用接口:任何任务=生成文本 2. 零样本能力自然涌现:模型必须预测下一个词,迫使它学习完整世界表示 3. 可扩展:只管增大模型和数据,架构不变
BERT赢了2018年,GPT赢了2020年代。
---
三、实验结果:12个任务9个SOTA
3.1 主结果
| 数据集 | 任务 | SOTA | GPT-1 | 变化 |
|---|---|---|---|---|
| SNLI | 文本蕴含 | 89.3 | 89.9 | +0.6 |
| MNLI matched | 文本蕴含 | 80.6 | 82.1 | +1.5 |
| SciTail | 文本蕴含 | 83.3 | 88.3 | +5.0 |
| QNLI | 文本蕴含 | 82.3 | 88.1 | +5.8 |
| STS-B | 语义相似度 | 81.0 | 82.0 | +1.0 |
| QQP | 语义相似度 | 66.1 | 70.3 | +4.2 |
| RACE | 阅读理解 | 53.3 | 59.0 | +5.7 |
| ROCStories | 常识推理 | 77.6 | 86.5 | +8.9 |
| COPA | 常识推理 | 71.2 | 78.6 | +7.4 |
| GLUE | 多任务基准 | 68.9 | 72.8 | +3.9 |
3.2 关键洞察:常识推理和阅读理解的跃升
ROCStories +8.9%,RACE +5.7%——这些任务需要 多句推理 和 世界知识。
论文: > "These datasets are thought to require multi-sentence reasoning and significant world knowledge to solve suggesting that our model improves these skills predominantly via unsupervised learning."
预训练学到的不是"英语语法",而是"世界知识"的压缩表示。
3.3 局限(论文诚实承认)
| 数据集 | SOTA | GPT-1 | 差距 |
|---|---|---|---|
| RTE | 61.7 | 56.0 | -5.7 |
| MRPC | 86.0 | 82.3 | -3.7 |
| SST-2 | 93.2 | 91.3 | -1.9 |
---
四、被低估的最大发现:零样本能力
这是论文中最被忽视的段落:
> "We can use the underlying language model to begin to perform tasks without ever training on them. For example, performance on tasks like picking the right answer to a multiple choice question steadily increases as the underlying language model improves."
> "Randomly initialized networks containing no information about the task and the world perform no-better than random using these heuristics. This provides some insight into why generative pre-training can improve performance on downstream tasks."
具体例子:
- 情感分析:输入句子+"very",看模型预测"positive"还是"negative"更可能——~80%准确率,未经任何微调
- 多选题:性能随预训练持续提升
语言模型不仅仅是"语言模型",它是"世界模型"的压缩表示。
预训练过程中,模型必须从文本中推断出世界的结构、因果、常识——否则它无法准确预测下一个词。这种能力 溢出 到了从未见过的任务上。
---
五、预言未来:Future节的前瞻性
2018年的论文,Future节写道:
> "Scaling the approach: We've observed that improvements in the performance of the language model are well correlated with improvements on downstream tasks. We're currently using commodity hardware (a single 8 GPU machine) and a training dataset of only a few thousand books (~5GB of text). This suggests there is significant room for improvement using the well-validated approach of more compute and data."
这段话 精确预言了接下来发生的一切:
| 时间 | 模型 | 参数 | 数据 | 验证 |
|---|---|---|---|---|
| 2018.06 | GPT-1 | 117M | 5GB | "more compute and data" |
| 2019.02 | GPT-2 | 1.5B | 40GB | 规模化验证 |
| 2020.06 | GPT-3 | 175B | 45TB | 少量样本能力涌现 |
| 2022.11 | ChatGPT | RLHF | 对话数据 | 对齐人类偏好 |
| 2023.03 | GPT-4 | 未公开 | 未公开 | 多模态通用智能 |
这与后来OpenAI的闭源策略形成有趣对比。
---
六、HeavyGrok 深度推导
🔍 思考者 1:马斯克 vs Ilya——时间尺度的分歧
这不是技术分歧,而是 时间尺度的分歧:
| 维度 | 马斯克(工程师/产品经理) | Ilya(科学家/信仰者) |
|---|---|---|
| 关注点 | "这个季度能交付什么产品" | "这条路线的极限在哪里" |
| 评估标准 | 当前性能是否可用 | 是否展现出规模化信号 |
| 看到的事实 | 答非所问、3个任务输给SOTA | 零样本能力涌现、常识推理+8.9% |
| 赌注 | 转型、加大资源、换方向 | 押注预训练+规模化 |
他问的不是"这个模型现在有多好用",而是"如果我们把参数扩大1000倍,会发生什么?"
🔍 思考者 2:为什么"胡说八道"不是缺点,而是特征?
GPT-1确实常常答非所问。但这是 生成式模型的本质,不是bug:
- 它不是"检索正确答案"——它是在 基于概率生成下一个词
- 它没有"理解"问题——它是在 模拟人类说话的模式
- 它的"胡说八道"是因为它 缺乏对齐(alignment),不是缺乏知识
换句话说:
- GPT-1 有知识,但不会好好说话 → 需要微调
- GPT-1 有知识,但不会对齐人类偏好 → 需要RLHF
🔍 思考者 3:GPT-1 vs BERT——路线之争的深层原因
2018年10月,Google发布BERT,在GLUE上碾压GPT-1。
当时很多人认为BERT路线更优。但GPT系列的生成式路线最终胜出:
| 维度 | GPT(生成式) | BERT(判别式) |
|---|---|---|
| 架构 | Decoder-only | Encoder-only |
| 预训练目标 | 预测下一个词 | 掩码词预测 |
| 自然涌现的能力 | 对话、推理、代码、零样本 | 嵌入表示、分类 |
| 接口通用性 | 所有任务=文本生成 | 不同任务需要不同输出头 |
| 可扩展性 | 只管增大 | 掩码比例需精细调整 |
| 最终形态 | ChatGPT、GPT-4 | 被GPT系列融合吸收 |
这不是技术优劣,而是目标函数的选择决定了能力上限。
🔍 思考者 4:论文自己承认的局限——后来解决了多少?
论文Future节列出了三个方向:
| 局限 | 2018年的状态 | 2020年代的解决 |
|---|---|---|
| Compute Requirements | 1个月 × 8 GPUs,被认为昂贵 | 千GPU集群,GPT-4训练成本数亿美元 |
| 文本偏见 | "书籍不包含完整或准确的世界信息" | 多模态(GPT-4V)、联网搜索、工具使用 |
| 脆弱泛化 | "对抗性/分布外表现仍脆弱" | 仍在解决,但RLHF和 Constitutional AI 大幅改善 |
| 为什么有效仍不清楚 | "需要更多实验区分竞争解释" | 可解释性研究(如mechanistic interpretability)仍在进行 |
2020年代的回答是:两者都是,且都随规模涌现。
---
七、结论:种子里的大树
GPT-1 的历史地位不是"第一个大模型",而是 "第一个证明规模化语言模型可以实现通用智能的人"。
在它之前:
- word2vec/GloVe:词向量,无上下文
- Skip-Thought:句子向量,能力有限
- ELMo:上下文词向量,但需要任务定制架构
- ULMFiT:LSTM预训练+微调,仅限分类
这是 通用人工智能(AGI)路线的第一次清晰信号。
它的表面贡献是"12个任务9个SOTA"——不错的结果,但不是颠覆性的。
它的真正贡献是范式转移: 1. 预训练 = 知识压缩:无标签文本中蕴含世界知识 2. 语言 = 通用接口:任何任务都可以转化为文本生成 3. 规模化 = 可预测改进:更多计算+数据 = 更好性能 4. 零样本 = 涌现能力:模型从未见过的任务也能做
马斯克看到的是"一个胡说八道的模型"。 Ilya看到的是 "智能的规模化定律"。
> "当时很少有人会意识到,这个胡说八道的语言模型,最终将永远地改变这个世界。"
因为真正改变世界的不是GPT-1本身——117M参数、答非所问、在3个任务上输给SOTA——而是它 证明了的路线:
生成式预训练 + Transformer + 规模化 = 通用智能的萌芽。
GPT-1 是种子。GPT-2/3/4 是种子发芽后的树。 但种子里的所有信息,2018年6月就已经写好了。
---
参考资料
- Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). *Improving Language Understanding by Generative Pre-Training*. OpenAI Technical Report. https://openai.com/research/language-unsupervised
- Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2018). *Pre-training of Deep Bidirectional Transformers for Language Understanding* (BERT). arXiv:1810.04805.
- Vaswani, A., et al. (2017). *Attention is All You Need*. NeurIPS 2017.
- Howard, J., & Ruder, S. (2018). *Universal Language Model Fine-tuning for Text Classification* (ULMFiT). ACL 2018.
- Peters, M.E., et al. (2018). *Deep Contextualized Word Representations* (ELMo). NAACL 2018.