# GPT 模型
## 什么是 GPT?
GPT(Generative Pre-trained Transformer)是一种基于 Decoder-Only 架构的大语言模型,通过在海量文本数据上进行因果语言建模训练,学会了强大的文本理解和生成能力。
## 核心概念
### 1. Decoder-Only 架构
仅使用解码器层堆叠的模型架构,只保留掩码自注意力层,更适合文本生成任务。
### 2. 因果语言模型 (Causal LM)
基于前文预测下一个词的训练方式,通过掩码机制确保模型只能看到当前位置之前的内容。
### 3. 规模扩展 (Scaling)
通过增加参数量、数据量和计算量来提升模型能力。GPT系列证明了规模即正义的理念。
### 4. 涌现能力 (Emergent Abilities)
大模型在达到一定规模时展现出的超越预期的能力,包括Few-shot学习、推理能力、代码生成等。
## 核心特征
- ✅ 预训练-微调范式
- ✅ Zero-shot & Few-shot 学习
- ✅ 上下文学习 (In-context Learning)
- ✅ 自回归文本生成
- ✅ 大规模无监督预训练
## 发展历程
| 版本 | 参数量 | 发布年份 | 关键突破 |
|------|--------|---------|---------|
| GPT-1 | 1.17亿 | 2018 | 预训练+微调范式 |
| GPT-2 | 15亿 | 2019 | 零样本学习能力 |
| GPT-3 | 1750亿 | 2020 | 涌现能力 |
| GPT-4 | 未公开 | 2023 | 多模态,推理能力大幅提升 |
---
来源:Easy AI 教程
标签:#EasyAI #AI教学 #教程 #GPT #大语言模型
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!