BERT 模型详解
一、BERT 概述
1.1 什么是 BERT?
BERT(Bidirectional Encoder Representations from Transformers)是 Google 在 2018 年发布的预训练语言模型,通过双向编码和掩码语言模型,在自然语言理解任务上取得了突破性进展。
1.2 核心特点
| 特点 | 说明 |
|---|---|
| 双向编码 | 利用上下文信息进行深度理解 |
| 预训练+微调 | 一次预训练,多任务应用 |
| 性能突破 | 11个NLP任务达到SOTA |
| 里程碑意义 | 开启预训练模型时代 |
1.3 发展历程
| 年份 | 事件 | 详情 |
|---|---|---|
| 2017 | Transformer架构发布 | Attention is All You Need |
| 2018 | BERT模型发布 | 在11个NLP任务上达到SOTA |
| 2019 | RoBERTa优化发布 | 去除NSP,增加训练数据 |
| 2019 | ALBERT发布 | 参数共享,减少模型体积 |
二、模型架构
2.1 Encoder-Only 架构
BERT 仅使用 Transformer 的 Encoder 部分,12层(Base)或24层(Large)编码器堆叠:
- 多头自注意力机制捕捉双向上下文
- 残差连接和层归一化稳定训练
- 最终通过分类头适配下游任务
2.2 架构层次
Input Embedding (词嵌入 + 位置编码 + 段编码)
↓
Encoder Layer 1-12 (多头注意力 + 前馈网络)
↓
Prediction Head (分类层输出)
2.3 关键创新
双向编码:
- 通过掩码语言模型,同时利用上文和下文信息
- 与传统从左到右或从右到左的模型不同
预训练范式:
- 大规模无监督预训练 + 任务特定微调
- 同一模型架构适配多种NLP任务
通用架构:
- 一个基础模型可以适配多种下游任务
- 大大减少了模型开发成本
三、训练过程
3.1 两阶段训练范式
阶段一:预训练
| 配置项 | 详情 |
|---|---|
| 数据来源 | BookCorpus (800M) + Wikipedia (2500M) |
| 数据大小 | 13GB |
| Token数量 | 3.3B |
| 硬件需求 | 16/64 TPUs |
| 训练时间 | 4天 |
预训练任务:
- MLM(Masked Language Model):随机掩码15%的tokens进行预测
- NSP(Next Sentence Prediction):判断两个句子是否连续
阶段二:微调
| 配置项 | 详情 |
|---|---|
| 数据来源 | 任务特定标注数据 |
| 数据大小 | 几MB到几GB |
| 训练轮数 | 2-4 |
| 硬件需求 | 单GPU |
| 训练时间 | 几小时 |
3.2 预训练流程
- 收集大规模文本语料(3.3B tokens)
- 数据预处理和分词
- MLM任务:随机掩码15%的tokens
- NSP任务:判断句子连续性
- 多GPU并行训练40个epochs
3.3 微调流程
- 准备下游任务标注数据
- 添加任务特定的分类头
- 使用较小学习率微调
- 在验证集上调优超参数
- 评估最终模型性能
四、核心优势
4.1 一次预训练,多次复用
- 预训练模型可以在多个下游任务上微调
- 大大减少了训练成本
- 只需添加简单的分类头即可适配新任务
4.2 通用语言理解
- 通过大规模无监督预训练获得深层语言表示能力
- 理解语法、语义、上下文关系
- 具备强大的迁移学习能力
4.3 数据高效利用
- 少量标注数据即可在特定任务上取得优异性能
- 预训练阶段学习了通用的语言知识
- 微调阶段只需学习任务特定的模式
五、应用场景
BERT 可以应用于各种NLP任务:
- 文本分类:情感分析、垃圾邮件检测
- 命名实体识别:识别人名、地名、组织名
- 问答系统:从文本中提取答案
- 语义相似度:判断两个句子是否语义相似
- 文本摘要:生成文本的简洁摘要
六、BERT 变体
| 模型 | 特点 |
|---|---|
| RoBERTa | 去除NSP任务,增加训练数据,优化训练策略 |
| ALBERT | 参数共享,减少模型体积,提升训练速度 |
| DistilBERT | 知识蒸馏,模型更小,速度更快 |
| ELECTRA | 替换检测预训练任务,更高效的学习 |
来源:Easy AI 教程系列 #EasyAI #AI教学 #教程 #BERT
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力