模型微调方法 (Fine-tuning)
什么是模型微调?
预训练模型通过海量通用数据训练获得强大的语言理解能力。但在特定任务上,需要通过微调来让模型适应特定领域。
三种主流微调方法
1. Full Parameter Fine-tuning(全参数微调)
原理:更新预训练模型的所有参数
特点:
- ✅ 适应能力最强
- ❌ 需要较大计算资源
- ❌ 可能导致过拟合
- ❌ 存储成本高
2. Freeze(冻结微调)
原理:冻结部分层,只更新部分参数。通常冻结底层(特征提取层),只训练顶层。
特点:
- ✅ 减少计算资源需求
- ✅ 保留底层特征提取能力
- ✅ 训练更快
- ✅ 平衡性能与资源消耗
3. LoRA(低秩适配)
原理:通过低秩适配矩阵更新参数,只训练少量新增参数,原始模型参数保持不变。
特点:
- ✅ 参数量极大减少(只有原模型的0.1%-1%)
- ✅ 存储高效
- ✅ 训练速度快
- ✅ 可组合多个适配器
方法对比
| 维度 | Full Parameter | Freeze | LoRA |
|---|---|---|---|
| 训练参数 | 全部 | 部分 | 少量新增 |
| 计算资源 | 高 | 中 | 低 |
| 存储成本 | 高 | 中 | 极低 |
| 性能上限 | 最高 | 较高 | 接近全参数 |