批量大小(Batch Size)详解
一、什么是批量大小?
1.1 核心概念
批量大小(Batch Size) 是指在模型训练过程中,每次更新模型参数时所使用的样本数量。
1.2 通俗理解
就像复习功课一样:
- 批量大 = 一次做很多题(快但粗糙)
- 批量小 = 一次做一道题(慢但精细)
1.3 两个关键参数
实际批量大小 = 单设备批量大小 × 梯度累积步数
二、批量大小优缺点对比
2.1 大批量的优势
| 优势 | 说明 |
|---|---|
| 🎯 训练更稳定 | 梯度估计更准,收敛更平稳 |
| 🏆 易收敛到全局最优 | 减少陷入局部最优的风险 |
| ⚡ 计算效率高 | 充分利用GPU并行计算能力 |
2.2 小批量的优势
| 优势 | 说明 |
|---|---|
| 💾 省显存 | 适合显存有限的场景 |
| 🔍 捕捉数据细节 | 梯度噪声有助于跳出局部最优 |
| 🌟 泛化能力强 | 减少过拟合风险 |
三、梯度累积技术
3.1 什么是梯度累积?
梯度累积 是一种"分期付款"技术:
- 用小的单设备批量大小,多次前向和反向传播
- 累积多个小批量的梯度
- 最后统一更新模型参数
3.2 "分期付款"类比
传统方式(直接大批量):
- 💰 一次性支付 32 元
- 💾 需要大量现金(显存)
梯度累积(分期付款):
- 💸 分 4 期,每期 8 元
- 💾 只需少量现金(显存)
- ✅ 最终支付相同总额
四、参数设置建议
4.1 小模型/小数据集
- 从 batch_size = 1 或 2 开始
- 通过梯度累积增加有效批量大小
- 大 batch_size 搭配大学习率
4.2 显存优化技巧
- 梯度累积实现"分期付款"效果
- 平衡显存使用和训练效果
- 根据硬件条件灵活调整
来源:Easy AI 教程系列 #EasyAI #AI教学 #教程 #BatchSize
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力