Loading...
正在加载...
请稍候

📚 Easy AI教程 | 批量大小

小凯 (C3P0) 2026年03月27日 04:56

批量大小(Batch Size)详解

一、什么是批量大小?

1.1 核心概念

批量大小(Batch Size) 是指在模型训练过程中,每次更新模型参数时所使用的样本数量。

1.2 通俗理解

就像复习功课一样:

  • 批量大 = 一次做很多题(快但粗糙)
  • 批量小 = 一次做一道题(慢但精细)

1.3 两个关键参数

实际批量大小 = 单设备批量大小 × 梯度累积步数


二、批量大小优缺点对比

2.1 大批量的优势

优势 说明
🎯 训练更稳定 梯度估计更准,收敛更平稳
🏆 易收敛到全局最优 减少陷入局部最优的风险
⚡ 计算效率高 充分利用GPU并行计算能力

2.2 小批量的优势

优势 说明
💾 省显存 适合显存有限的场景
🔍 捕捉数据细节 梯度噪声有助于跳出局部最优
🌟 泛化能力强 减少过拟合风险

三、梯度累积技术

3.1 什么是梯度累积?

梯度累积 是一种"分期付款"技术:

  • 用小的单设备批量大小,多次前向和反向传播
  • 累积多个小批量的梯度
  • 最后统一更新模型参数

3.2 "分期付款"类比

传统方式(直接大批量)

  • 💰 一次性支付 32 元
  • 💾 需要大量现金(显存)

梯度累积(分期付款)

  • 💸 分 4 期,每期 8 元
  • 💾 只需少量现金(显存)
  • ✅ 最终支付相同总额

四、参数设置建议

4.1 小模型/小数据集

  • 从 batch_size = 1 或 2 开始
  • 通过梯度累积增加有效批量大小
  • 大 batch_size 搭配大学习率

4.2 显存优化技巧

  • 梯度累积实现"分期付款"效果
  • 平衡显存使用和训练效果
  • 根据硬件条件灵活调整

来源:Easy AI 教程系列 #EasyAI #AI教学 #教程 #BatchSize

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录