论文: AdaMeZO: Adam-style Zeroth-Order Optimizer for LLM Fine-tuning Without Maintaining the Moments 作者: Zhijie Cai, Haolong Chen, Guangxu Zhu arXiv: 2605.00650 | 2026-04-30
一、那个"显存不够微调"的痛苦
想象你想微调一个700亿参数的大语言模型。
传统方法需要:
- 前向传播(计算输出)
- 反向传播(计算梯度)
- 存储所有参数的梯度
- 对于大模型,这意味着数百GB的显存
很多人只有一张24GB的显卡。怎么办?
MeZO(Memory-efficient Zeroth-Order optimizer)提供了一种方案:
- 只用前向传播
- 通过扰动参数、比较损失来估计梯度
- 显存需求大幅降低
- 但收敛慢——因为它"盲目"地探索损失 landscape
二、Adam的聪明 vs. MeZO的盲目
Adam优化器为什么好?
它维护两个"矩"(moments):
-
一阶矩:梯度的移动平均(动量)
- 知道"之前往哪个方向走"
- 加速收敛
-
二阶矩:梯度平方的移动平均(自适应学习率)
- 知道"每个参数的变化幅度"
- 在平坦方向大步走,在陡峭方向小步走
但Adam的问题:
- 需要存储两个额外的状态变量
- 对于大模型,这 doubling 了显存需求
- MeZO避免了存储,但失去了Adam的智能
核心问题:能否在零阶优化(不计算真实梯度)中,获得Adam式的智能,同时不增加显存?
三、AdaMeZO:无矩的Adam风格零阶优化
这篇论文提出 AdaMeZO,核心创新:
核心思想:
不存储矩,而是即时计算Adam风格的更新方向。
技术方案:
1. 零阶梯度估计
- 像MeZO一样,用前向传播估计梯度
- 扰动参数,比较损失变化
- 不需要反向传播
2. Adam风格的自适应
- 不存储一阶和二阶矩
- 而是即时计算更新方向
- 考虑历史梯度的方向和幅度
3. 无矩设计
- 关键突破:不需要维护额外的状态
- 显存开销与MeZO相同
- 但收敛速度接近Adam
4. 理论保证
- 论文提供了收敛性分析
- 证明AdaMeZO在适当条件下收敛
这就像给盲人配了一副"智能拐杖":仍然看不见(不用反向传播),但拐杖能感知地形(自适应调整步长),走路更快更稳。
四、为什么"无矩"如此重要?
显存对比(以70B参数模型为例):
全量微调 + Adam:
- 模型参数:140GB(fp16)
- 梯度:140GB
- Adam一阶矩:140GB
- Adam二阶矩:140GB
- 总计:>560GB
MeZO:
- 模型参数:140GB
- 梯度估计:~0(即时计算)
- 无额外状态
- 总计:~140GB
AdaMeZO:
- 与MeZO相同的显存
- 但收敛更快
- 最佳性价比
实际意义:
- 在消费级GPU上微调大模型成为可能
- 降低了AI研究和应用的门槛
- 让更多人能参与大模型微调
五、费曼式的判断:聪明的近似胜过精确但昂贵
费曼说过:
"在工程中,近似答案如果足够好,就优于精确答案如果太昂贵。"
在LLM优化中:
"精确梯度(反向传播)很完美,但对于大模型太昂贵。零阶梯度(前向扰动)是近似,但如果足够好,且能让更多人参与,它就是更好的工程选择。"
AdaMeZO的哲学是:在资源约束下,找到最优的近似。
- 不是放弃智能(Adam的自适应)
- 而是找到不存储矩也能实现自适应的方法
- 这是一个优雅的工程 trade-off
六、带走的启发
如果你在优化大模型或资源受限的场景,问自己:
- "我是否真的需要精确梯度,还是近似就够了?"
- "能否在不增加显存的情况下,获得自适应优化的好处?"
- "零阶优化是否适用于我的任务?"
- "在工程上,'足够好'是否优于'完美但不可用'?"
AdaMeZO提醒我们:AI民主化不仅需要好算法,还需要能在普通硬件上运行的算法。
当微调一个700亿参数模型只需要一张消费级显卡时,AI创新就不再是少数大公司的专利。AdaMeZO让这种民主化更近了一步。
在LLM的世界里,最好的优化器不是最快的,而是让更多人能用的。
#LLM #ZerothOrderOptimization #Adam #MemoryEfficient #FineTuning #FeynmanLearning #智柴AI实验室
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。