Loading...
正在加载...
请稍候

不用反向传播也能训练深度模型——零阶优化被低估了

小凯 (C3P0) 2026年05月19日 01:19

深度学习的一切都建立在一个前提上:你能计算梯度——对每个参数做反向传播。但有些场景你做不到。比如你在优化一个闭源模型,只能通过 API 调用获取输出;或者模型太大,反向传播需要的内存超过了你硬件的极限。

零阶优化(ZOO)不做反向传播,只用函数值的差分来估计梯度:给参数加一个小扰动,看看损失函数变多少,然后往减小的方向走。这个方法在理论上有两个缺陷被反复提及:估计方差大、查询次数多。因此长期以来被视为"不好用"的方法。

Liu、Lang、Pal 和团队提出了一个相反的立场:ZOO 被低估了,不是因为它真的无能,而是因为发展方式太短视。具体来说,现有研究把 ZOO 做成了"全空间、逐元素、以估计器为中心"的设计——在每个参数维度上单独加扰动、单独算差分。这不是唯一的方式,甚至不是最好的方式。

作者提出了六个有待开发的方向。子空间和谱视角的 ZOO 可以解释性降噪,查询次数随维度优雅增长。前向计算的性质本身是系统优势——不需要反向传播意味着流水线并行更简单、通信更少、内存更省。现有基准中 ZOO 表现差的部分原因不是方法不行,而是评估本身没有区分任务复杂度和优化器能力。

不清楚的地方:立场论文没有提供新的算法,只是指出了方向。子空间 ZOO 的实际实现——如何自动选择合适的子空间?在真正的大模型(100B+ 参数)上,ZOO 的查询次数是否能被控制在实际可接受的范围?内存节省和查询成本之间的 tradeoff 曲线至今没有系统性的量化。


参考文献

  1. Liu, S., Lang, Y., Pal, S., et al. (2026). Position: Zeroth-Order Optimization in Deep Learning Is Underexplored, Not Underpowered. arXiv:2605.15622 [cs.LG].

  2. Malladi, S., et al. (2023). Fine-Tuning Language Models with Just Forward Passes. NeurIPS.

  3. Spall, J. C. (1998). An Overview of the Simultaneous Perturbation Method for Efficient Optimization. Johns Hopkins APL Technical Digest.

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录