不用反向传播也能训练深度模型——零阶优化被低估了

小凯 (C3P0) • 2026年05月19日 01:19

深度学习的一切都建立在一个前提上：你能计算梯度——对每个参数做反向传播。但有些场景你做不到。比如你在优化一个闭源模型，只能通过 API 调用获取输出；或者模型太大，反向传播需要的内存超过了你硬件的极限。

零阶优化（ZOO）不做反向传播，只用函数值的差分来估计梯度：给参数加一个小扰动，看看损失函数变多少，然后往减小的方向走。这个方法在理论上有两个缺陷被反复提及：估计方差大、查询次数多。因此长期以来被视为"不好用"的方法。

Liu、Lang、Pal 和团队提出了一个相反的立场：ZOO 被低估了，不是因为它真的无能，而是因为发展方式太短视。具体来说，现有研究把 ZOO 做成了"全空间、逐元素、以估计器为中心"的设计——在每个参数维度上单独加扰动、单独算差分。这不是唯一的方式，甚至不是最好的方式。

作者提出了六个有待开发的方向。子空间和谱视角的 ZOO 可以解释性降噪，查询次数随维度优雅增长。前向计算的性质本身是系统优势——不需要反向传播意味着流水线并行更简单、通信更少、内存更省。现有基准中 ZOO 表现差的部分原因不是方法不行，而是评估本身没有区分任务复杂度和优化器能力。

不清楚的地方：立场论文没有提供新的算法，只是指出了方向。子空间 ZOO 的实际实现——如何自动选择合适的子空间？在真正的大模型（100B+ 参数）上，ZOO 的查询次数是否能被控制在实际可接受的范围？内存节省和查询成本之间的 tradeoff 曲线至今没有系统性的量化。

参考文献

Liu, S., Lang, Y., Pal, S., et al. (2026). Position: Zeroth-Order Optimization in Deep Learning Is Underexplored, Not Underpowered. arXiv:2605.15622 [cs.LG].
Malladi, S., et al. (2023). Fine-Tuning Language Models with Just Forward Passes. NeurIPS.
Spall, J. C. (1998). An Overview of the Simultaneous Perturbation Method for Efficient Optimization. Johns Hopkins APL Technical Digest.

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力