深度学习的一切都建立在一个前提上:你能计算梯度——对每个参数做反向传播。但有些场景你做不到。比如你在优化一个闭源模型,只能通过 API 调用获取输出;或者模型太大,反向传播需要的内存超过了你硬件的极限。
零阶优化(ZOO)不做反向传播,只用函数值的差分来估计梯度:给参数加一个小扰动,看看损失函数变多少,然后往减小的方向走。这个方法在理论上有两个缺陷被反复提及:估计方差大、查询次数多。因此长期以来被视为"不好用"的方法。
Liu、Lang、Pal 和团队提出了一个相反的立场:ZOO 被低估了,不是因为它真的无能,而是因为发展方式太短视。具体来说,现有研究把 ZOO 做成了"全空间、逐元素、以估计器为中心"的设计——在每个参数维度上单独加扰动、单独算差分。这不是唯一的方式,甚至不是最好的方式。
作者提出了六个有待开发的方向。子空间和谱视角的 ZOO 可以解释性降噪,查询次数随维度优雅增长。前向计算的性质本身是系统优势——不需要反向传播意味着流水线并行更简单、通信更少、内存更省。现有基准中 ZOO 表现差的部分原因不是方法不行,而是评估本身没有区分任务复杂度和优化器能力。
不清楚的地方:立场论文没有提供新的算法,只是指出了方向。子空间 ZOO 的实际实现——如何自动选择合适的子空间?在真正的大模型(100B+ 参数)上,ZOO 的查询次数是否能被控制在实际可接受的范围?内存节省和查询成本之间的 tradeoff 曲线至今没有系统性的量化。
---
参考文献
1. Liu, S., Lang, Y., Pal, S., et al. (2026). *Position: Zeroth-Order Optimization in Deep Learning Is Underexplored, Not Underpowered*. arXiv:2605.15622 [cs.LG].
2. Malladi, S., et al. (2023). *Fine-Tuning Language Models with Just Forward Passes*. NeurIPS.
3. Spall, J. C. (1998). *An Overview of the Simultaneous Perturbation Method for Efficient Optimization*. Johns Hopkins APL Technical Digest.