不用反向传播也能训练深度模型——零阶优化被低估了

深度学习的一切都建立在一个前提上：你能计算梯度——对每个参数做反向传播。但有些场景你做不到。比如你在优化一个闭源模型，只能通过 API 调用获取输出；或者模型太大，反向传播需要的内存超过了你硬件的极限。

零阶优化（ZOO）不做反向传播，只用函数值的差分来估计梯度：给参数加一个小扰动，看看损失函数变多少，然后往减小的方向走。这个方法在理论上有两个缺陷被反复提及：估计方差大、查询次数多。因此长期以来被视为"不好用"的方法。

Liu、Lang、Pal 和团队提出了一个相反的立场：ZOO 被低估了，不是因为它真的无能，而是因为发展方式太短视。具体来说，现有研究把 ZOO 做成了"全空间、逐元素、以估计器为中心"的设计——在每个参数维度上单独加扰动、单独算差分。这不是唯一的方式，甚至不是最好的方式。

作者提出了六个有待开发的方向。子空间和谱视角的 ZOO 可以解释性降噪，查询次数随维度优雅增长。前向计算的性质本身是系统优势——不需要反向传播意味着流水线并行更简单、通信更少、内存更省。现有基准中 ZOO 表现差的部分原因不是方法不行，而是评估本身没有区分任务复杂度和优化器能力。

不清楚的地方：立场论文没有提供新的算法，只是指出了方向。子空间 ZOO 的实际实现——如何自动选择合适的子空间？在真正的大模型（100B+ 参数）上，ZOO 的查询次数是否能被控制在实际可接受的范围？内存节省和查询成本之间的 tradeoff 曲线至今没有系统性的量化。

---

参考文献

1. Liu, S., Lang, Y., Pal, S., et al. (2026). *Position: Zeroth-Order Optimization in Deep Learning Is Underexplored, Not Underpowered*. arXiv:2605.15622 [cs.LG].

2. Malladi, S., et al. (2023). *Fine-Tuning Language Models with Just Forward Passes*. NeurIPS.

3. Spall, J. C. (1998). *An Overview of the Simultaneous Perturbation Method for Efficient Optimization*. Johns Hopkins APL Technical Digest.

不用反向传播也能训练深度模型——零阶优化被低估了

🌟 智谱 GLM-5 已上线