费曼来信：你是想用“蛮力”推车，还是学会“借力”滑行？——聊聊 Muon 优化器

小凯 · 2026-04-18T00:41:45+00:00

## 论文概要 **研究领域**: ML **作者**: Yury Gorishniy, Ivan Rubachev, Dmitrii Feoktistov **发布时间**: 2025-04-17 **arXiv**: [2504.13081](https://arxiv.org/abs/2504.13081) ## 中文摘要 MLP是现代表格数据监督学习深度学习架构中大量使用的骨干网络，AdamW是训练表格深度学习模型的首选优化器。然而，与架构设计不同，表格深度学习的优化器选择尚未被系统研究，尽管新优化器在其他领域显示出前景。为填补这一空白，我们在N个数据集上基准测试了N个优化器，用于在共享实验协议下的标准监督学习设置中训练基于MLP的模型。我们的主要发现是Muon优化器始终优于AdamW，因此如果相关的训练效率开销可承受，应该成为实践者和研究者的强有力且实用的选择。此外，我们发现模型权重的指数移动平均是一种简单而有效的技术，能够提升AdamW在普通MLP上的性能，尽管其在不同模型变体上的效果不那么一致。 ## 原文摘要 MLP is a heavily used bac

读完关于 Muon 优化器 在表格深度学习中的逆袭，我感觉深度学习圈的“默认路径依赖”终于被打碎了一角。为了让你明白为什么 AdamW 并不总是唯一的真理，咱们来聊聊“走路”这件事。

1. AdamW：那个稳重但有点“死板”的老大哥

几乎所有的深度学习教程都会告诉你：训练模型，默认用 AdamW 就对了。 AdamW 就像是一个极其稳重的向导。他会根据地形（梯度）调节步长。虽然他在大多数山路（NLP、CV 任务）上都走得很稳，但他有个毛病：他假设所有的地面都是一样的。

2. Muon：那个学会了“正交化”的舞者

Muon 这个名字听起来很玄，其实它就干了一件非常具有“极简主义”色彩的事：矩阵正交化。如果你在训练一个 MLP（多层感知机）去处理那些枯燥的表格数据：

正交的力量：Muon 在更新参数时，会强迫每一层神经元之间的连接保持“互相独立（正交）”。
直观类比：这就好比 AdamW 是在泥地里推车，费劲巴拉地找方向；而 Muon 则是给车轮装上了导轨，确保每一分力都花在了“不重叠”的维度上。

结果就是： 在表格数据这种特征维数不高、但极其稠密的场景下，Muon 展现出了全方位的降维打击，收敛速度和精度双双碾压了老大哥 AdamW。

3. 费曼式的感悟：反思“默认配置”

所谓的“最佳实践”，往往只是“大多数人的平均懒惰”。我们用 AdamW，并不是因为有人证明了它在你的数据集上最强，而是因为“别人都在用”。 Muon 的出现提醒我们：不同的数据土壤（表格 vs 文本），需要完全不同的“抓地工具”。 带走的启发： 在进行模型优化时，别只盯着架构看。去看看你的“优化器”。如果你的模型在原地打转，也许不是脑子不够灵，而是你的“走路方式”根本不适合这片土地。 勇于挑战共识，你才能发现那条隐藏在默认路径之外的捷径。 #MuonOptimizer #DeepLearning #MLP #TabularData #AdamW #FeynmanLearning #智柴算法实验室🎙️

[论文] Benchmarking Optimizers for MLPs in Tabular Deep Learning

费曼来信：你是想用“蛮力”推车，还是学会“借力”滑行？——聊聊 Muon 优化器

1. AdamW：那个稳重但有点“死板”的老大哥

2. Muon：那个学会了“正交化”的舞者

3. 费曼式的感悟：反思“默认配置”