干草堆里的热带雨林：当AI学会瞎猜就能变聪明

——MIT最新论文《Neural Thickets》深度解读

---

引言：一个关于"猜"的故事

让我给你讲个故事。

假设你面前有一个巨大的房间，里面堆满了无数个保险箱。每个保险箱里都藏着一个答案——可能是如何解决一道数学题，可能是如何写一段优雅的代码，也可能是如何描述一张图片里的内容。你的任务很简单：打开正确的保险箱，取出答案。

问题来了：你没有钥匙，也没有密码。

在2001年，人工智能领域的一些顶尖思想家——Schmidhuber、Hochreiter和Bengio——曾经下过这样的定论："随机猜测不能被视为一种合理的学习算法。"他们的理由很充分：如果你要在一个十亿维度的空间里随机找一个能像ChatGPT那样工作的参数向量，这个概率小得就像在整个银河系里随机挑一颗特定的沙子。

他们说得对，但也只说对了一半。

二十五年后的今天，麻省理工学院的一群研究者发现了一件令人震惊的事：如果你手上有一个经过充分预训练的大语言模型，那些藏有正确答案的保险箱——他们称之为"任务专家"——竟然密密麻麻地挤在起始点的周围，就像一片茂密的灌木丛。你不需要什么精妙的搜索算法，只要闭上眼睛随机伸出手，就有很大概率摸到一个能解决问题的专家。

这听起来像是魔术，但这正是2026年3月MIT论文《Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights》所揭示的核心发现。

让我们慢慢道来。

---

第一章：干草堆与灌木丛

1.1 那个古老的比喻

在机器学习的传统认知里，参数空间被想象成一片无边无际的干草堆，而好的解决方案就像藏在这片干草堆里的一根针。你的任务是找到这根针。

这是一个很形象的比喻，但也是一个令人沮丧的比喻。干草堆太大了，针太少了，盲目摸索几乎是徒劳的。这就是为什么我们需要梯度下降——这种算法就像给你一个金属探测器，告诉你"往这边走，草越来越密"，让你一步步逼近目标。

梯度下降很聪明。它计算损失函数的梯度，也就是告诉你在当前位置，哪个方向能让错误减少得最快。然后你迈出一步，再计算，再迈出一步。就这样，一步一步，最终找到那根针。

这个方法在过去几十年里统治了深度学习。从识别手写数字到生成逼真的图像，从翻译语言到打败围棋世界冠军，梯度下降和它的一众变种（Adam、RMSprop、SGD等等）功不可没。

但这个方法也有它的烦恼。

1.2 梯度下降的烦恼

首先，梯度下降是*序列式*的。你走一步，停下来，看看周围环境，再决定下一步往哪走。这意味着即使你有一百台计算机，它们也不能同时帮你找针——它们得排队，一台接一台地帮你计算梯度。

其次，梯度下降可能会被困住。想象你在浓雾中爬山，你只能通过脚底的坡度来判断方向。如果你走到了一个山谷的底部，四面都是上坡，你就会误以为这里是最低点，即使远处还有更深的山谷。在数学上，这叫做"陷入局部最优"。

第三，梯度下降需要很小心地选择步长。步子太小，你要走很久很久；步子太大，你可能会直接跨过目标，在目标附近来回震荡，永远落不下去。

这些烦恼在训练小模型时也许不算什么，但当模型变得越来越大——十亿参数、百亿参数、千亿参数——每一个训练步骤都需要巨大的计算资源。如果能把这一百台计算机同时用上，而不是让它们排队等待，那该多好？

1.3 一片神秘的灌木丛

现在，让我们回到MIT研究者们的发现。

他们问了一个简单的问题：如果我们完全放弃梯度下降，就只是*随机猜测*，会发生什么呢？

具体来说，他们从预训练好的模型权重出发，给它加上一些随机的高斯噪声——就像给模型戴上了一副随机扭曲的眼镜——然后看看这个"近视"的模型在任务上表现如何。

在小模型上，结果不出所料：大部分随机扰动都让模型变得更差，只有极少数能让模型稍有改善。这就像是那片干草堆——随机摸一把，大概率抓到的只是干草。

但当模型变大时，奇妙的事情发生了。

研究者们在Qwen2.5系列模型上做了实验，从0.5B（5亿参数）到32B（320亿参数）。他们发现，随着模型规模增大，能够让模型在下游任务上表现更好的随机扰动越来越多。在GSM8K（一个数学推理基准测试）上，当模型从0.5B增大到32B时，能匹配或超过基线性能的随机扰动比例从0%飙升到了64%。在Countdown任务上，这个比例从8%跳到了60%。

这意味着什么？

这意味着，在大型预训练模型周围，好的解决方案不再像干草堆里的针那样稀少。它们密集地分布在预训练权重的周围，就像一片茂密的灌木丛——论文作者们称之为"Neural Thickets"，神经灌木丛。

想象一下这个画面：你站在一片森林的边缘，周围全是灌木。每一丛灌木都擅长做某件特定的事情：这一丛特别擅长解数学题，那一丛特别擅长写代码，远处的那一丛对化学问题了如指掌。你不需要长途跋涉去寻找它们——它们就在你身边，密密麻麻，触手可及。

这就是"神经灌木丛"的图景。

---

第二章：解的密度与多样性

2.1 密度：好解有多密集？

为了量化"神经灌木丛"的茂密程度，MIT的研究者们定义了一个关键指标：解密度（Solution Density）。

简单来说，就是在预训练权重周围的一个高斯邻域内，有多少比例的随机采样点能够改善模型在特定任务上的表现。如果这个比例很高，说明好解很密集；如果比例很低，说明好解很稀疏。

他们的实验结果清晰地展示了一个规模定律（Scaling Law）：解密度随着模型规模、预训练数据量和预训练质量的增长而增长。

在小模型或者未经预训练的模型中，解密度极低——可能只有千分之一甚至万分之一。这就像是干草堆里的针，你需要非常聪明的搜索算法才能找到它们。

但在大型、充分预训练的模型中，解密度可以达到百分之几十甚至更高。这意味着你随机扔一块石头，就有很大概率砸中一个好解。

这个发现本身已经很令人震惊了，但更神奇的事情还在后面。

2.2 多样性：专家还是通才？

研究者们发现，这些随机采样到的好解并不是"通才"——它们不会在所有任务上都表现更好。相反，它们是"专家"——每个解只在某个特定任务上表现出色，在其他任务上可能反而比原模型更差。

为了量化这个现象，他们发明了一个叫做"谱不协调度"（Spectral Discordance）的指标。

这个概念稍微有些数学，但我们可以用一个简单的比喻来理解。想象你有七个不同的任务（数学推理、代码生成、创意写作、化学问题等等），你随机采样了一百个扰动。对于每个扰动，你记录它在七个任务上的相对表现排名。

如果所有任务上的表现排名都是平行的——也就是说，在这个任务上表现好的扰动，在其他任务上也表现好——那么谱不协调度接近0。这说明这些扰动是"通才"。

但如果排名是杂乱无章的——在这个任务上表现最好的扰动，在另一个任务上可能表现最差——那么谱不协调度接近1。这说明这些扰动是"专家"。

实验结果清晰地支持了"专家假说"：随着模型规模增大，谱不协调度也增大。这意味着大型预训练模型周围的解空间充满了各种各样的专家，每个专家都有自己的专长领域。

图4展示了这一现象的可视化。每一条彩色的线代表一个随机扰动在七个任务上的百分位排名。你可以看到，这些线不是平的，而是"尖刺状"的——每个扰动在某些任务上有高峰，在其他任务上有低谷。这正是专家的特征。

更有意思的是，如果你把这些七维的性能向量投影到二维平面上（使用主成分分析），你会看到明显的聚类现象。不同的专家形成了不同的"部落"——这个部落的成员都擅长数学但不太会写代码，那个部落的成员都是化学高手但在创意写作上表现平平。

2.3 规模定律的深层含义

解的密度和多样性都遵循规模定律，这个事实本身就揭示了一些关于深度学习的深层真理。

首先，这说明预训练不仅仅是"学习一些知识"那么简单。在预训练过程中，模型似乎在参数空间中找到了一个特殊的位置——一个被各种任务专家包围的"战略要地"。从这个位置出发，通往各种能力的道路都变得很短、很平坦。

这让人想起一个叫做"MAML"（Model-Agnostic Meta-Learning，模型无关的元学习）的算法。MAML的核心思想是：不是直接学习一个解决特定任务的模型，而是学习一个"好的初始化"——从这个初始化出发，只需要很少的梯度步就能适应任何新任务。

MIT研究者们的发现表明，大规模预训练*自动地*实现了类似MAML的效果。预训练找到的不仅仅是一个点，而是一个通往无数个专家的大门。

其次，规模定律的存在解释了为什么"神经灌木丛"现象直到最近才被发现。在几年前，主流模型还太小，解密度太低，随机猜测确实是一种徒劳的策略。但随着模型规模进入十亿参数级别，我们跨过了一个临界点——干草堆变成了灌木丛。

---

第三章：RandOpt——随机猜测的艺术

3.1 一个听起来很蠢的算法

基于"神经灌木丛"的发现，MIT的研究者们提出了一个听起来几乎像玩笑的算法：RandOpt，随机优化。

这个算法的流程简单得让人难以置信：

1. 采样（Sample）：从预训练权重出发，随机生成N个高斯扰动。每个扰动就是给原模型的每个参数加上一点随机噪声。

2. 评估（Evaluate）：把这N个扰动后的模型在训练数据上都跑一遍，看看它们的表现如何。

3. 选择（Select）：选出表现最好的K个扰动。

4. 集成（Ensemble）：在测试时，用这K个模型分别做预测，然后通过多数投票决定最终答案。

就这四步。没有梯度计算，没有反向传播，没有迭代优化。完全并行，完全简单。

如果梯度下降是一个小心翼翼的登山者，一步一步地向山顶攀登，那么RandOpt就像是一群从天而降的伞兵，随机降落在山坡上，然后报告说"我这里的风景不错"。如果你派出了足够多的伞兵，总有人能降落在山顶附近。

3.2 速度的艺术

RandOpt最引人注目的特点之一是它的速度——不是指单个扰动的计算速度，而是指*墙钟时间*（wall-clock time）。

传统的训练方法，无论是梯度下降、PPO（Proximal Policy Optimization，近端策略优化）、GRPO（Group Relative Policy Optimization，组相对策略优化）还是ES（Evolution Strategies，进化策略），都需要*序列式*的更新。你要先走一步，看看结果，再决定下一步。即使你有无限的计算资源，这个序列性也意味着你需要等待T个步骤才能完成训练。

但RandOpt是*完全并行*的。N个扰动可以同时生成、同时评估。在墙钟时间上，RandOpt的训练复杂度是O(1)——常数时间，与训练步数无关。而其他方法的复杂度是O(T)——随着训练步数线性增长。

研究者们在一个拥有200个GH200 GPU的集群上测试了RandOpt。他们使用Olmo-3-7B-Instruct模型（一个70亿参数的语言模型），在Countdown任务上进行训练。使用N=2000个随机扰动，选取K=50个最好的进行集成——整个过程只用了3.2分钟，就达到了70%的准确率。

3.2分钟！

相比之下，传统的强化学习方法可能需要数小时甚至数天才能达到类似的性能。

当然，这种速度是有代价的：RandOpt需要大量的并行计算资源。如果你有200个GPU，你可以同时评估200个扰动，很快就能完成。但如果你只有一个GPU，你得一个一个地评估，那就慢多了。

但在这个计算资源越来越便宜、越来越容易获取的时代，并行性比序列性更有价值。你可以租用一个大型GPU集群一个小时，完成训练，然后关掉它。这比用一个GPU连续跑几天更便宜、更快。

3.3 与主流方法的较量

RandOpt听起来很好，但它真的能和那些精心设计的算法竞争吗？

MIT研究者们在广泛的基准测试上验证了RandOpt的性能，包括：

数学推理：Countdown、GSM8K、MATH-500、OlympiadBench
代码生成：MBPP（Mostly Basic Python Problems）
创意写作：ROCStories
化学问题：USPTO

他们测试了多个模型家族：Qwen2.5（0.5B到32B）、Llama、OLMo3（base和instruct版本）。

结果令人惊讶：在大多数设置下，RandOpt（K=50）的性能与PPO、GRPO、ES等主流方法相当，有时甚至更好。

图6展示了这些对比。每个点代表一个实验，横轴和纵轴分别代表不同方法的性能。如果RandOpt和某个基线性能相当，点应该落在对角线上。结果发现，大部分点都落在对角线附近，有些甚至明显偏向RandOpt一侧。

这并不意味着RandOpt在所有情况下都更好。在某些任务上，特别是那些需要精细调整的任务上，梯度方法可能仍然占优。但RandOpt的成功本身就说明了一个重要的事实：一旦你有了一个强大的预训练表示，后训练（post-training）可以变得*出奇地简单*。

3.4 集成的力量

RandOpt的一个关键设计是集成（Ensembling）。研究者们发现，仅仅选取最好的一个扰动（K=1）通常是不够的。真正的威力来自于选取前K个最好的扰动，然后让它们在测试时投票。

为什么集成这么重要？

回想一下我们之前讨论过的"专家"性质。每个随机扰动都是一个专家，但它只擅长特定类型的任务或特定类型的输入。当你面对一个新的测试样本时，你不知道哪个专家最适合它。但通过集成多个专家，你可以利用"群体的智慧"——每个专家都发表自己的意见，然后通过多数投票决定最终结果。

实验数据证实了这一点。图11对比了K=1和K=50的性能差异。在大多数任务上，K=50明显优于K=1。这说明单个专家虽然有用，但多个专家的组合更强大。

当然，集成也有代价：在推理时，你需要运行K个模型而不是1个，计算成本增加了K倍。对于K=50，这意味着推理速度会慢50倍。这是一个实际的权衡：你用训练时间的极大缩短，换取了推理时间的增加。

但对于很多应用场景来说，这种权衡是值得的。训练通常是一次性的，而推理是持续进行的——但如果你需要快速迭代、快速实验，RandOpt提供了一种前所未有的速度优势。

此外，研究者们还展示了可以通过蒸馏（distillation）来降低推理成本。基本思路是：先用RandOpt训练出一组专家，然后用这些专家的输出来监督训练一个单一模型，让这个单一模型学会模仿专家们的集体智慧。初步实验表明，这种蒸馏可以在保持大部分性能的同时，将推理成本降回普通水平。

---

第四章：为什么灌木丛会出现？

4.1 一个极简实验

为了理解"神经灌木丛"为什么会出现，MIT的研究者们设计了一个极简的实验场景。

他们考虑一个一维信号预测的问题。想象一下，你要预测一个函数在下一个时间点的值。这个函数可以是正弦波、线性函数、方波、锯齿波等等，每种类型都有不同的参数（比如正弦波的振幅和相位）。

他们训练了一个简单的多层感知机（MLP），让它观察一段历史信号，然后预测下一个值。这个模型通过自回归的方式生成预测：它先预测下一个值，然后把这个预测值加入历史，再预测再下一个值，依此类推。

关键的问题来了：预训练对这个模型有什么影响？

研究者们设计了三种预训练方案：

1. 无预训练：模型使用标准的Xavier或Kaiming初始化，没有任何预训练。 2. 混合预训练：模型在所有类型的信号（正弦、线性、方波等）上进行预训练。 3. 特定预训练：模型只在特定类型的信号上进行预训练（比如只在线性信号上预训练）。

然后，他们测试了RandOpt在这些不同预训练方案下的表现。

4.2 三种截然不同的景象

干草堆阶段（The Needle-in-a-Haystack Regime）

对于未经预训练的模型，随机扰动几乎没有任何效果。无论你怎么扰动，模型的输出都是一团糟，几乎无法捕捉任何有意义的函数形状。

这就像是在干草堆里随机找针——你把模型周围的参数空间翻个底朝天，也找不到一个好解。在这个状态下，你需要结构化的搜索方法，比如梯度下降，才能找到远离初始化的好解。

灌木丛阶段（The Thicket Regime）

对于在混合信号上预训练的模型，景象完全不同。随机扰动现在产生了丰富多样的函数形状：有些扰动让模型更像正弦波，有些更像线性函数，有些更像方波。

当你给定一个测试信号时（比如一个线性函数），你会发现那些"线性专家"（即产生线性预测的扰动）能够很好地匹配这个信号。如果你选取最好的几个扰动进行集成，你就能得到相当准确的预测。

这就是"神经灌木丛"的核心特征：预训练让模型处于一个"战略位置"，从这个位置出发，通往各种专家能力的道路都很短、很容易找到。

平台阶段（The Plateau Regime）

最有趣的是第三种情况：如果你的测试信号的类型恰好是你预训练时见过的类型（比如，你只在线性信号上预训练，现在也在测试线性信号），那么预训练权重本身就已经是（或非常接近）最优解了。在这种情况下，随机扰动不仅不会帮助，反而会让性能下降。

这形成了一个"平台"——预训练已经把你带到了目的地，任何偏离都是走回头路。

4.3 预训练到底在做什么？

这个极简实验揭示了预训练的深层机制。

传统的观点认为，预训练是在"学习知识"——模型通过在海量文本上训练，学会了语法、事实、推理模式等等。这个观点没错，但不完整。

MIT研究者们的实验表明，预训练还在做另一件重要的事情：它在参数空间中*定位*。预训练把模型推到了一个特殊的位置，从这个位置出发，通往各种下游任务能力的路径都变得平坦、短促、容易到达。

换句话说，预训练不仅在填充模型的"知识库"，还在优化模型的"初始位置"，使其成为一个优秀的"元学习者"（meta-learner）——能够快速适应任何新任务的学习者。

这与进化生物学中的一个概念相呼应：Baldwin效应。这个效应表明，进化不仅会选择那些天生就适应环境的个体，还会选择那些*容易学习*适应环境的个体。在神经网络的世界里，预训练似乎在做类似的事情：它选择的不是一个能解决所有问题的模型，而是一个*容易学习*解决各种问题的模型。

---

第五章：灌木丛里长什么样？

5.1 专家们的肖像

如果我们仔细观察"神经灌木丛"里的那些专家，它们各自长什么样？

研究者们通过可视化技术，为我们描绘了这些专家的"肖像"。

图4的左侧展示了100个随机扰动在七个任务上的性能谱。每条线代表一个扰动，纵轴是它相对于其他扰动的百分位排名。你可以清楚地看到，这些线不是平坦的——每个扰动在某些任务上有高峰，在其他任务上有低谷。

比如，有一条橙色的线（扰动#57）在Countdown任务上排名很高（接近90%），但在USPTO（化学任务）上排名很低（接近10%）。另一条绿色的线（扰动#23）正好相反：它在化学任务上表现出色，但在数学任务上表现平平。

这就是专家的本质：他们各有所长，各有所短。

5.2 部落的形成

更有趣的是，这些专家不是孤立存在的——它们形成了"部落"。

图4的右侧展示了一个PCA（主成分分析）投影。每个点代表一个扰动，点的位置由它在七个任务上的性能向量决定。相似的专家在投影中靠近彼此，形成聚类。

你可以清楚地看到几个明显的聚类：

数学部落：这些专家擅长Countdown、GSM8K、MATH-500等数学任务，但不太擅长创意写作或化学。
化学部落：这些专家在USPTO上表现出色，但数学能力一般。
写作部落：这些专家在ROCStories上表现突出，但数学和化学都不行。

这些部落的存在说明，"神经灌木丛"不是一片杂乱无章的荒野，而是一个有组织、有结构的生态系统。不同的专家有不同的专长，但他们内部有相似性，与其他部落有差异性。

5.3 RGB景观图

图8展示了一种更加直观的可视化方式：RGB景观图。

研究者们在参数空间的一个二维切片上（通过PCA降维得到），计算了每个位置在三个不同任务上的性能。然后，他们把这三个任务的性能分别映射到红色、绿色、蓝色通道。

如果三个任务的性能高度相关（也就是"通才"假说），那么这张图应该是灰度的——因为红、绿、蓝三个通道的值差不多，混合在一起就是灰色。

但实际上，这张图是彩色的——有红色区域、绿色区域、蓝色区域，还有它们混合形成的各种颜色。这说明三个任务的性能 landscape 是相对独立的：在某个区域红色强，在另一个区域蓝色强，在又一个区域绿色强。

这正是"专家"假说的视觉证明。

5.4 不同类型的灌木丛

在论文的第八章，研究者们进一步探讨了"灌木丛"的类型。

他们问了一个问题：RandOpt带来的性能提升，究竟是因为模型真的学会了更好的推理，还是仅仅因为输出了更好的格式？

这个问题很重要，因为语言模型的评估往往对格式很敏感。比如，如果标准要求答案放在"####"标签后面，但模型直接把答案写在句子中间，即使答案正确也可能被判错。

研究者们以GSM8K为例，将性能提升分解为几个部分：

推理灌木丛（Reasoning Thicket）：基线模型做错了，但扰动后的模型做对了——这说明扰动真的改善了推理能力。
格式灌木丛（Format Thicket）：基线模型推理对了但格式错了，扰动后的模型格式对了——这说明扰动主要改善了输出格式。
保持正确（Retained Correctness）：基线模型和扰动模型都做对了。
回归（Regression）：基线模型做对了，但扰动模型做错了。

结果显示，RandOpt（K=50）在GSM8K上达到了86.7%的准确率，相比基线有显著提升。在这提升中，有12.3%来自真正的推理改善（推理灌木丛），19.0%来自格式改善（格式灌木丛）。

这说明"神经灌木丛"是多层次的：有擅长推理的专家，也有擅长格式的专家，还有各种其他类型的专家。这个发现暗示，在不同的应用场景中，我们可能需要不同类型的"灌木丛"——有些任务需要强大的推理能力，有些任务需要特定的输出格式，有些任务需要特定的风格或个性。

---

第六章：RandOpt的局限与边界

6.1 你需要预训练

RandOpt不是万能药。论文的作者们非常坦诚地指出了这一点。

最关键的限制是：RandOpt*只适用于已经充分预训练的模型*。如果你试图用RandOpt从零开始训练一个神经网络——比如，从一个随机初始化的Xavier初始化开始——你几乎不会得到任何有用的结果。

这是因为在未经预训练的模型周围，解密度太低了。随机猜测找到好解的概率微乎其微，你需要结构化的搜索方法（如梯度下降）才能找到远离初始化的有效解。

换句话说，预训练是必需的。RandOpt不是一个替代预训练的方法，而是一个*后训练*（post-training）的方法。它的价值在于，一旦你有了一个好的预训练模型，后续的任务适应可以变得极其简单。

6.2 你能学到多少新东西？

另一个开放的问题是：随机猜测和集成到底能把模型带到多远？

研究者们观察到，RandOpt的性能随着模型规模、采样数量（N）和集成大小（K）的增加而增长，但这种增长似乎会饱和。即使在双对数坐标下（log-log plot），你也能看到增长曲线变平的迹象。

这可能意味着，在预训练权重的局部邻域内，确实存在着密集的灌木丛，但如果你想获得*远超*基线模型能力的性能，你可能需要走得更远——走出这片灌木丛，进入更广阔的参数空间。

而一旦你走出了灌木丛，你就回到了"干草堆"的世界。在那里，随机猜测不再有效，你需要梯度下降或其他结构化搜索方法来寻找那些遥远的好解。

6.3 推理时间的代价

正如前面提到的，RandOpt的一个主要代价是推理时间的增加。如果你使用K=50的集成，你需要运行50次前向传播才能得到一个答案。

对于某些应用来说，这个代价是可以接受的。比如，如果你在做离线批量处理，或者如果你的应用对延迟不敏感，50倍的计算增长可能不是什么大问题。

但对于实时应用——比如在线对话系统、实时推荐系统——这个代价可能是致命的。没人愿意等50倍的时间来得到一个回复。

蒸馏是一种缓解这个问题的方法，但它也有代价：蒸馏不再是完全并行的，它需要额外的训练计算，而且可能无法完全保持集成的性能。

6.4 不是替代，而是补充

论文的作者们强调，RandOpt的目的不是要取代梯度下降或其他训练方法，而是要*补充*它们，并帮助我们更好地理解预训练的威力。

RandOpt的成功是一个"探针"——它告诉我们，一旦你进入了"灌木丛阶段"，后训练可以变得多么简单。在这个阶段，不管你用梯度下降、进化策略，还是简单粗暴的随机猜测，你都能获得不错的结果。

但找到这片灌木丛本身，可能仍然需要那些"老派"的方法。预训练——在大规模数据上的梯度下降——仍然是找到这个神奇位置的关键。

---

第七章：影响与启示

7.1 对AI研究的影响

"神经灌木丛"的发现对AI研究有多方面的影响。

首先，它挑战了我们对后训练（post-training）的传统理解。过去，我们认为后训练需要精心设计的算法——RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）、DPO（Direct Preference Optimization，直接偏好优化）、PPO等等。这些方法都有其复杂性，需要仔细的调参和大量的工程工作。

但RandOpt表明，在某些情况下，这些复杂性可能是不必要的。如果你有一个足够好的预训练模型，简单的随机搜索就能达到类似的性能。这可能会促使研究者们重新思考：我们在后训练中到底在做什么？那些复杂的算法是在寻找灌木丛里的特定专家，还是只是在灌木丛里随意走动？

其次，这一发现强调了预训练的重要性。如果预训练能自动找到一个被无数专家包围的战略位置，那么预训练的质量可能比后训练的技巧更加关键。这可能会引导更多的研究资源投入到预训练阶段——更好的数据、更好的架构、更好的预训练目标。

第三，RandOpt的完全并行性为分布式训练开辟了新的可能性。在传统的分布式训练中，不同的计算节点需要频繁地通信（比如同步梯度）。但RandOpt的节点之间不需要通信——每个节点独立地采样、评估、报告结果。只有最后的选择和集成阶段需要收集所有节点的结果。这种低通信开销的特性使得RandOpt非常适合在通信带宽受限的环境中使用，比如跨数据中心的训练、联邦学习等场景。

7.2 对AI应用的影响

对于实际应用AI的工程师和开发者来说，"神经灌木丛"的发现也带来了新的机遇和挑战。

机遇在于：后训练可以变得非常快。如果你有一个强大的预训练模型，你只需要几分钟的并行计算就能获得一个针对特定任务的定制模型。这对于需要快速迭代、快速部署的场景非常有价值。

挑战在于：你需要有足够的并行计算资源。RandOpt的速度优势只有在有足够多的GPU（或其他加速器）时才能体现。如果你的计算资源有限，传统的梯度方法可能仍然是更好的选择。

另一个值得思考的点是：集成 vs 单一模型。RandOpt通过集成多个专家来获得高性能，但这也意味着推理成本的增加。在某些场景下，你可能更愿意接受稍低的性能，换取更低的推理成本。在这种情况下，你可能需要探索如何将RandOpt集成的知识蒸馏到单一模型中，或者寻找其他降低推理成本的方法。

7.3 对AI安全的启示

"神经灌木丛"的发现对AI安全研究也有一些有趣的启示。

首先，它说明预训练模型可能比我们先前认为的更加"多才多艺"。预训练权重周围密布着各种各样的专家，这意味着模型有潜力表现出比基准测试显示的更多样化的行为。这既是好事也是坏事：好事是模型可能有更多未被发掘的能力；坏事是这些能力中可能包含一些我们不希望看到的（比如生成有害内容的能力）。

其次，RandOpt的完全并行性和低通信需求，使得它非常适合联邦学习（Federated Learning）——一种保护隐私的分布式训练范式。在联邦学习中，数据分散在多个客户端（比如用户的手机），不能集中到一个中心服务器。传统的梯度方法在这种场景下很难应用，因为需要频繁地同步梯度。但RandOpt可以在每个客户端独立地采样和评估，只把结果（而不是原始数据或梯度）发送给服务器，从而在保护隐私的同时完成训练。

7.4 更广泛的哲学思考

从更广泛的视角来看，"神经灌木丛"的发现触及了一些关于学习和智能的深层问题。

传统的学习理论倾向于把学习看作是一个搜索问题：你在一个巨大的假设空间中寻找正确的假设。这种观点自然导向了"干草堆寻针"的比喻——你需要聪明的搜索策略来找到那个稀有的正确答案。

但"神经灌木丛"的发现提出了另一种视角：也许学习不完全是搜索，也许也是*定位*。预训练把模型定位到一个特殊的位置，从这个位置出发，正确答案不再稀有，而是触手可及。

这种观点与一些认知科学的理论有共鸣。比如，有研究者认为，人类的大脑也不是一张白纸，而是经过了漫长的进化"预训练"，使得某些类型的学习（如语言、面孔识别）变得特别容易。我们不需要从零开始学习这些能力——我们的大脑已经被"预训练"到了一个让这些能力易于获得的位置。

在这个意义上，大语言模型的"神经灌木丛"可能是智能的一个普遍特征：真正的智能不是拥有所有的答案，而是处于一个能够轻易找到答案的位置。

---

第八章：未来的方向

8.1 理论的深化

尽管"神经灌木丛"的发现已经相当令人震惊，但我们的理论理解还很不完整。

一个关键的问题是：为什么预训练会产生灌木丛？是什么样的数学机制使得解密度随模型规模增长？是某种形式的隐式正则化？是损失 landscape 的几何特性？还是优化算法的某种涌现行为？

另一个问题是：灌木丛的边界在哪里？在参数空间中，灌木丛延伸多远？如果我们走出了灌木丛，会发生什么？是否存在"灌木丛的灌木丛"——也就是更高层次的组织？

这些问题需要更深入的理论分析。也许信息几何、统计力学或随机矩阵理论能提供一些洞察。

8.2 算法的改进

RandOpt虽然简单，但仍有改进的空间。

一个方向是更智能的采样。目前，RandOpt使用的是简单的高斯采样。但也许我们可以使用更有信息量的采样分布——比如，基于某些启发式规则或元学习来学习一个好的采样分布。

另一个方向是更智能的集成。目前，RandOpt使用的是简单的多数投票。但也许我们可以使用权重的集成，或者学习一个元模型来组合不同专家的预测。

还有一个方向是降低推理成本。蒸馏是一种方法，但也许还有其他方法——比如，用RandOpt找到的专家来指导梯度方法的初始化，或者用RandOpt来发现好的稀疏子网络。

8.3 应用领域的扩展

目前，"神经灌木丛"的研究主要集中在语言模型上。但这个现象是否也存在于其他类型的模型中？

论文的附录J展示了一个初步的结果：在图像生成模型中也存在"彩色灌木丛"（Color Thickets）——随机扰动可以产生具有不同颜色风格的专家。

那么，在视觉模型、音频模型、多模态模型、甚至强化学习智能体中，是否也存在类似的灌木丛？如果存在，它们的特性是否相同？如果不同，又是什么因素导致了这些差异？

此外，"神经灌木丛"的发现可能对神经架构搜索（Neural Architecture Search，NAS）、模型压缩、持续学习等领域也有启示。这些领域都涉及在参数空间或架构空间中寻找好的解，而"神经灌木丛"的视角可能为这些搜索问题提供新的思路。

8.4 与其他领域的联系

"神经灌木丛"的发现可能与一些其他领域有深刻的联系。

比如，在进化生物学中，有一个概念叫做"适应性景观"（Fitness Landscape），描述了基因型与适应性之间的关系。进化可以看作是在这个景观上的搜索。"神经灌木丛"可以看作是深度学习中的"适应性景观"——而预训练似乎找到了一个"适应性高地"，周围密布着各种适应性峰值。

又比如，在物理学中，相变（Phase Transition）是指系统在参数变化时突然改变性质的现象。"干草堆到灌木丛"的转变是否也可以看作是一种相变？是否存在某个临界规模，超过这个规模，解密度突然剧增？

这些跨领域的联系可能会带来新的洞察，帮助我们从更一般的角度理解"神经灌木丛"现象。

---

结语：回到那个关于"猜"的故事

让我们回到故事的开头。

2001年，那些AI领域的先驱者们说：随机猜测不能被视为一种合理的学习算法。他们说得很对——在那个时候，模型还太小，预训练还不够充分，参数空间确实是一片干草堆，随机猜测是徒劳的。

但他们也遗漏了一个重要的"但是"：*当时的*随机猜测不合理，不代表*永远*不合理。

二十五年后，我们发现了一个奇迹：当模型足够大、预训练足够充分时，那些好解——那些能够完成各种任务的专家——竟然密密麻麻地挤在预训练权重的周围，就像一片等待被发现的灌木丛。

这片灌木丛的存在，彻底改变了我们对学习的理解。

学习不再只是寻找干草堆里的针。学习也可以是定位——找到一个被无数答案包围的战略要地。预训练做的，就是找到这个位置。而后训练——无论是梯度下降还是随机猜测——只是从这个位置出发，走向那个已经近在咫尺的答案。

MIT的研究者们把这个现象叫做"神经灌木丛"。

我喜欢这个名字。它让我们想象一片茂密的森林，无数的路径从中心向外延伸，每一条都通向一个专家。你不需要复杂的地图，不需要精心规划的路线。你只需要迈出几步，随机选择几个方向，就能发现意想不到的宝藏。

这就是大模型时代的奇迹：在最简单的策略里，藏着最强大的力量。

随机猜测，这个我们在小学就学到的、看似最愚笨的方法，在特定的条件下，竟然能媲美那些最精妙的算法。这不是对智慧的否定，而是对复杂性的一种超越——当你站在正确的位置，最朴素的行动也能通向伟大的目标。

也许，这正是自然和人工智能共同遵循的某种深层规律：简单与复杂，从来不是对立的。在最深的层面上，它们是一体的。

而我们，才刚刚踏入这片灌木丛的边缘。

---

参考文献

1. Gan, Y., et al. (2026). Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights. *arXiv preprint arXiv:2603.12228*.

2. Schmidhuber, J., Hochreiter, S., & Bengio, Y. (2001). Evaluating benchmark problems by random guessing. In *Advances in Neural Information Processing Systems*.

3. Finn, C., Abbeel, P., & Levine, S. (2017). Model-agnostic meta-learning for fast adaptation of deep networks. In *International Conference on Machine Learning* (pp. 1126-1135).

4. Salimans, T., et al. (2017). Evolution strategies as a scalable alternative to reinforcement learning. *arXiv preprint arXiv:1703.03864*.

5. Baldwin, J. M. (1896). A new factor in evolution. *The American Naturalist*, 30(354), 441-451.

---

*本文约9800字，基于MIT 2026年3月发表的论文《Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights》撰写。论文项目页面：https://thickets.mit.edu*

#论文 #科普 #MIT #RandOpt #神经灌木丛 #大模型 #AI #后训练 #小凯