——MIT最新论文《Neural Thickets》深度解读
---
引言:一个关于"猜"的故事
让我给你讲个故事。
假设你面前有一个巨大的房间,里面堆满了无数个保险箱。每个保险箱里都藏着一个答案——可能是如何解决一道数学题,可能是如何写一段优雅的代码,也可能是如何描述一张图片里的内容。你的任务很简单:打开正确的保险箱,取出答案。
问题来了:你没有钥匙,也没有密码。
在2001年,人工智能领域的一些顶尖思想家——Schmidhuber、Hochreiter和Bengio——曾经下过这样的定论:"随机猜测不能被视为一种合理的学习算法。"他们的理由很充分:如果你要在一个十亿维度的空间里随机找一个能像ChatGPT那样工作的参数向量,这个概率小得就像在整个银河系里随机挑一颗特定的沙子。
他们说得对,但也只说对了一半。
二十五年后的今天,麻省理工学院的一群研究者发现了一件令人震惊的事:如果你手上有一个经过充分预训练的大语言模型,那些藏有正确答案的保险箱——他们称之为"任务专家"——竟然密密麻麻地挤在起始点的周围,就像一片茂密的灌木丛。你不需要什么精妙的搜索算法,只要闭上眼睛随机伸出手,就有很大概率摸到一个能解决问题的专家。
这听起来像是魔术,但这正是2026年3月MIT论文《Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights》所揭示的核心发现。
让我们慢慢道来。
---
第一章:干草堆与灌木丛
1.1 那个古老的比喻
在机器学习的传统认知里,参数空间被想象成一片无边无际的干草堆,而好的解决方案就像藏在这片干草堆里的一根针。你的任务是找到这根针。
这是一个很形象的比喻,但也是一个令人沮丧的比喻。干草堆太大了,针太少了,盲目摸索几乎是徒劳的。这就是为什么我们需要梯度下降——这种算法就像给你一个金属探测器,告诉你"往这边走,草越来越密",让你一步步逼近目标。
梯度下降很聪明。它计算损失函数的梯度,也就是告诉你在当前位置,哪个方向能让错误减少得最快。然后你迈出一步,再计算,再迈出一步。就这样,一步一步,最终找到那根针。
这个方法在过去几十年里统治了深度学习。从识别手写数字到生成逼真的图像,从翻译语言到打败围棋世界冠军,梯度下降和它的一众变种(Adam、RMSprop、SGD等等)功不可没。
但这个方法也有它的烦恼。
1.2 梯度下降的烦恼
首先,梯度下降是*序列式*的。你走一步,停下来,看看周围环境,再决定下一步往哪走。这意味着即使你有一百台计算机,它们也不能同时帮你找针——它们得排队,一台接一台地帮你计算梯度。
其次,梯度下降可能会被困住。想象你在浓雾中爬山,你只能通过脚底的坡度来判断方向。如果你走到了一个山谷的底部,四面都是上坡,你就会误以为这里是最低点,即使远处还有更深的山谷。在数学上,这叫做"陷入局部最优"。
第三,梯度下降需要很小心地选择步长。步子太小,你要走很久很久;步子太大,你可能会直接跨过目标,在目标附近来回震荡,永远落不下去。
这些烦恼在训练小模型时也许不算什么,但当模型变得越来越大——十亿参数、百亿参数、千亿参数——每一个训练步骤都需要巨大的计算资源。如果能把这一百台计算机同时用上,而不是让它们排队等待,那该多好?
1.3 一片神秘的灌木丛
现在,让我们回到MIT研究者们的发现。
他们问了一个简单的问题:如果我们完全放弃梯度下降,就只是*随机猜测*,会发生什么呢?
具体来说,他们从预训练好的模型权重出发,给它加上一些随机的高斯噪声——就像给模型戴上了一副随机扭曲的眼镜——然后看看这个"近视"的模型在任务上表现如何。
在小模型上,结果不出所料:大部分随机扰动都让模型变得更差,只有极少数能让模型稍有改善。这就像是那片干草堆——随机摸一把,大概率抓到的只是干草。
但当模型变大时,奇妙的事情发生了。
研究者们在Qwen2.5系列模型上做了实验,从0.5B(5亿参数)到32B(320亿参数)。他们发现,随着模型规模增大,能够让模型在下游任务上表现更好的随机扰动越来越多。在GSM8K(一个数学推理基准测试)上,当模型从0.5B增大到32B时,能匹配或超过基线性能的随机扰动比例从0%飙升到了64%。在Countdown任务上,这个比例从8%跳到了60%。
这意味着什么?
这意味着,在大型预训练模型周围,好的解决方案不再像干草堆里的针那样稀少。它们密集地分布在预训练权重的周围,就像一片茂密的灌木丛——论文作者们称之为"Neural Thickets",神经灌木丛。
想象一下这个画面:你站在一片森林的边缘,周围全是灌木。每一丛灌木都擅长做某件特定的事情:这一丛特别擅长解数学题,那一丛特别擅长写代码,远处的那一丛对化学问题了如指掌。你不需要长途跋涉去寻找它们——它们就在你身边,密密麻麻,触手可及。
这就是"神经灌木丛"的图景。
---
第二章:解的密度与多样性
2.1 密度:好解有多密集?
为了量化"神经灌木丛"的茂密程度,MIT的研究者们定义了一个关键指标:解密度(Solution Density)。
简单来说,就是在预训练权重周围的一个高斯邻域内,有多少比例的随机采样点能够改善模型在特定任务上的表现。如果这个比例很高,说明好解很密集;如果比例很低,说明好解很稀疏。
他们的实验结果清晰地展示了一个规模定律(Scaling Law):解密度随着模型规模、预训练数据量和预训练质量的增长而增长。
在小模型或者未经预训练的模型中,解密度极低——可能只有千分之一甚至万分之一。这就像是干草堆里的针,你需要非常聪明的搜索算法才能找到它们。
但在大型、充分预训练的模型中,解密度可以达到百分之几十甚至更高。这意味着你随机扔一块石头,就有很大概率砸中一个好解。
这个发现本身已经很令人震惊了,但更神奇的事情还在后面。
2.2 多样性:专家还是通才?
研究者们发现,这些随机采样到的好解并不是"通才"——它们不会在所有任务上都表现更好。相反,它们是"专家"——每个解只在某个特定任务上表现出色,在其他任务上可能反而比原模型更差。
为了量化这个现象,他们发明了一个叫做"谱不协调度"(Spectral Discordance)的指标。
这个概念稍微有些数学,但我们可以用一个简单的比喻来理解。想象你有七个不同的任务(数学推理、代码生成、创意写作、化学问题等等),你随机采样了一百个扰动。对于每个扰动,你记录它在七个任务上的相对表现排名。
如果所有任务上的表现排名都是平行的——也就是说,在这个任务上表现好的扰动,在其他任务上也表现好——那么谱不协调度接近0。这说明这些扰动是"通才"。
但如果排名是杂乱无章的——在这个任务上表现最好的扰动,在另一个任务上可能表现最差——那么谱不协调度接近1。这说明这些扰动是"专家"。
实验结果清晰地支持了"专家假说":随着模型规模增大,谱不协调度也增大。这意味着大型预训练模型周围的解空间充满了各种各样的专家,每个专家都有自己的专长领域。
图4展示了这一现象的可视化。每一条彩色的线代表一个随机扰动在七个任务上的百分位排名。你可以看到,这些线不是平的,而是"尖刺状"的——每个扰动在某些任务上有高峰,在其他任务上有低谷。这正是专家的特征。
更有意思的是,如果你把这些七维的性能向量投影到二维平面上(使用主成分分析),你会看到明显的聚类现象。不同的专家形成了不同的"部落"——这个部落的成员都擅长数学但不太会写代码,那个部落的成员都是化学高手但在创意写作上表现平平。
2.3 规模定律的深层含义
解的密度和多样性都遵循规模定律,这个事实本身就揭示了一些关于深度学习的深层真理。
首先,这说明预训练不仅仅是"学习一些知识"那么简单。在预训练过程中,模型似乎在参数空间中找到了一个特殊的位置——一个被各种任务专家包围的"战略要地"。从这个位置出发,通往各种能力的道路都变得很短、很平坦。
这让人想起一个叫做"MAML"(Model-Agnostic Meta-Learning,模型无关的元学习)的算法。MAML的核心思想是:不是直接学习一个解决特定任务的模型,而是学习一个"好的初始化"——从这个初始化出发,只需要很少的梯度步就能适应任何新任务。
MIT研究者们的发现表明,大规模预训练*自动地*实现了类似MAML的效果。预训练找到的不仅仅是一个点,而是一个通往无数个专家的大门。
其次,规模定律的存在解释了为什么"神经灌木丛"现象直到最近才被发现。在几年前,主流模型还太小,解密度太低,随机猜测确实是一种徒劳的策略。但随着模型规模进入十亿参数级别,我们跨过了一个临界点——干草堆变成了灌木丛。
---
第三章:RandOpt——随机猜测的艺术
3.1 一个听起来很蠢的算法
基于"神经灌木丛"的发现,MIT的研究者们提出了一个听起来几乎像玩笑的算法:RandOpt,随机优化。
这个算法的流程简单得让人难以置信:
1. 采样(Sample):从预训练权重出发,随机生成N个高斯扰动。每个扰动就是给原模型的每个参数加上一点随机噪声。
2. 评估(Evaluate):把这N个扰动后的模型在训练数据上都跑一遍,看看它们的表现如何。
3. 选择(Select):选出表现最好的K个扰动。
4. 集成(Ensemble):在测试时,用这K个模型分别做预测,然后通过多数投票决定最终答案。
就这四步。没有梯度计算,没有反向传播,没有迭代优化。完全并行,完全简单。
如果梯度下降是一个小心翼翼的登山者,一步一步地向山顶攀登,那么RandOpt就像是一群从天而降的伞兵,随机降落在山坡上,然后报告说"我这里的风景不错"。如果你派出了足够多的伞兵,总有人能降落在山顶附近。
3.2 速度的艺术
RandOpt最引人注目的特点之一是它的速度——不是指单个扰动的计算速度,而是指*墙钟时间*(wall-clock time)。
传统的训练方法,无论是梯度下降、PPO(Proximal Policy Optimization,近端策略优化)、GRPO(Group Relative Policy Optimization,组相对策略优化)还是ES(Evolution Strategies,进化策略),都需要*序列式*的更新。你要先走一步,看看结果,再决定下一步。即使你有无限的计算资源,这个序列性也意味着你需要等待T个步骤才能完成训练。
但RandOpt是*完全并行*的。N个扰动可以同时生成、同时评估。在墙钟时间上,RandOpt的训练复杂度是O(1)——常数时间,与训练步数无关。而其他方法的复杂度是O(T)——随着训练步数线性增长。
研究者们在一个拥有200个GH200 GPU的集群上测试了RandOpt。他们使用Olmo-3-7B-Instruct模型(一个70亿参数的语言模型),在Countdown任务上进行训练。使用N=2000个随机扰动,选取K=50个最好的进行集成——整个过程只用了3.2分钟,就达到了70%的准确率。
3.2分钟!
相比之下,传统的强化学习方法可能需要数小时甚至数天才能达到类似的性能。
当然,这种速度是有代价的:RandOpt需要大量的并行计算资源。如果你有200个GPU,你可以同时评估200个扰动,很快就能完成。但如果你只有一个GPU,你得一个一个地评估,那就慢多了。
但在这个计算资源越来越便宜、越来越容易获取的时代,并行性比序列性更有价值。你可以租用一个大型GPU集群一个小时,完成训练,然后关掉它。这比用一个GPU连续跑几天更便宜、更快。
3.3 与主流方法的较量
RandOpt听起来很好,但它真的能和那些精心设计的算法竞争吗?
MIT研究者们在广泛的基准测试上验证了RandOpt的性能,包括:
- 数学推理:Countdown、GSM8K、MATH-500、OlympiadBench
- 代码生成:MBPP(Mostly Basic Python Problems)
- 创意写作:ROCStories
- 化学问题:USPTO
结果令人惊讶:在大多数设置下,RandOpt(K=50)的性能与PPO、GRPO、ES等主流方法相当,有时甚至更好。
图6展示了这些对比。每个点代表一个实验,横轴和纵轴分别代表不同方法的性能。如果RandOpt和某个基线性能相当,点应该落在对角线上。结果发现,大部分点都落在对角线附近,有些甚至明显偏向RandOpt一侧。
这并不意味着RandOpt在所有情况下都更好。在某些任务上,特别是那些需要精细调整的任务上,梯度方法可能仍然占优。但RandOpt的成功本身就说明了一个重要的事实:一旦你有了一个强大的预训练表示,后训练(post-training)可以变得*出奇地简单*。
3.4 集成的力量
RandOpt的一个关键设计是集成(Ensembling)。研究者们发现,仅仅选取最好的一个扰动(K=1)通常是不够的。真正的威力来自于选取前K个最好的扰动,然后让它们在测试时投票。
为什么集成这么重要?
回想一下我们之前讨论过的"专家"性质。每个随机扰动都是一个专家,但它只擅长特定类型的任务或特定类型的输入。当你面对一个新的测试样本时,你不知道哪个专家最适合它。但通过集成多个专家,你可以利用"群体的智慧"——每个专家都发表自己的意见,然后通过多数投票决定最终结果。
实验数据证实了这一点。图11对比了K=1和K=50的性能差异。在大多数任务上,K=50明显优于K=1。这说明单个专家虽然有用,但多个专家的组合更强大。
当然,集成也有代价:在推理时,你需要运行K个模型而不是1个,计算成本增加了K倍。对于K=50,这意味着推理速度会慢50倍。这是一个实际的权衡:你用训练时间的极大缩短,换取了推理时间的增加。
但对于很多应用场景来说,这种权衡是值得的。训练通常是一次性的,而推理是持续进行的——但如果你需要快速迭代、快速实验,RandOpt提供了一种前所未有的速度优势。
此外,研究者们还展示了可以通过蒸馏(distillation)来降低推理成本。基本思路是:先用RandOpt训练出一组专家,然后用这些专家的输出来监督训练一个单一模型,让这个单一模型学会模仿专家们的集体智慧。初步实验表明,这种蒸馏可以在保持大部分性能的同时,将推理成本降回普通水平。
---
第四章:为什么灌木丛会出现?
4.1 一个极简实验
为了理解"神经灌木丛"为什么会出现,MIT的研究者们设计了一个极简的实验场景。
他们考虑一个一维信号预测的问题。想象一下,你要预测一个函数在下一个时间点的值。这个函数可以是正弦波、线性函数、方波、锯齿波等等,每种类型都有不同的参数(比如正弦波的振幅和相位)。
他们训练了一个简单的多层感知机(MLP),让它观察一段历史信号,然后预测下一个值。这个模型通过自回归的方式生成预测:它先预测下一个值,然后把这个预测值加入历史,再预测再下一个值,依此类推。
关键的问题来了:预训练对这个模型有什么影响?
研究者们设计了三种预训练方案:
1. 无预训练:模型使用标准的Xavier或Kaiming初始化,没有任何预训练。 2. 混合预训练:模型在所有类型的信号(正弦、线性、方波等)上进行预训练。 3. 特定预训练:模型只在特定类型的信号上进行预训练(比如只在线性信号上预训练)。
然后,他们测试了RandOpt在这些不同预训练方案下的表现。
4.2 三种截然不同的景象
干草堆阶段(The Needle-in-a-Haystack Regime)
对于未经预训练的模型,随机扰动几乎没有任何效果。无论你怎么扰动,模型的输出都是一团糟,几乎无法捕捉任何有意义的函数形状。
这就像是在干草堆里随机找针——你把模型周围的参数空间翻个底朝天,也找不到一个好解。在这个状态下,你需要结构化的搜索方法,比如梯度下降,才能找到远离初始化的好解。
灌木丛阶段(The Thicket Regime)
对于在混合信号上预训练的模型,景象完全不同。随机扰动现在产生了丰富多样的函数形状:有些扰动让模型更像正弦波,有些更像线性函数,有些更像方波。
当你给定一个测试信号时(比如一个线性函数),你会发现那些"线性专家"(即产生线性预测的扰动)能够很好地匹配这个信号。如果你选取最好的几个扰动进行集成,你就能得到相当准确的预测。
这就是"神经灌木丛"的核心特征:预训练让模型处于一个"战略位置",从这个位置出发,通往各种专家能力的道路都很短、很容易找到。
平台阶段(The Plateau Regime)
最有趣的是第三种情况:如果你的测试信号的类型恰好是你预训练时见过的类型(比如,你只在线性信号上预训练,现在也在测试线性信号),那么预训练权重本身就已经是(或非常接近)最优解了。在这种情况下,随机扰动不仅不会帮助,反而会让性能下降。
这形成了一个"平台"——预训练已经把你带到了目的地,任何偏离都是走回头路。
4.3 预训练到底在做什么?
这个极简实验揭示了预训练的深层机制。
传统的观点认为,预训练是在"学习知识"——模型通过在海量文本上训练,学会了语法、事实、推理模式等等。这个观点没错,但不完整。
MIT研究者们的实验表明,预训练还在做另一件重要的事情:它在参数空间中*定位*。预训练把模型推到了一个特殊的位置,从这个位置出发,通往各种下游任务能力的路径都变得平坦、短促、容易到达。
换句话说,预训练不仅在填充模型的"知识库",还在优化模型的"初始位置",使其成为一个优秀的"元学习者"(meta-learner)——能够快速适应任何新任务的学习者。
这与进化生物学中的一个概念相呼应:Baldwin效应。这个效应表明,进化不仅会选择那些天生就适应环境的个体,还会选择那些*容易学习*适应环境的个体。在神经网络的世界里,预训练似乎在做类似的事情:它选择的不是一个能解决所有问题的模型,而是一个*容易学习*解决各种问题的模型。
---
第五章:灌木丛里长什么样?
5.1 专家们的肖像
如果我们仔细观察"神经灌木丛"里的那些专家,它们各自长什么样?
研究者们通过可视化技术,为我们描绘了这些专家的"肖像"。
图4的左侧展示了100个随机扰动在七个任务上的性能谱。每条线代表一个扰动,纵轴是它相对于其他扰动的百分位排名。你可以清楚地看到,这些线不是平坦的——每个扰动在某些任务上有高峰,在其他任务上有低谷。
比如,有一条橙色的线(扰动#57)在Countdown任务上排名很高(接近90%),但在USPTO(化学任务)上排名很低(接近10%)。另一条绿色的线(扰动#23)正好相反:它在化学任务上表现出色,但在数学任务上表现平平。
这就是专家的本质:他们各有所长,各有所短。
5.2 部落的形成
更有趣的是,这些专家不是孤立存在的——它们形成了"部落"。
图4的右侧展示了一个PCA(主成分分析)投影。每个点代表一个扰动,点的位置由它在七个任务上的性能向量决定。相似的专家在投影中靠近彼此,形成聚类。
你可以清楚地看到几个明显的聚类:
- 数学部落:这些专家擅长Countdown、GSM8K、MATH-500等数学任务,但不太擅长创意写作或化学。
- 化学部落:这些专家在USPTO上表现出色,但数学能力一般。
- 写作部落:这些专家在ROCStories上表现突出,但数学和化学都不行。
5.3 RGB景观图
图8展示了一种更加直观的可视化方式:RGB景观图。
研究者们在参数空间的一个二维切片上(通过PCA降维得到),计算了每个位置在三个不同任务上的性能。然后,他们把这三个任务的性能分别映射到红色、绿色、蓝色通道。
如果三个任务的性能高度相关(也就是"通才"假说),那么这张图应该是灰度的——因为红、绿、蓝三个通道的值差不多,混合在一起就是灰色。
但实际上,这张图是彩色的——有红色区域、绿色区域、蓝色区域,还有它们混合形成的各种颜色。这说明三个任务的性能 landscape 是相对独立的:在某个区域红色强,在另一个区域蓝色强,在又一个区域绿色强。
这正是"专家"假说的视觉证明。
5.4 不同类型的灌木丛
在论文的第八章,研究者们进一步探讨了"灌木丛"的类型。
他们问了一个问题:RandOpt带来的性能提升,究竟是因为模型真的学会了更好的推理,还是仅仅因为输出了更好的格式?
这个问题很重要,因为语言模型的评估往往对格式很敏感。比如,如果标准要求答案放在"####"标签后面,但模型直接把答案写在句子中间,即使答案正确也可能被判错。
研究者们以GSM8K为例,将性能提升分解为几个部分:
- 推理灌木丛(Reasoning Thicket):基线模型做错了,但扰动后的模型做对了——这说明扰动真的改善了推理能力。
- 格式灌木丛(Format Thicket):基线模型推理对了但格式错了,扰动后的模型格式对了——这说明扰动主要改善了输出格式。
- 保持正确(Retained Correctness):基线模型和扰动模型都做对了。
- 回归(Regression):基线模型做对了,但扰动模型做错了。
这说明"神经灌木丛"是多层次的:有擅长推理的专家,也有擅长格式的专家,还有各种其他类型的专家。这个发现暗示,在不同的应用场景中,我们可能需要不同类型的"灌木丛"——有些任务需要强大的推理能力,有些任务需要特定的输出格式,有些任务需要特定的风格或个性。
---
第六章:RandOpt的局限与边界
6.1 你需要预训练
RandOpt不是万能药。论文的作者们非常坦诚地指出了这一点。
最关键的限制是:RandOpt*只适用于已经充分预训练的模型*。如果你试图用RandOpt从零开始训练一个神经网络——比如,从一个随机初始化的Xavier初始化开始——你几乎不会得到任何有用的结果。
这是因为在未经预训练的模型周围,解密度太低了。随机猜测找到好解的概率微乎其微,你需要结构化的搜索方法(如梯度下降)才能找到远离初始化的有效解。
换句话说,预训练是必需的。RandOpt不是一个替代预训练的方法,而是一个*后训练*(post-training)的方法。它的价值在于,一旦你有了一个好的预训练模型,后续的任务适应可以变得极其简单。
6.2 你能学到多少新东西?
另一个开放的问题是:随机猜测和集成到底能把模型带到多远?
研究者们观察到,RandOpt的性能随着模型规模、采样数量(N)和集成大小(K)的增加而增长,但这种增长似乎会饱和。即使在双对数坐标下(log-log plot),你也能看到增长曲线变平的迹象。
这可能意味着,在预训练权重的局部邻域内,确实存在着密集的灌木丛,但如果你想获得*远超*基线模型能力的性能,你可能需要走得更远——走出这片灌木丛,进入更广阔的参数空间。
而一旦你走出了灌木丛,你就回到了"干草堆"的世界。在那里,随机猜测不再有效,你需要梯度下降或其他结构化搜索方法来寻找那些遥远的好解。
6.3 推理时间的代价
正如前面提到的,RandOpt的一个主要代价是推理时间的增加。如果你使用K=50的集成,你需要运行50次前向传播才能得到一个答案。
对于某些应用来说,这个代价是可以接受的。比如,如果你在做离线批量处理,或者如果你的应用对延迟不敏感,50倍的计算增长可能不是什么大问题。
但对于实时应用——比如在线对话系统、实时推荐系统——这个代价可能是致命的。没人愿意等50倍的时间来得到一个回复。
蒸馏是一种缓解这个问题的方法,但它也有代价:蒸馏不再是完全并行的,它需要额外的训练计算,而且可能无法完全保持集成的性能。
6.4 不是替代,而是补充
论文的作者们强调,RandOpt的目的不是要取代梯度下降或其他训练方法,而是要*补充*它们,并帮助我们更好地理解预训练的威力。
RandOpt的成功是一个"探针"——它告诉我们,一旦你进入了"灌木丛阶段",后训练可以变得多么简单。在这个阶段,不管你用梯度下降、进化策略,还是简单粗暴的随机猜测,你都能获得不错的结果。
但找到这片灌木丛本身,可能仍然需要那些"老派"的方法。预训练——在大规模数据上的梯度下降——仍然是找到这个神奇位置的关键。
---
第七章:影响与启示
7.1 对AI研究的影响
"神经灌木丛"的发现对AI研究有多方面的影响。
首先,它挑战了我们对后训练(post-training)的传统理解。过去,我们认为后训练需要精心设计的算法——RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)、DPO(Direct Preference Optimization,直接偏好优化)、PPO等等。这些方法都有其复杂性,需要仔细的调参和大量的工程工作。
但RandOpt表明,在某些情况下,这些复杂性可能是不必要的。如果你有一个足够好的预训练模型,简单的随机搜索就能达到类似的性能。这可能会促使研究者们重新思考:我们在后训练中到底在做什么?那些复杂的算法是在寻找灌木丛里的特定专家,还是只是在灌木丛里随意走动?
其次,这一发现强调了预训练的重要性。如果预训练能自动找到一个被无数专家包围的战略位置,那么预训练的质量可能比后训练的技巧更加关键。这可能会引导更多的研究资源投入到预训练阶段——更好的数据、更好的架构、更好的预训练目标。
第三,RandOpt的完全并行性为分布式训练开辟了新的可能性。在传统的分布式训练中,不同的计算节点需要频繁地通信(比如同步梯度)。但RandOpt的节点之间不需要通信——每个节点独立地采样、评估、报告结果。只有最后的选择和集成阶段需要收集所有节点的结果。这种低通信开销的特性使得RandOpt非常适合在通信带宽受限的环境中使用,比如跨数据中心的训练、联邦学习等场景。
7.2 对AI应用的影响
对于实际应用AI的工程师和开发者来说,"神经灌木丛"的发现也带来了新的机遇和挑战。
机遇在于:后训练可以变得非常快。如果你有一个强大的预训练模型,你只需要几分钟的并行计算就能获得一个针对特定任务的定制模型。这对于需要快速迭代、快速部署的场景非常有价值。
挑战在于:你需要有足够的并行计算资源。RandOpt的速度优势只有在有足够多的GPU(或其他加速器)时才能体现。如果你的计算资源有限,传统的梯度方法可能仍然是更好的选择。
另一个值得思考的点是:集成 vs 单一模型。RandOpt通过集成多个专家来获得高性能,但这也意味着推理成本的增加。在某些场景下,你可能更愿意接受稍低的性能,换取更低的推理成本。在这种情况下,你可能需要探索如何将RandOpt集成的知识蒸馏到单一模型中,或者寻找其他降低推理成本的方法。
7.3 对AI安全的启示
"神经灌木丛"的发现对AI安全研究也有一些有趣的启示。
首先,它说明预训练模型可能比我们先前认为的更加"多才多艺"。预训练权重周围密布着各种各样的专家,这意味着模型有潜力表现出比基准测试显示的更多样化的行为。这既是好事也是坏事:好事是模型可能有更多未被发掘的能力;坏事是这些能力中可能包含一些我们不希望看到的(比如生成有害内容的能力)。
其次,RandOpt的完全并行性和低通信需求,使得它非常适合联邦学习(Federated Learning)——一种保护隐私的分布式训练范式。在联邦学习中,数据分散在多个客户端(比如用户的手机),不能集中到一个中心服务器。传统的梯度方法在这种场景下很难应用,因为需要频繁地同步梯度。但RandOpt可以在每个客户端独立地采样和评估,只把结果(而不是原始数据或梯度)发送给服务器,从而在保护隐私的同时完成训练。
7.4 更广泛的哲学思考
从更广泛的视角来看,"神经灌木丛"的发现触及了一些关于学习和智能的深层问题。
传统的学习理论倾向于把学习看作是一个搜索问题:你在一个巨大的假设空间中寻找正确的假设。这种观点自然导向了"干草堆寻针"的比喻——你需要聪明的搜索策略来找到那个稀有的正确答案。
但"神经灌木丛"的发现提出了另一种视角:也许学习不完全是搜索,也许也是*定位*。预训练把模型定位到一个特殊的位置,从这个位置出发,正确答案不再稀有,而是触手可及。
这种观点与一些认知科学的理论有共鸣。比如,有研究者认为,人类的大脑也不是一张白纸,而是经过了漫长的进化"预训练",使得某些类型的学习(如语言、面孔识别)变得特别容易。我们不需要从零开始学习这些能力——我们的大脑已经被"预训练"到了一个让这些能力易于获得的位置。
在这个意义上,大语言模型的"神经灌木丛"可能是智能的一个普遍特征:真正的智能不是拥有所有的答案,而是处于一个能够轻易找到答案的位置。
---
第八章:未来的方向
8.1 理论的深化
尽管"神经灌木丛"的发现已经相当令人震惊,但我们的理论理解还很不完整。
一个关键的问题是:为什么预训练会产生灌木丛?是什么样的数学机制使得解密度随模型规模增长?是某种形式的隐式正则化?是损失 landscape 的几何特性?还是优化算法的某种涌现行为?
另一个问题是:灌木丛的边界在哪里?在参数空间中,灌木丛延伸多远?如果我们走出了灌木丛,会发生什么?是否存在"灌木丛的灌木丛"——也就是更高层次的组织?
这些问题需要更深入的理论分析。也许信息几何、统计力学或随机矩阵理论能提供一些洞察。
8.2 算法的改进
RandOpt虽然简单,但仍有改进的空间。
一个方向是更智能的采样。目前,RandOpt使用的是简单的高斯采样。但也许我们可以使用更有信息量的采样分布——比如,基于某些启发式规则或元学习来学习一个好的采样分布。
另一个方向是更智能的集成。目前,RandOpt使用的是简单的多数投票。但也许我们可以使用权重的集成,或者学习一个元模型来组合不同专家的预测。
还有一个方向是降低推理成本。蒸馏是一种方法,但也许还有其他方法——比如,用RandOpt找到的专家来指导梯度方法的初始化,或者用RandOpt来发现好的稀疏子网络。
8.3 应用领域的扩展
目前,"神经灌木丛"的研究主要集中在语言模型上。但这个现象是否也存在于其他类型的模型中?
论文的附录J展示了一个初步的结果:在图像生成模型中也存在"彩色灌木丛"(Color Thickets)——随机扰动可以产生具有不同颜色风格的专家。
那么,在视觉模型、音频模型、多模态模型、甚至强化学习智能体中,是否也存在类似的灌木丛?如果存在,它们的特性是否相同?如果不同,又是什么因素导致了这些差异?
此外,"神经灌木丛"的发现可能对神经架构搜索(Neural Architecture Search,NAS)、模型压缩、持续学习等领域也有启示。这些领域都涉及在参数空间或架构空间中寻找好的解,而"神经灌木丛"的视角可能为这些搜索问题提供新的思路。
8.4 与其他领域的联系
"神经灌木丛"的发现可能与一些其他领域有深刻的联系。
比如,在进化生物学中,有一个概念叫做"适应性景观"(Fitness Landscape),描述了基因型与适应性之间的关系。进化可以看作是在这个景观上的搜索。"神经灌木丛"可以看作是深度学习中的"适应性景观"——而预训练似乎找到了一个"适应性高地",周围密布着各种适应性峰值。
又比如,在物理学中,相变(Phase Transition)是指系统在参数变化时突然改变性质的现象。"干草堆到灌木丛"的转变是否也可以看作是一种相变?是否存在某个临界规模,超过这个规模,解密度突然剧增?
这些跨领域的联系可能会带来新的洞察,帮助我们从更一般的角度理解"神经灌木丛"现象。
---
结语:回到那个关于"猜"的故事
让我们回到故事的开头。
2001年,那些AI领域的先驱者们说:随机猜测不能被视为一种合理的学习算法。他们说得很对——在那个时候,模型还太小,预训练还不够充分,参数空间确实是一片干草堆,随机猜测是徒劳的。
但他们也遗漏了一个重要的"但是":*当时的*随机猜测不合理,不代表*永远*不合理。
二十五年后,我们发现了一个奇迹:当模型足够大、预训练足够充分时,那些好解——那些能够完成各种任务的专家——竟然密密麻麻地挤在预训练权重的周围,就像一片等待被发现的灌木丛。
这片灌木丛的存在,彻底改变了我们对学习的理解。
学习不再只是寻找干草堆里的针。学习也可以是定位——找到一个被无数答案包围的战略要地。预训练做的,就是找到这个位置。而后训练——无论是梯度下降还是随机猜测——只是从这个位置出发,走向那个已经近在咫尺的答案。
MIT的研究者们把这个现象叫做"神经灌木丛"。
我喜欢这个名字。它让我们想象一片茂密的森林,无数的路径从中心向外延伸,每一条都通向一个专家。你不需要复杂的地图,不需要精心规划的路线。你只需要迈出几步,随机选择几个方向,就能发现意想不到的宝藏。
这就是大模型时代的奇迹:在最简单的策略里,藏着最强大的力量。
随机猜测,这个我们在小学就学到的、看似最愚笨的方法,在特定的条件下,竟然能媲美那些最精妙的算法。这不是对智慧的否定,而是对复杂性的一种超越——当你站在正确的位置,最朴素的行动也能通向伟大的目标。
也许,这正是自然和人工智能共同遵循的某种深层规律:简单与复杂,从来不是对立的。在最深的层面上,它们是一体的。
而我们,才刚刚踏入这片灌木丛的边缘。
---
参考文献
1. Gan, Y., et al. (2026). Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights. *arXiv preprint arXiv:2603.12228*.
2. Schmidhuber, J., Hochreiter, S., & Bengio, Y. (2001). Evaluating benchmark problems by random guessing. In *Advances in Neural Information Processing Systems*.
3. Finn, C., Abbeel, P., & Levine, S. (2017). Model-agnostic meta-learning for fast adaptation of deep networks. In *International Conference on Machine Learning* (pp. 1126-1135).
4. Salimans, T., et al. (2017). Evolution strategies as a scalable alternative to reinforcement learning. *arXiv preprint arXiv:1703.03864*.
5. Baldwin, J. M. (1896). A new factor in evolution. *The American Naturalist*, 30(354), 441-451.
---
*本文约9800字,基于MIT 2026年3月发表的论文《Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights》撰写。论文项目页面:https://thickets.mit.edu*
#论文 #科普 #MIT #RandOpt #神经灌木丛 #大模型 #AI #后训练 #小凯