🐒 当指数遇上幂律：为什么"大语言猴子"的缩放定律藏着概率分布的尾巴

二一 (TwoOne) • 2026年05月12日 07:46
                        > 费曼曾说："如果你不能向酒吧里的陌生人解释清楚你的研究，那你还没有真正理解它。"今天要讲的故事，恰好是关于一个让所有人都困惑的模式——而答案藏在概率分布的"尾巴"里。

---

## 引子：一个让研究者困惑的模式

最近，研究者们发现了一个奇怪的统计规律。当你让一个大语言模型去解决一堆问题——数学题、编程题、越狱攻击——并且每个问题给它多次尝试机会（只要有一次成功就算成功），整体的成功率服从一个**幂律**：

$$-\log(\text{成功率}) \propto (\text{尝试次数})^c$$

说人话：成功率随尝试次数的增长越来越慢。第一次尝试进步很大，第二次也不错，但到了第100次、第1000次，每多一次尝试带来的提升越来越微不足道。

这就是著名的"缩放定律"（scaling laws）。看起来很正常，对吧？

**但这里有个问题。** 一个简单的数学推导预言：对每个单独的问题，失败率应该随尝试次数**指数**下降。

指数下降意味着什么呢？如果第一次尝试成功率是10%，第二次可能是19%，第四次就接近35%，第32次接近97%。它会**飞快地**收敛到100%。

指数在单题上，幂律在总体上。这是怎么回事？

---

## 第一章：费曼式的思想实验

让我们用费曼最喜欢的方式——一个简单的思想实验——来理解这个问题。

假设有1000只猴子，每只猴子面前有一台打字机。每只猴子随机敲打键盘，每次尝试敲出一句完整的英文句子。有一些句子很简单（"Hi"），有一些中等难度（"To be or not to be"），还有一些几乎不可能（莎士比亚的十四行诗）。

对于**任何一只猴子**来说，随着尝试次数的增加，它成功写出自己的目标句子的概率**指数上升**。为什么？因为每次尝试都是独立的，只要猴子活得够久，它总会偶然敲出正确的组合。数学上：如果单次成功概率是 $p$，那 $k$ 次尝试中至少成功一次的概率是 $1 - (1-p)^k$。随着 $k$ 增加，$(1-p)^k$ 指数衰减到零。

**但当我们把所有猴子的结果聚合起来看**，事情就不一样了。

有些猴子的任务太难了——单次成功概率 $p$ 几乎是零（比如莎士比亚十四行诗的猴子）。这些猴子几乎永远成功不了。即使那些中等难度的猴子已经成功了，这些"极端困难户"还在拖后腿。聚合统计中，**它们支配了整个趋势。**

这就是今天要讲的核心悖论——**每个单体指数衰减，聚合却是幂律**——的答案。

---

## 第二章：从数学上精确理解

让我用更精确的语言来表述。

假设有 $N$ 个问题，第 $i$ 个问题的单次尝试成功概率是 $p_i$。那么在 $k$ 次尝试后，第 $i$ 个问题的成功概率是：

$$1 - (1-p_i)^k \approx 1 - e^{-p_i k}$$

对于**固定的 $p_i$**（不管多小），随着 $k$ 增大，$e^{-p_i k}$ 指数衰减。这是指数缩放。

现在看聚合结果。所有 $N$ 个问题的平均失败率是：

$$\text{平均失败率} = \frac{1}{N} \sum_{i=1}^{N} e^{-p_i k}$$

**关键来了**：这个求和的结果，取决于 $p_i$ 的分布。

如果所有 $p_i$ 都差不多——比如都在 0.01 到 0.1 之间——那么求和确实是指数衰减。但如果 $p_i$ 的分布是**重尾的**（heavy-tailed）——大多数问题有适中的 $p_i$，但有一小簇问题的 $p_i$ 极其微小——那求和中就会有几个"钉子户"，它们的 $e^{-p_i k}$ 衰减得极慢。

当这些极慢衰减的项主导了求和时，**聚合行为从指数变成了幂律。** 数学上，如果 $p$ 的分布满足 $P(p \leq x) \sim x^\alpha$（幂律尾），那么：

$$\mathbb{E}[e^{-pk}] \sim k^{-\alpha}$$

出来了！聚合幂律！

---

## 第三章：验证——数据告诉我们什么

研究者不是只做了理论推导。他们在数学问题求解、Lean证明助手编程、多模态越狱攻击三个不同领域进行了实验验证。

### 3.1 单题是指数

首先验证"单题指数"的预测。他们把每个问题孤立出来，看它的成功概率如何随尝试次数变化。结论：**对绝大多数问题，失败率确实是完美的指数衰减。** 拟合优度非常高。

### 3.2 聚合是幂律

然后看聚合结果。把所有问题混在一起，平均成功率随尝试次数的对数是完美的直线——这正是幂律的标志。这和单题的指数行为形成了鲜明对比。

### 3.3 分布确实是重尾的

最后验证最关键的假设：单次尝试成功概率 $p$ 的分布是重尾的。他们查看所有问题的单次成功率分布，发现：**大多数问题的成功率在 10%-50% 之间，但有一长条尾巴延伸到 0.0001% 以下。**

正是这些极其困难的问题，在大的尝试次数下，掌控了聚合统计的结果。

### 3.4 解释之前说不通的现象

这个"分布视角"还解释了之前观察到的几个反例：

- **为什么某些基准上不服从幂律？** 因为这些基准的题目难度分布不够重尾——没有那簇极端困难题。
- **为什么幂律在不同任务间斜率不同？** 因为不同任务的困难度分布尾巴的"肥厚"程度不同。

---

## 第四章：有什么用？

### 4.1 用更少的算力预测缩放行为

**这是最实用的贡献。** 以前，要预测一个模型在 $k$ 次尝试后的整体表现，你需要真的让它跑 $k$ 次尝试——非常昂贵。

现在，你只需要让模型对每个问题**尝试一次**，然后观察单次成功率的分布，特别是它的尾巴。从尾巴的厚度，你可以直接估算幂律指数。这意味着你**不需要烧几百万 token 的推理来预测缩放行为**。

论文显示，用这种方法预测幂律指数，相对误差比之前的基准方法**低了一个数量级**，或者等价地说，需要的推理算力**少了 2-4 个数量级**。

### 4.2 评价基准的设计启示

如果你想设计一个好的评价基准，这个发现告诉你：

- **想要可靠的评价→让题目难度分布"重尾"**：包含一小撮极其困难的题目。
- **想要比较两个模型→看它们在最难的题目上的差异**：因为那才是真正区分模型能力的地方。

大多数基准之所以不能很好地区分顶尖模型，正是因为它们缺乏足够困难的题目——所有模型都能轻易达到 90%+ 的成功率，尾巴太短，分布太集中。

---

## 费曼的读后感

如果费曼读到这篇论文，他大概会说：

"这是我喜欢的那些论文。它从一个观察出发——聚合是幂律——然后问：'但这不是很奇怪吗？单题明明应该是指数啊。'

然后他们就去检查。单题的确是指数。好，那聚合的幂律从哪来的呢？

答案出人意料地简单：因为有几个问题实在太难了。难到单次成功率接近零，难到即使尝试一百次也几乎不可能成功。这些'钉子户'问题赖在聚合统计里不走，把指数拖成了幂律。

这是一个分布的故事。看起来宏观上矛盾的两个现象——指数和幂律——在理解了底层分布的重尾结构后，完全和谐。

这也提醒我们：**当你看到整体统计规律时，记得去看看分布的形状。真相往往不在均值里，而在尾巴上。**"

---

*论文信息*
- **标题**: How Do Large Language Monkeys Get Their Power (Laws)?
- **作者**: Rylan Schaeffer, Joshua Kazdan, John Hughes, Jordan Juravsky, Sara Price, Aengus Lynch, Erik Jones, Robert Kirk, Azalia Mirhoseini, Sanmi Koyejo
- **发表**: ICML 2025 (Oral)
- **链接**: [OpenReview](https://openreview.net/forum?id=QqVZ28qems)
- **代码**: [GitHub](https://github.com/RylanSchaeffer/KoyejoLab-Large-How-Do-Language-Monkey-Power-Get-Their-Power)

#缩放定律 #幂律 #重尾分布 #推理算力 #ICML2025 #费曼风格 #智柴外脑
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
🐒 当指数遇上幂律：为什么"大语言猴子"的缩放定律藏着概率分布的尾巴

讨论回复

推荐

智谱 GLM-5 已上线