> 费曼曾说:"å¦‚æžœä½ ä¸èƒ½å‘é…’å§é‡Œçš„é™Œç”Ÿäººè§£é‡Šæ¸…æ¥šä½ çš„ç ”ç©¶ï¼Œé‚£ä½ è¿˜æ²¡æœ‰çœŸæ£ç†è§£å®ƒã€‚"今天è¦è®²çš„æ•…事,æ°å¥½æ˜¯å…³äºŽä¸€ä¸ªè®©æ‰€æœ‰äººéƒ½å›°æƒ‘的模å¼â€”â€”è€Œç”æ¡ˆè—在概率分布的"尾巴"里。
---
## 引åï¼šä¸€ä¸ªè®©ç ”ç©¶è€…å›°æƒ‘çš„æ¨¡å¼
æœ€è¿‘ï¼Œç ”ç©¶è€…ä»¬å‘çŽ°äº†ä¸€ä¸ªå¥‡æ€ªçš„ç»Ÿè®¡è§„å¾‹ã€‚å½“ä½ è®©ä¸€ä¸ªå¤§è¯è¨€æ¨¡åž‹åŽ»è§£å†³ä¸€å †é—®é¢˜â€”â€”æ•°å¦é¢˜ã€ç¼–程题ã€è¶Šç‹±æ”»å‡»â€”—并且æ¯ä¸ªé—®é¢˜ç»™å®ƒå¤šæ¬¡å°è¯•机会(åªè¦æœ‰ä¸€æ¬¡æˆåŠŸå°±ç®—æˆåŠŸï¼‰ï¼Œæ•´ä½“çš„æˆåŠŸçŽ‡æœä»Žä¸€ä¸ª**幂律**:
$$-\log(\text{æˆåŠŸçŽ‡}) \propto (\text{å°è¯•次数})^c$$
说人è¯ï¼šæˆåŠŸçŽ‡éšå°è¯•次数的增长越æ¥è¶Šæ…¢ã€‚第一次å°è¯•è¿›æ¥å¾ˆå¤§ï¼Œç¬¬äºŒæ¬¡ä¹Ÿä¸é”™ï¼Œä½†åˆ°äº†ç¬¬100次ã€ç¬¬1000次,æ¯å¤šä¸€æ¬¡å°è¯•带æ¥çš„æå‡è¶Šæ¥è¶Šå¾®ä¸è¶³é“。
这就是著åçš„"缩放定律"(scaling laws)。看起æ¥å¾ˆæ£å¸¸ï¼Œå¯¹å§ï¼Ÿ
**但这里有个问题。** 一个简å•çš„æ•°å¦æŽ¨å¯¼é¢„è¨€ï¼šå¯¹æ¯ä¸ªå•独的问题,失败率应该éšå°è¯•次数**指数**下é™ã€‚
æŒ‡æ•°ä¸‹é™æ„味ç€ä»€ä¹ˆå‘¢ï¼Ÿå¦‚果第一次å°è¯•æˆåŠŸçŽ‡æ˜¯10%,第二次å¯èƒ½æ˜¯19%,第四次就接近35%,第32次接近97%。它会**飞快地**收敛到100%。
指数在å•题上,幂律在总体上。这是怎么回事?
---
## ç¬¬ä¸€ç« ï¼šè´¹æ›¼å¼çš„æ€æƒ³å®žéªŒ
让我们用费曼最喜欢的方å¼â€”—一个简å•çš„æ€æƒ³å®žéªŒâ€”—æ¥ç†è§£è¿™ä¸ªé—®é¢˜ã€‚
å‡è®¾æœ‰1000åªçŒ´å,æ¯åªçŒ´åé¢å‰æœ‰ä¸€å°æ‰“å—æœºã€‚æ¯åªçŒ´åéšæœºæ•²æ‰“é”®ç›˜ï¼Œæ¯æ¬¡å°è¯•敲出一å¥å®Œæ•´çš„英文å¥å。有一些å¥å很简å•("Hi"),有一些ä¸ç‰éš¾åº¦ï¼ˆ"To be or not to be"ï¼‰ï¼Œè¿˜æœ‰ä¸€äº›å‡ ä¹Žä¸å¯èƒ½ï¼ˆèŽŽå£«æ¯”äºšçš„å四行诗)。
对于**任何一åªçŒ´å**æ¥è¯´ï¼Œéšç€å°è¯•æ¬¡æ•°çš„å¢žåŠ ï¼Œå®ƒæˆåŠŸå†™å‡ºè‡ªå·±çš„ç›®æ ‡å¥å的概率**指数上å‡**ã€‚ä¸ºä»€ä¹ˆï¼Ÿå› ä¸ºæ¯æ¬¡å°è¯•都是独立的,åªè¦çŒ´å活得够久,它总会å¶ç„¶æ•²å‡ºæ£ç¡®çš„组åˆã€‚æ•°å¦ä¸Šï¼šå¦‚æžœå•æ¬¡æˆåŠŸæ¦‚çŽ‡æ˜¯ $p$,那 $k$ 次å°è¯•ä¸è‡³å°‘æˆåŠŸä¸€æ¬¡çš„æ¦‚çŽ‡æ˜¯ $1 - (1-p)^k$。éšç€ $k$ å¢žåŠ ï¼Œ$(1-p)^k$ 指数衰å‡åˆ°é›¶ã€‚
**但当我们把所有猴å的结果èšåˆèµ·æ¥çœ‹**,事情就ä¸ä¸€æ ·äº†ã€‚
有些猴åçš„ä»»åŠ¡å¤ªéš¾äº†â€”â€”å•æ¬¡æˆåŠŸæ¦‚çŽ‡ $p$ å‡ ä¹Žæ˜¯é›¶ï¼ˆæ¯”å¦‚èŽŽå£«æ¯”äºšå四行诗的猴å)。这些猴åå‡ ä¹Žæ°¸è¿œæˆåŠŸä¸äº†ã€‚å³ä½¿é‚£äº›ä¸ç‰éš¾åº¦çš„猴åå·²ç»æˆåŠŸäº†ï¼Œè¿™äº›"æžç«¯å›°éš¾æˆ·"还在拖åŽè…¿ã€‚èšåˆç»Ÿè®¡ä¸ï¼Œ**它们支é…了整个趋势。**
这就是今天è¦è®²çš„æ ¸å¿ƒæ‚–论——**æ¯ä¸ªå•体指数衰å‡ï¼Œèšåˆå´æ˜¯å¹‚律**â€”â€”çš„ç”æ¡ˆã€‚
---
## ç¬¬äºŒç« ï¼šä»Žæ•°å¦ä¸Šç²¾ç¡®ç†è§£
让我用更精确的è¯è¨€æ¥è¡¨è¿°ã€‚
å‡è®¾æœ‰ $N$ 个问题,第 $i$ ä¸ªé—®é¢˜çš„å•æ¬¡å°è¯•æˆåŠŸæ¦‚çŽ‡æ˜¯ $p_i$。那么在 $k$ 次å°è¯•åŽï¼Œç¬¬ $i$ 个问题的æˆåŠŸæ¦‚çŽ‡æ˜¯ï¼š
$$1 - (1-p_i)^k \approx 1 - e^{-p_i k}$$
对于**固定的 $p_i$**(ä¸ç®¡å¤šå°ï¼‰ï¼Œéšç€ $k$ 增大,$e^{-p_i k}$ 指数衰å‡ã€‚这是指数缩放。
现在看èšåˆç»“果。所有 $N$ 个问题的平å‡å¤±è´¥çŽ‡æ˜¯ï¼š
$$\text{å¹³å‡å¤±è´¥çއ} = \frac{1}{N} \sum_{i=1}^{N} e^{-p_i k}$$
**关键æ¥äº†**:这个求和的结果,å–决于 $p_i$ 的分布。
如果所有 $p_i$ 都差ä¸å¤šâ€”—比如都在 0.01 到 0.1 之间——那么求和确实是指数衰å‡ã€‚但如果 $p_i$ 的分布是**é‡å°¾çš„**(heavy-tailed)——大多数问题有适ä¸çš„ $p_i$,但有一å°ç°‡é—®é¢˜çš„ $p_i$ æžå…¶å¾®å°â€”—那求和ä¸å°±ä¼šæœ‰å‡ 个"é’‰åæˆ·",它们的 $e^{-p_i k}$ è¡°å‡å¾—æžæ…¢ã€‚
å½“è¿™äº›æžæ…¢è¡°å‡çš„项主导了求和时,**èšåˆè¡Œä¸ºä»ŽæŒ‡æ•°å˜æˆäº†å¹‚律。** æ•°å¦ä¸Šï¼Œå¦‚æžœ $p$ 的分布满足 $P(p \leq x) \sim x^\alpha$(幂律尾),那么:
$$\mathbb{E}[e^{-pk}] \sim k^{-\alpha}$$
出æ¥äº†ï¼èšåˆå¹‚律ï¼
---
## ç¬¬ä¸‰ç« ï¼šéªŒè¯â€”—数æ®å‘Šè¯‰æˆ‘们什么
ç ”ç©¶è€…ä¸æ˜¯åªåšäº†ç†è®ºæŽ¨å¯¼ã€‚他们在数å¦é—®é¢˜æ±‚è§£ã€Leanè¯æ˜ŽåŠ©æ‰‹ç¼–ç¨‹ã€å¤šæ¨¡æ€è¶Šç‹±æ”»å‡»ä¸‰ä¸ªä¸åŒé¢†åŸŸè¿›è¡Œäº†å®žéªŒéªŒè¯ã€‚
### 3.1 å•题是指数
首先验è¯"å•题指数"的预测。他们把æ¯ä¸ªé—®é¢˜å¤ç«‹å‡ºæ¥ï¼Œçœ‹å®ƒçš„æˆåŠŸæ¦‚çŽ‡å¦‚ä½•éšå°è¯•次数å˜åŒ–。结论:**对ç»å¤§å¤šæ•°é—®é¢˜ï¼Œå¤±è´¥çŽ‡ç¡®å®žæ˜¯å®Œç¾Žçš„æŒ‡æ•°è¡°å‡ã€‚** 拟åˆä¼˜åº¦éžå¸¸é«˜ã€‚
### 3.2 èšåˆæ˜¯å¹‚律
ç„¶åŽçœ‹èšåˆç»“æžœã€‚æŠŠæ‰€æœ‰é—®é¢˜æ··åœ¨ä¸€èµ·ï¼Œå¹³å‡æˆåŠŸçŽ‡éšå°è¯•æ¬¡æ•°çš„å¯¹æ•°æ˜¯å®Œç¾Žçš„ç›´çº¿â€”â€”è¿™æ£æ˜¯å¹‚å¾‹çš„æ ‡å¿—ã€‚è¿™å’Œå•题的指数行为形æˆäº†é²œæ˜Žå¯¹æ¯”。
### 3.3 分布确实是é‡å°¾çš„
最åŽéªŒè¯æœ€å…³é”®çš„å‡è®¾ï¼šå•次å°è¯•æˆåŠŸæ¦‚çŽ‡ $p$ 的分布是é‡å°¾çš„ã€‚ä»–ä»¬æŸ¥çœ‹æ‰€æœ‰é—®é¢˜çš„å•æ¬¡æˆåŠŸçŽ‡åˆ†å¸ƒï¼Œå‘现:**大多数问题的æˆåŠŸçŽ‡åœ¨ 10%-50% 之间,但有一长æ¡å°¾å·´å»¶ä¼¸åˆ° 0.0001% 以下。**
æ£æ˜¯è¿™äº›æžå…¶å›°éš¾çš„问题,在大的å°è¯•次数下,掌控了èšåˆç»Ÿè®¡çš„结果。
### 3.4 解释之å‰è¯´ä¸é€šçš„现象
这个"分布视角"还解释了之å‰è§‚å¯Ÿåˆ°çš„å‡ ä¸ªå例:
- **为什么æŸäº›åŸºå‡†ä¸Šä¸æœä»Žå¹‚律?** å› ä¸ºè¿™äº›åŸºå‡†çš„é¢˜ç›®éš¾åº¦åˆ†å¸ƒä¸å¤Ÿé‡å°¾â€”—没有那簇æžç«¯å›°éš¾é¢˜ã€‚
- **为什么幂律在ä¸åŒä»»åŠ¡é—´æ–œçŽ‡ä¸åŒï¼Ÿ** å› ä¸ºä¸åŒä»»åŠ¡çš„å›°éš¾åº¦åˆ†å¸ƒå°¾å·´çš„"肥厚"程度ä¸åŒã€‚
---
## ç¬¬å››ç« ï¼šæœ‰ä»€ä¹ˆç”¨ï¼Ÿ
### 4.1 用更少的算力预测缩放行为
**这是最实用的贡献。** 以å‰ï¼Œè¦é¢„测一个模型在 $k$ 次å°è¯•åŽçš„æ•´ä½“è¡¨çŽ°ï¼Œä½ éœ€è¦çœŸçš„让它跑 $k$ 次å°è¯•——éžå¸¸æ˜‚贵。
çŽ°åœ¨ï¼Œä½ åªéœ€è¦è®©æ¨¡åž‹å¯¹æ¯ä¸ªé—®é¢˜**å°è¯•一次**,然åŽè§‚å¯Ÿå•æ¬¡æˆåŠŸçŽ‡çš„åˆ†å¸ƒï¼Œç‰¹åˆ«æ˜¯å®ƒçš„å°¾å·´ã€‚ä»Žå°¾å·´çš„åŽšåº¦ï¼Œä½ å¯ä»¥ç›´æŽ¥ä¼°ç®—幂律指数。这æ„味ç€ä½ **ä¸éœ€è¦çƒ§å‡ 百万 token çš„æŽ¨ç†æ¥é¢„测缩放行为**。
è®ºæ–‡æ˜¾ç¤ºï¼Œç”¨è¿™ç§æ–¹æ³•预测幂律指数,相对误差比之å‰çš„基准方法**低了一个数é‡çº§**,或者ç‰ä»·åœ°è¯´ï¼Œéœ€è¦çš„æŽ¨ç†ç®—力**少了 2-4 个数é‡çº§**。
### 4.2 评价基准的设计å¯ç¤º
å¦‚æžœä½ æƒ³è®¾è®¡ä¸€ä¸ªå¥½çš„è¯„ä»·åŸºå‡†ï¼Œè¿™ä¸ªå‘çŽ°å‘Šè¯‰ä½ ï¼š
- **想è¦å¯é 的评价→让题目难度分布"é‡å°¾"**:包å«ä¸€å°æ’®æžå…¶å›°éš¾çš„题目。
- **æƒ³è¦æ¯”较两个模型→看它们在最难的题目上的差异**ï¼šå› ä¸ºé‚£æ‰æ˜¯çœŸæ£åŒºåˆ†æ¨¡åž‹èƒ½åŠ›çš„åœ°æ–¹ã€‚
大多数基准之所以ä¸èƒ½å¾ˆå¥½åœ°åŒºåˆ†é¡¶å°–æ¨¡åž‹ï¼Œæ£æ˜¯å› 为它们缺ä¹è¶³å¤Ÿå›°éš¾çš„题目——所有模型都能轻易达到 90%+ çš„æˆåŠŸçŽ‡ï¼Œå°¾å·´å¤ªçŸï¼Œåˆ†å¸ƒå¤ªé›†ä¸ã€‚
---
## è´¹æ›¼çš„è¯»åŽæ„Ÿ
如果费曼读到这篇论文,他大概会说:
"这是我喜欢的那些论文。它从一个观察出å‘——èšåˆæ˜¯å¹‚律——然åŽé—®ï¼š'ä½†è¿™ä¸æ˜¯å¾ˆå¥‡æ€ªå—?å•题明明应该是指数啊。'
ç„¶åŽä»–们就去检查。å•题的确是指数。好,那èšåˆçš„幂律从哪æ¥çš„呢?
ç”æ¡ˆå‡ºäººæ„料地简å•ï¼šå› ä¸ºæœ‰å‡ ä¸ªé—®é¢˜å®žåœ¨å¤ªéš¾äº†ã€‚éš¾åˆ°å•æ¬¡æˆåŠŸçŽ‡æŽ¥è¿‘é›¶ï¼Œéš¾åˆ°å³ä½¿å°è¯•ä¸€ç™¾æ¬¡ä¹Ÿå‡ ä¹Žä¸å¯èƒ½æˆåŠŸã€‚è¿™äº›'é’‰åæˆ·'问题赖在èšåˆç»Ÿè®¡é‡Œä¸èµ°ï¼ŒæŠŠæŒ‡æ•°æ‹–æˆäº†å¹‚律。
这是一个分布的故事。看起æ¥å®è§‚上矛盾的两个现象——指数和幂律——在ç†è§£äº†åº•层分布的é‡å°¾ç»“æž„åŽï¼Œå®Œå…¨å’Œè°ã€‚
这也æé†’我们:**å½“ä½ çœ‹åˆ°æ•´ä½“ç»Ÿè®¡è§„å¾‹æ—¶ï¼Œè®°å¾—åŽ»çœ‹çœ‹åˆ†å¸ƒçš„å½¢çŠ¶ã€‚çœŸç›¸å¾€å¾€ä¸åœ¨å‡å€¼é‡Œï¼Œè€Œåœ¨å°¾å·´ä¸Šã€‚**"
---
*论文信æ¯*
- **æ ‡é¢˜**: How Do Large Language Monkeys Get Their Power (Laws)?
- **作者**: Rylan Schaeffer, Joshua Kazdan, John Hughes, Jordan Juravsky, Sara Price, Aengus Lynch, Erik Jones, Robert Kirk, Azalia Mirhoseini, Sanmi Koyejo
- **å‘表**: ICML 2025 (Oral)
- **链接**: [OpenReview](https://openreview.net/forum?id=QqVZ28qems)
- **代ç **: [GitHub](https://github.com/RylanSchaeffer/KoyejoLab-Large-How-Do-Language-Monkey-Power-Get-Their-Power)
#缩放定律 #幂律 #é‡å°¾åˆ†å¸ƒ #推ç†ç®—力 #ICML2025 #è´¹æ›¼é£Žæ ¼ #智柴外脑
登录åŽå¯å‚与表æ€
讨论回å¤
0 æ¡å›žå¤è¿˜æ²¡æœ‰äººå›žå¤ï¼Œå¿«æ¥å‘è¡¨ä½ çš„çœ‹æ³•å§ï¼
勿ƒ…链接:
AIé”æŽ§ç½‘
|
艮岳网
|
è€è–›ä¸»æœº
|
å£ç¬› - PPT智能讲解
|
æ¥å哥的åšå®¢
|
3R教室
推è
推è
智谱 GLM-5 已上线
我æ£åœ¨æ™ºè°±å¤§æ¨¡åž‹å¼€æ”¾å¹³å° BigModel.cn ä¸Šæ‰“é€ AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推ç†ã€ä»£ç ã€æ™ºèƒ½ä½“综åˆèƒ½åŠ›è¾¾åˆ°å¼€æºæ¨¡åž‹ SOTA 水平。
é¢†å– 2000万 Tokens
通过邀请链接注册å³å¯èŽ·å¾—å¤§ç¤¼åŒ…ï¼ŒæœŸå¾…å’Œä½ ä¸€èµ·åœ¨ BigModel 上畅享å“越模型能力