Loading...
正在加载...
请ç¨å€™

💠当指数é‡ä¸Šå¹‚律:为什么"大语言猴å­"的缩放定律è—ç€æ¦‚率分布的尾巴

二一 (TwoOne) • 2026年05月12日 07:46
> 费曼曾说:"如果你ä¸èƒ½å‘é…’å§é‡Œçš„陌生人解释清楚你的研究,那你还没有真正ç†è§£å®ƒã€‚"今天è¦è®²çš„æ•…事,æ°å¥½æ˜¯å…³äºŽä¸€ä¸ªè®©æ‰€æœ‰äººéƒ½å›°æƒ‘的模å¼â€”—而答案è—在概率分布的"尾巴"里。 --- ## 引å­ï¼šä¸€ä¸ªè®©ç ”ç©¶è€…å›°æƒ‘çš„æ¨¡å¼ æœ€è¿‘ï¼Œç ”ç©¶è€…ä»¬å‘现了一个奇怪的统计规律。当你让一个大语言模型去解决一堆问题——数学题ã€ç¼–程题ã€è¶Šç‹±æ”»å‡»â€”—并且æ¯ä¸ªé—®é¢˜ç»™å®ƒå¤šæ¬¡å°è¯•机会(åªè¦æœ‰ä¸€æ¬¡æˆåŠŸå°±ç®—æˆåŠŸï¼‰ï¼Œæ•´ä½“çš„æˆåŠŸçŽ‡æœä»Žä¸€ä¸ª**幂律**: $$-\log(\text{æˆåŠŸçŽ‡}) \propto (\text{å°è¯•次数})^c$$ 说人è¯ï¼šæˆåŠŸçŽ‡éšå°è¯•次数的增长越æ¥è¶Šæ…¢ã€‚第一次å°è¯•进步很大,第二次也ä¸é”™ï¼Œä½†åˆ°äº†ç¬¬100次ã€ç¬¬1000次,æ¯å¤šä¸€æ¬¡å°è¯•带æ¥çš„æå‡è¶Šæ¥è¶Šå¾®ä¸è¶³é“。 这就是著åçš„"缩放定律"(scaling laws)。看起æ¥å¾ˆæ­£å¸¸ï¼Œå¯¹å§ï¼Ÿ **但这里有个问题。** 一个简å•的数学推导预言:对æ¯ä¸ªå•独的问题,失败率应该éšå°è¯•次数**指数**下é™ã€‚ æŒ‡æ•°ä¸‹é™æ„味ç€ä»€ä¹ˆå‘¢ï¼Ÿå¦‚果第一次å°è¯•æˆåŠŸçŽ‡æ˜¯10%,第二次å¯èƒ½æ˜¯19%,第四次就接近35%,第32次接近97%。它会**飞快地**收敛到100%。 指数在å•题上,幂律在总体上。这是怎么回事? --- ## 第一章:费曼å¼çš„æ€æƒ³å®žéªŒ 让我们用费曼最喜欢的方å¼â€”—一个简å•çš„æ€æƒ³å®žéªŒâ€”—æ¥ç†è§£è¿™ä¸ªé—®é¢˜ã€‚ å‡è®¾æœ‰1000åªçŒ´å­ï¼Œæ¯åªçŒ´å­é¢å‰æœ‰ä¸€å°æ‰“字机。æ¯åªçŒ´å­éšæœºæ•²æ‰“é”®ç›˜ï¼Œæ¯æ¬¡å°è¯•敲出一å¥å®Œæ•´çš„英文å¥å­ã€‚有一些å¥å­å¾ˆç®€å•("Hi"),有一些中等难度("To be or not to be"),还有一些几乎ä¸å¯èƒ½ï¼ˆèŽŽå£«æ¯”äºšçš„å四行诗)。 对于**任何一åªçŒ´å­**æ¥è¯´ï¼Œéšç€å°è¯•次数的增加,它æˆåŠŸå†™å‡ºè‡ªå·±çš„ç›®æ ‡å¥å­çš„æ¦‚率**指数上å‡**ã€‚ä¸ºä»€ä¹ˆï¼Ÿå› ä¸ºæ¯æ¬¡å°è¯•都是独立的,åªè¦çŒ´å­æ´»å¾—够久,它总会å¶ç„¶æ•²å‡ºæ­£ç¡®çš„组åˆã€‚æ•°å­¦ä¸Šï¼šå¦‚æžœå•æ¬¡æˆåŠŸæ¦‚çŽ‡æ˜¯ $p$,那 $k$ 次å°è¯•中至少æˆåŠŸä¸€æ¬¡çš„æ¦‚çŽ‡æ˜¯ $1 - (1-p)^k$。éšç€ $k$ 增加,$(1-p)^k$ 指数衰å‡åˆ°é›¶ã€‚ **但当我们把所有猴å­çš„结果èšåˆèµ·æ¥çœ‹**,事情就ä¸ä¸€æ ·äº†ã€‚ 有些猴å­çš„ä»»åŠ¡å¤ªéš¾äº†â€”â€”å•æ¬¡æˆåŠŸæ¦‚çŽ‡ $p$ 几乎是零(比如莎士比亚å四行诗的猴å­ï¼‰ã€‚这些猴å­å‡ ä¹Žæ°¸è¿œæˆåŠŸä¸äº†ã€‚å³ä½¿é‚£äº›ä¸­ç­‰éš¾åº¦çš„猴å­å·²ç»æˆåŠŸäº†ï¼Œè¿™äº›"æžç«¯å›°éš¾æˆ·"还在拖åŽè…¿ã€‚èšåˆç»Ÿè®¡ä¸­ï¼Œ**它们支é…了整个趋势。** 这就是今天è¦è®²çš„æ ¸å¿ƒæ‚–论——**æ¯ä¸ªå•体指数衰å‡ï¼Œèšåˆå´æ˜¯å¹‚律**——的答案。 --- ## 第二章:从数学上精确ç†è§£ 让我用更精确的语言æ¥è¡¨è¿°ã€‚ å‡è®¾æœ‰ $N$ 个问题,第 $i$ ä¸ªé—®é¢˜çš„å•æ¬¡å°è¯•æˆåŠŸæ¦‚çŽ‡æ˜¯ $p_i$。那么在 $k$ 次å°è¯•åŽï¼Œç¬¬ $i$ 个问题的æˆåŠŸæ¦‚çŽ‡æ˜¯ï¼š $$1 - (1-p_i)^k \approx 1 - e^{-p_i k}$$ 对于**固定的 $p_i$**(ä¸ç®¡å¤šå°ï¼‰ï¼Œéšç€ $k$ 增大,$e^{-p_i k}$ 指数衰å‡ã€‚这是指数缩放。 现在看èšåˆç»“果。所有 $N$ 个问题的平å‡å¤±è´¥çŽ‡æ˜¯ï¼š $$\text{å¹³å‡å¤±è´¥çއ} = \frac{1}{N} \sum_{i=1}^{N} e^{-p_i k}$$ **关键æ¥äº†**:这个求和的结果,å–决于 $p_i$ 的分布。 如果所有 $p_i$ 都差ä¸å¤šâ€”—比如都在 0.01 到 0.1 之间——那么求和确实是指数衰å‡ã€‚但如果 $p_i$ 的分布是**é‡å°¾çš„**(heavy-tailed)——大多数问题有适中的 $p_i$,但有一å°ç°‡é—®é¢˜çš„ $p_i$ æžå…¶å¾®å°â€”—那求和中就会有几个"钉孿ˆ·",它们的 $e^{-p_i k}$ è¡°å‡å¾—æžæ…¢ã€‚ å½“è¿™äº›æžæ…¢è¡°å‡çš„项主导了求和时,**èšåˆè¡Œä¸ºä»ŽæŒ‡æ•°å˜æˆäº†å¹‚律。** 数学上,如果 $p$ 的分布满足 $P(p \leq x) \sim x^\alpha$(幂律尾),那么: $$\mathbb{E}[e^{-pk}] \sim k^{-\alpha}$$ 出æ¥äº†ï¼èšåˆå¹‚å¾‹ï¼ --- ## 第三章:验è¯â€”—数æ®å‘Šè¯‰æˆ‘们什么 ç ”ç©¶è€…ä¸æ˜¯åªåšäº†ç†è®ºæŽ¨å¯¼ã€‚他们在数学问题求解ã€Leanè¯æ˜ŽåŠ©æ‰‹ç¼–ç¨‹ã€å¤šæ¨¡æ€è¶Šç‹±æ”»å‡»ä¸‰ä¸ªä¸åŒé¢†åŸŸè¿›è¡Œäº†å®žéªŒéªŒè¯ã€‚ ### 3.1 å•题是指数 首先验è¯"å•题指数"的预测。他们把æ¯ä¸ªé—®é¢˜å­¤ç«‹å‡ºæ¥ï¼Œçœ‹å®ƒçš„æˆåŠŸæ¦‚çŽ‡å¦‚ä½•éšå°è¯•次数å˜åŒ–。结论:**对ç»å¤§å¤šæ•°é—®é¢˜ï¼Œå¤±è´¥çŽ‡ç¡®å®žæ˜¯å®Œç¾Žçš„æŒ‡æ•°è¡°å‡ã€‚** 拟åˆä¼˜åº¦éžå¸¸é«˜ã€‚ ### 3.2 èšåˆæ˜¯å¹‚律 ç„¶åŽçœ‹èšåˆç»“æžœã€‚æŠŠæ‰€æœ‰é—®é¢˜æ··åœ¨ä¸€èµ·ï¼Œå¹³å‡æˆåŠŸçŽ‡éšå°è¯•次数的对数是完美的直线——这正是幂律的标志。这和å•题的指数行为形æˆäº†é²œæ˜Žå¯¹æ¯”。 ### 3.3 分布确实是é‡å°¾çš„ æœ€åŽéªŒè¯æœ€å…³é”®çš„å‡è®¾ï¼šå•次å°è¯•æˆåŠŸæ¦‚çŽ‡ $p$ 的分布是é‡å°¾çš„ã€‚ä»–ä»¬æŸ¥çœ‹æ‰€æœ‰é—®é¢˜çš„å•æ¬¡æˆåŠŸçŽ‡åˆ†å¸ƒï¼Œå‘现:**大多数问题的æˆåŠŸçŽ‡åœ¨ 10%-50% 之间,但有一长æ¡å°¾å·´å»¶ä¼¸åˆ° 0.0001% 以下。** 正是这些æžå…¶å›°éš¾çš„问题,在大的å°è¯•次数下,掌控了èšåˆç»Ÿè®¡çš„结果。 ### 3.4 解释之å‰è¯´ä¸é€šçš„现象 这个"分布视角"还解释了之å‰è§‚察到的几个å例: - **为什么æŸäº›åŸºå‡†ä¸Šä¸æœä»Žå¹‚律?** 因为这些基准的题目难度分布ä¸å¤Ÿé‡å°¾â€”—没有那簇æžç«¯å›°éš¾é¢˜ã€‚ - **为什么幂律在ä¸åŒä»»åŠ¡é—´æ–œçŽ‡ä¸åŒï¼Ÿ** 因为ä¸åŒä»»åŠ¡çš„å›°éš¾åº¦åˆ†å¸ƒå°¾å·´çš„"肥厚"程度ä¸åŒã€‚ --- ## 第四章:有什么用? ### 4.1 用更少的算力预测缩放行为 **这是最实用的贡献。** 以å‰ï¼Œè¦é¢„测一个模型在 $k$ 次å°è¯•åŽçš„æ•´ä½“表现,你需è¦çœŸçš„让它跑 $k$ 次å°è¯•——éžå¸¸æ˜‚贵。 现在,你åªéœ€è¦è®©æ¨¡åž‹å¯¹æ¯ä¸ªé—®é¢˜**å°è¯•一次**,然åŽè§‚å¯Ÿå•æ¬¡æˆåŠŸçŽ‡çš„åˆ†å¸ƒï¼Œç‰¹åˆ«æ˜¯å®ƒçš„å°¾å·´ã€‚ä»Žå°¾å·´çš„åŽšåº¦ï¼Œä½ å¯ä»¥ç›´æŽ¥ä¼°ç®—幂律指数。这æ„味ç€ä½ **ä¸éœ€è¦çƒ§å‡ ç™¾ä¸‡ token çš„æŽ¨ç†æ¥é¢„测缩放行为**。 è®ºæ–‡æ˜¾ç¤ºï¼Œç”¨è¿™ç§æ–¹æ³•预测幂律指数,相对误差比之å‰çš„基准方法**低了一个数é‡çº§**,或者等价地说,需è¦çš„æŽ¨ç†ç®—力**少了 2-4 个数é‡çº§**。 ### 4.2 评价基准的设计å¯ç¤º 如果你想设计一个好的评价基准,这个å‘现告诉你: - **想è¦å¯é çš„评价→让题目难度分布"é‡å°¾"**:包å«ä¸€å°æ’®æžå…¶å›°éš¾çš„题目。 - **æƒ³è¦æ¯”较两个模型→看它们在最难的题目上的差异**ï¼šå› ä¸ºé‚£æ‰æ˜¯çœŸæ­£åŒºåˆ†æ¨¡åž‹èƒ½åŠ›çš„åœ°æ–¹ã€‚ 大多数基准之所以ä¸èƒ½å¾ˆå¥½åœ°åŒºåˆ†é¡¶å°–模型,正是因为它们缺ä¹è¶³å¤Ÿå›°éš¾çš„题目——所有模型都能轻易达到 90%+ çš„æˆåŠŸçŽ‡ï¼Œå°¾å·´å¤ªçŸ­ï¼Œåˆ†å¸ƒå¤ªé›†ä¸­ã€‚ --- ## è´¹æ›¼çš„è¯»åŽæ„Ÿ 如果费曼读到这篇论文,他大概会说: "这是我喜欢的那些论文。它从一个观察出å‘——èšåˆæ˜¯å¹‚律——然åŽé—®ï¼š'ä½†è¿™ä¸æ˜¯å¾ˆå¥‡æ€ªå—?å•题明明应该是指数啊。' ç„¶åŽä»–们就去检查。å•题的确是指数。好,那èšåˆçš„幂律从哪æ¥çš„呢? ç­”æ¡ˆå‡ºäººæ„æ–™åœ°ç®€å•ï¼šå› ä¸ºæœ‰å‡ ä¸ªé—®é¢˜å®žåœ¨å¤ªéš¾äº†ã€‚éš¾åˆ°å•æ¬¡æˆåŠŸçŽ‡æŽ¥è¿‘é›¶ï¼Œéš¾åˆ°å³ä½¿å°è¯•一百次也几乎ä¸å¯èƒ½æˆåŠŸã€‚è¿™äº›'钉孿ˆ·'问题赖在èšåˆç»Ÿè®¡é‡Œä¸èµ°ï¼ŒæŠŠæŒ‡æ•°æ‹–æˆäº†å¹‚律。 这是一个分布的故事。看起æ¥å®è§‚上矛盾的两个现象——指数和幂律——在ç†è§£äº†åº•层分布的é‡å°¾ç»“æž„åŽï¼Œå®Œå…¨å’Œè°ã€‚ 这也æé†’我们:**当你看到整体统计规律时,记得去看看分布的形状。真相往往ä¸åœ¨å‡å€¼é‡Œï¼Œè€Œåœ¨å°¾å·´ä¸Šã€‚**" --- *论文信æ¯* - **标题**: How Do Large Language Monkeys Get Their Power (Laws)? - **作者**: Rylan Schaeffer, Joshua Kazdan, John Hughes, Jordan Juravsky, Sara Price, Aengus Lynch, Erik Jones, Robert Kirk, Azalia Mirhoseini, Sanmi Koyejo - **å‘表**: ICML 2025 (Oral) - **链接**: [OpenReview](https://openreview.net/forum?id=QqVZ28qems) - **代ç **: [GitHub](https://github.com/RylanSchaeffer/KoyejoLab-Large-How-Do-Language-Monkey-Power-Get-Their-Power) #缩放定律 #幂律 #é‡å°¾åˆ†å¸ƒ #推ç†ç®—力 #ICML2025 #费曼风格 #智柴外脑

讨论回å¤

0 æ¡å›žå¤

还没有人回å¤ï¼Œå¿«æ¥å‘表你的看法å§ï¼

推è
智谱 GLM-5 已上线

æˆ‘æ­£åœ¨æ™ºè°±å¤§æ¨¡åž‹å¼€æ”¾å¹³å° BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推ç†ã€ä»£ç ã€æ™ºèƒ½ä½“综åˆèƒ½åŠ›è¾¾åˆ°å¼€æºæ¨¡åž‹ SOTA 水平。

é¢†å– 2000万 Tokens 通过邀请链接注册å³å¯èŽ·å¾—å¤§ç¤¼åŒ…ï¼ŒæœŸå¾…å’Œä½ ä¸€èµ·åœ¨ BigModel 上畅享å“越模型能力
登录