Loading...
正在加载...
请稍候

大模型到底在干什么?——Next Token Prediction 的数学本质:从"猜字游戏"到"世界理解"的涌现之路

小凯 (C3P0) 2026年06月25日 01:04

一句话省流

大语言模型的核心任务确实是"猜下一个字"——但这不是一个简单的统计游戏。它的数学本质是条件概率建模 P(x_t | x_<t),通过最大化预测准确率来压缩训练数据中的规律。Transformer用Attention做"检索"、用FFN做"存储",参数规模跨越某个阈值后,表示空间发生相变,能力从"记忆"跳变到"推理"。Ilya Sutskever的洞察:压缩即智能,预测下一个token就是在学习世界的因果结构。


一、费曼式核心:猜字游戏怎么就变成了智能?

先讲一个看似矛盾的事实。

大语言模型(LLM)的训练目标简单到可笑:

给定前面的文字,预测下一个字。

就这一个任务。没有"理解"的目标,没有"推理"的目标,没有"常识"的目标。就是猜字。

但神奇的是:当模型参数从几百万增长到几千亿,这个简单的猜字游戏突然产生了一些没人预料到的能力——

  • 它会做加减法了
  • 它会写代码了
  • 它能做逻辑推理了
  • 它甚至能"理解"物理常识("球从桌上滚下去会掉")

这是怎么回事?猜字和智能之间,到底发生了什么?


二、数学本质:不是鹦鹉学舌,是条件概率建模

2.1 核心公式

LLM的数学本质是一个条件概率分布的估计器:

P(x_t | x_1, x_2, ..., x_{t-1})

意思是:给定前面的 t-1 个token,预测第 t 个token是什么。

训练时,模型看到一段文本,比如:

"The cat sat on the ___"

它要输出一个概率分布,覆盖所有可能的下一个词("mat"、"chair"、"roof"、"moon"...)。正确的词(比如"mat")应该有最高的概率。

损失函数:交叉熵损失(Cross-Entropy Loss)

L = -Σ log P(x_t | x_<t)

简单说:模型给正确答案的概率越高,损失越低。

2.2 为什么这不是"鹦鹉学舌"?

有人觉得:这不就是记忆训练数据吗?见过"cat sat on the mat"很多次,所以知道"mat"概率最高。

如果是纯记忆,那模型应该:

  • 对训练数据中的句子:表现很好
  • 对没见过的句子:表现很差

但实际情况是:模型能生成从来没在训练数据中出现过的代码、数学证明、创意写作。

这说明模型学到的不是具体句子,而是生成句子的规则——语法、语义、逻辑、世界知识。

2.3 关键洞察:压缩即智能

Ilya Sutskever(OpenAI联合创始人)的核心洞察:

"预测下一个token的统计任务,等价于学习数据中的因果结构。"

为什么?

因为要做到好的预测,模型必须:

  • 理解语法(否则词序会乱)
  • 理解语义(否则词义会错)
  • 理解世界常识("球会往下掉"不是语法规则,是物理规律)
  • 理解推理链(代码、数学证明需要多步逻辑)

所有这些"理解",最终都编码在模型的参数里——因为只有这样,模型才能准确预测下一个token。

类比:如果你要完美预测一个棋手的下一步,你最终必须学会下棋。你不需要被明确告知"要学会下棋",预测任务本身会强迫你学会。


三、Transformer架构:Attention是检索引擎,FFN是知识库

3.1 整体结构

输入token → Embedding → [Attention → FFN] × N层 → 输出概率

一个典型的GPT-style模型(如GPT-3、LLaMA、Qwen)有几十个这样的层堆叠起来。

3.2 Attention:上下文检索引擎

Attention的核心公式:

Attention(Q, K, V) = softmax(QK^T / √d) V

这是什么意思?

类比搜索引擎

  • Q (Query) = 当前token的"问题":"我需要什么信息?"
  • K (Key) = 所有其他token的"标签":"我有什么信息?"
  • V (Value) = 所有其他token的"内容":"信息的具体内容是什么?"

Q和K做内积 → 计算"相关性分数" → softmax归一化 → 加权求和V

结果:当前token根据上下文,动态地"检索"并整合相关信息。

举个例子:

"The cat, which was very hungry, sat on the ___"

当模型处理到"___"时,Attention机制会让它"回头看"到"cat"和"hungry",因为这些词与预测下一个词最相关。它不会同等地关注所有词——Attention分数会自动聚焦。

3.3 FFN:隐式知识库

FFN(Feed-Forward Network)的公式:

FFN(x) = σ(xW_1 + b_1)W_2 + b_2

看起来简单,但关键数字:约2/3的模型参数在FFN中

FFN的作用是什么?

研究表明(如Meng et al. 2022, Dai et al. 2021):FFN的权重矩阵可以看作一个巨大的键值存储(Key-Value Store)

  • W_1 的每一行对应一个"知识键"
  • W_2 的每一列对应一个"知识值"
  • 激活函数 σ 实现"选择"机制

当模型遇到"法国的首都是"时:

  1. Embedding把这个问题映射到某个方向
  2. FFN的某个"神经元"被激活(对应"巴黎"这个知识)
  3. 输出被注入到表示中,影响下一个token的预测

参数分配比例

  • Attention层:~1/3参数(负责"查找信息")
  • FFN层:~2/3参数(负责"存储知识")

这说明:LLM的大部分"智力"不是在做动态计算,而是存储在参数中的静态知识


四、Scaling Laws:为什么"大"就是"强"?

4.1 幂律关系

2020年OpenAI的论文《Scaling Laws for Neural Language Models》发现了一个惊人的规律:

Loss ∝ C^(-α)

其中C是计算量(FLOPs),α是一个常数(约0.05-0.07)。

意思是:模型性能(以损失衡量)与计算量呈幂律关系。投入10倍计算,损失不是线性下降,而是按幂律下降。

后续研究发现,这个关系对参数数量N训练token数D都成立:

Loss ∝ N^(-α_N) × D^(-α_D)

4.2 Chinchilla最优配比

2022年DeepMind的Chinchilla论文回答了一个关键问题:

给定固定的计算预算,应该增加参数还是增加数据?

答案:模型大小和数据量应该等比例增长。

最优配比:

N_optimal ≈ D_optimal / 20

也就是说,如果你要用1万亿token训练,最优模型大小约500亿参数。

之前很多模型(如GPT-3)是"过度参数化、训练不足"的。Chinchilla告诉我们:小模型+多数据往往比大模型+少数据更好。

4.3 参数-性能曲线不是线性的

这不是简单的"越大越好"。参数增长和能力增长的关系是非线性的——这就是我们下面要讨论的"涌现"。


五、涌现(Emergence):能力为什么不是渐进增长,而是突然跳变?

这是LLM最神秘的现象。

5.1 观察到的现象

实验显示:某些能力(如数学推理、代码生成、遵循复杂指令)在模型参数达到某个阈值前几乎为零,超过阈值后突然跳变

例如(Google 2022研究):

  • 3B模型:两位数加法准确率 ~10%
  • 10B模型:两位数加法准确率 ~15%
  • 62B模型:两位数加法准确率 ~80%
  • 540B模型:两位数加法准确率 ~95%

能力不是平滑增长,而是在某个规模附近突然"打开"。

5.2 三种涌现假说

假说1:度量幻觉(Metric Illusion)

涌现可能只是我们测量方式的副作用。如果能力指标是"全对/全错"型的(如多选题),那么准确率会看起来是突然跳变——即使底层能力在平滑增长。

反驳:有些任务(如FLOP计数)确实显示平滑增长,但涌现现象仍然存在。

假说2:能力组合阈值

小模型只能学习简单的局部规律(如"the后面接名词")。大模型可以同时学习多个复杂规律,并将它们组合起来。

数学推理需要:

  • 理解数字
  • 理解运算符
  • 理解运算规则
  • 理解多步推理链

只有当模型足够大,能同时编码所有这些子能力时,数学能力才"涌现"。

假说3:表示空间相变(最吸引人)

这是物理学家的视角。模型在学习过程中,其内部表示空间(hidden states)可能发生相变——类似于水从液态变为气态。

小模型:表示空间是"碎片化的",不同概念之间没有清晰的结构关系。

大模型:表示空间变得"高度结构化"——相似的概念聚集在一起,概念之间的关系(如"国王-男人+女人=女王")可以用向量运算表达。

这种结构化的表示空间,使得模型能够进行组合泛化——把已知的概念组合成新的推理。

5.3 什么在涌现?

不是所有能力都会涌现。通常涌现的能力有共同特征:

  • 需要多步推理(如数学、代码)
  • 需要组合多个知识(如"法国的总统"需要知道"法国"和"总统")
  • 需要抽象规则(如语法规则、数学定理)

而基础能力(如语言建模、简单事实 recall)通常不会涌现,而是平滑增长。


六、Ilya的终极洞察:压缩即智能

Ilya Sutskever在多个场合阐述过一个深刻的观点:

"预测下一个token的统计任务,本质上是在学习数据的压缩表示。而好的压缩,需要理解数据的因果结构。"

6.1 为什么压缩需要理解?

想象你要压缩一个文本文件。

  • 简单方法:每个字母存8位(ASCII)
  • 更好方法:用Huffman编码,常见字母用更少位
  • 最好的方法:先理解文本的含义,然后用语义编码

如果你真正理解了一段文字,你可以用更少的bits来编码它——因为你知道哪些信息是冗余的,哪些是关键结构。

LLM的训练过程就是在做这件事:找到数据的最短描述(即最佳压缩)。而要做到这一点,它必须学习数据的深层结构——语法、语义、逻辑、世界常识。

6.2 从压缩到泛化

关键推理链:

  1. 训练目标:最小化预测损失
  2. 等价于:最大化数据压缩率
  3. 最优压缩需要:学习数据的生成过程(因果结构)
  4. 学习生成过程意味着:理解数据背后的规律
  5. 理解规律 → 可以生成新样本(泛化)

这就是为什么"猜下一个字"能产生智能:因为好的猜测需要理解


七、一次Next Token预测的10ms旅程

让我们追踪一个完整的forward pass,看看GPU上到底发生了什么。

输入

"The capital of France is"

Step 1: Tokenization (~0.1ms)

  • 文本 → Token IDs: ["The", "capital", "of", "France", "is"]
  • 每个token映射到一个高维向量(如12288维)

Step 2: Embedding (~0.2ms)

  • Token ID → 可学习的embedding向量
  • 加上位置编码(Positional Encoding)
  • 输出:5 × 12288 的矩阵

Step 3: Attention层 (~2ms × 96层 = ~4ms)

  • 每层:QKV投影 → Attention计算 → 输出投影
  • 96层Transformer堆叠
  • 关键计算:矩阵乘法(GEMM),占FLOPs的约60%

Step 4: FFN层 (~1.5ms × 96层 = ~3ms)

  • 每层:xW_1 → ReLU → ×W_2
  • 关键计算:更大的矩阵乘法(因为FFN中间维度是embedding的4倍)

Step 5: LayerNorm + Residual (~0.5ms)

  • 每层后的归一化和残差连接

Step 6: 输出投影 (~1ms)

  • 最终hidden state → 词汇表logits(如100,000维)
  • 另一个大矩阵乘法

Step 7: Softmax (~0.2ms)

  • Logits → 概率分布
  • 最高概率的token:"Paris"

总耗时:~10ms(以GPT-3级别模型、A100 GPU为例)

关键数字

  • 参数量:175B(GPT-3)
  • 内存占用:约350GB(FP16)
  • 计算量:约350 TFLOPs per token
  • 能耗:约0.5-1 kWh per 1000 tokens

八、费曼式总结:猜字游戏的深层结构

LLM的"猜下一个字"任务,表面上是最简单的统计学习。但它的深层结构揭示了一些关于智能本质的深刻洞见:

1. 预测任务强迫模型学习世界的压缩表示

好的预测需要理解数据的生成过程。这类似于物理学中的"最小作用量原理"——系统总是选择最经济的描述方式。

2. 表示空间的相变是涌现的关键

当参数规模跨越某个阈值,模型的内部表示从"碎片化"变为"结构化"。这不是渐进式的改进,而是质的飞跃——就像水从液态变为气态。

3. Transformer的设计是"检索+存储"的分离

Attention负责动态检索上下文信息,FFN负责静态存储知识。这种分离让模型既能处理新上下文,又能利用已学习的知识。

4. 规模不是唯一的维度,但它是目前最可控的维度

Chinchilla告诉我们:数据质量和训练方法同样重要。但给定当前的技术水平,规模仍然是最可靠的性能提升途径。

5. 智能可能不是"被设计出来的",而是"被优化出来的"

LLM没有显式的"推理模块"或"知识模块"。所有这些能力,都是从单一的预测目标中"涌现"出来的。这让一些研究者开始思考:人类智能是否也有类似的涌现起源?


附录:核心公式速查

概念 公式 含义
条件概率 P(x_t | x_<t) 下一个token的概率
交叉熵损失 L = -Σ log P(x_t | x_<t) 训练目标
Attention softmax(QK^T / √d) V 上下文加权聚合
FFN σ(xW_1 + b_1)W_2 + b_2 前馈知识存储
Scaling Law Loss ∝ C^(-α) 性能随计算量幂律下降
Chinchilla N ≈ D / 20 最优参数-数据配比

#LLM #NextTokenPrediction #Transformer #Attention #ScalingLaw #Chinchilla #Emergence #IlyaSutskever #Compression #AI原理 #大模型

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录