AI的数据饥渴症：为什么GPT需要万亿token，而人类幼崽只需要一亿？

> 当前最前沿的LLM需要10万亿token才能"涌现"智能，而人类幼崽到5岁时只听过约1亿个词。这5个数量级的差距，不是计算量的差距，而是"学习对象"的差距。2026年5月，EPFL和Simons Collaboration的研究者发表论文，首次用数学证明：如果AI不再预测底层token，而是预测自己的潜变量（latent），样本复杂度可以从随层级深度指数爆炸的$O(m^{L+1})$，降到与深度无关的$O(m^3)$。这意味着，一条可能打破当前Scaling Law的新路径，正在浮出水面。

---

1. 5个数量级的数据鸿沟

让我们先看一组数字：

学习者	数据量	掌握能力
GPT-4级LLM	10^13 ~ 10^14 token（10万亿）	语法、推理、部分世界知识
人类幼崽（5岁）	~$10^8$ 词（1亿）	语法、基本逻辑、物理直觉、社会规则
差距	10万倍	—

这个差距是 不可能用"人类大脑更复杂"来解释的。人脑约有860亿神经元，当前最大LLM（如GPT-4）的参数量级也在万亿级别。如果智能只取决于参数规模，那AI不应该需要比人类多10万倍的数据。

EPFL的Matthieu Wyart团队在这篇论文中提出了一个关键假设：问题不在于数据量，而在于AI在学什么。

当前LLM（GPT、Claude、Llama）的核心训练目标是什么？预测下一个token（next-token prediction）或 重建被mask的token（masked language modeling）。也就是说，模型在学的，是最底层的像素或文本单元。

论文的核心发现是：这种"底层预测"机制会导致信号稀释，让高层抽象概念的学习成本随层级深度指数级爆炸。

---

2. 信号稀释：为什么越高层越难学？

2.1 一个思想实验："电话游戏"中的信息衰减

想象一个层级化的概念系统：

第0层（叶子）：原始token（如单词、像素）
第1层：短语/局部模式
第2层：句子/物体部件
第3层：段落/物体整体
...
第L层（根）：整篇文章/场景意图

当你在第L层做一个高层决策（比如"这段文字在讽刺"），这个信号要向下传播到第0层，才能变成具体的token输出。每一层传播，信号都要经过一个"多选一"的分支过程（从m个同义词中选择），这导致信号的统计强度被平均稀释。

2.2 RHM：一个可解的数学模型

论文使用了一个叫 RHM（Random Hierarchy Model，随机层次模型） 的概率上下文无关文法来严格量化这个效应。

RHM的参数：

L：树的深度（层级数）
s：分支因子（每个节点有s个子节点）
v：每层词汇表大小
m：每个父节点有m条同义的产生规则（synonymous rules）

关键概念：同义词（synonyms）

在RHM中，不同子节点元组可能"共享同一个父节点"——它们是同义词。例如，["cat", "sat"]和["feline", "rested"]可能共享同一个"动物动作"父节点。

学习RHM等价于发现同义词的交换不变性：如果两个子节点元组有相同的父节点，它们应该被"交换而不影响更高层的含义"。

2.3 三种学习目标的样本复杂度对比

论文严格计算了三种不同训练目标所需的样本量（P）：

训练目标	样本复杂度	与深度L的关系
监督学习（Supervised）	P ~ v·m^(L-l)	指数依赖：学习第l层需要m^(L-l)
Token-level SSL（如MLM）	P ~ v·m^(L+1)	指数依赖：最高层瓶颈
Latent SSL（ILC/SLC/data2vec）	P ~ v·m^3	与L无关

为什么Token-level SSL是指数级？

论文的核心论证（第2节）：

1. 第1层学习：从原始token中识别局部同义词类，需要$P ~ v·m^3$样本。这是因为在局部上下文中的token-token相关性，其信号强度足以在$O(m^3)$样本中被检测。

2. 第2层学习：要识别更高层的同义词，模型需要依赖"token与潜变量的相关性"。但预测目标仍然是 token！这意味着高层信号必须通过"从潜变量到叶子"的下降通道传播。每一层下降，都要经过一个"m选一"的平均过程，信号衰减一个m因子。

3. 第l层学习：当学习第l层时（l≥1），需要通过l+2层下降通道来预测token，因此样本复杂度是P ~ v·m^(l+2)。

4. 最高层瓶颈：要学到最顶层（L-1层），需要P ~ v·m^L。再加上根层的m因子，总复杂度为P ~ v·m^(L+1)。

数学公式：

Token-level SSL 样本复杂度：
P_l^{tok} ~ v·m^(l+2)  （对于第l层）
P_{total}^{tok} ~ v·m^(L+1)  （整体瓶颈）

这解释了为什么GPT-4需要10万亿token：如果真实语言有L~10层抽象层级，m~100（每个概念有100种表达方式），那m^(L+1) = 100^11 = 10^22，这远远超出了任何数据集。

但论文说：我们不需要那么多数据，如果模型不预测token，而是预测自己的潜变量。

---

3. Latent SSL：打破指数诅咒

3.1 核心洞察：同层潜变量之间的相关性更强

论文的第2节核心洞察（Figure 1）：

> 同层潜变量之间的"距离"（树距离）决定了相关性的强度。如果预测目标Z和上下文T在同一层（或相邻层），它们的树距离是小的，信号强。如果预测目标在叶子层（token）而上下文在高层，信号必须通过整个下降树传播，被严重稀释。

关键直觉：

当你预测"下一个token"时，你要求模型从高层概念（"这句话在讽刺"）一直推断到具体的词（"哦，真的吗？"）。这个"下降通道"很长，每一步都有m种选择，信号被平均。
当你预测"同一层的潜变量"时（比如"这个短语的潜表示，与另一个同义词短语的潜表示，有多相似？"），你比较的是同一抽象层次的东西，信号不需要经过下降通道。

3.2 ILC：迭代潜变量聚类

论文提出的第一个算法是 ILC（Iterative Latent Clustering，迭代潜变量聚类）。

算法流程（Algorithm 1）：

1. 初始化：从最底层token开始，h^(0) = x 2. 迭代（对每一层l = 0, 1, ..., L-2）：

从当前层l的token构建所有s-元组（s-tuples）
对每个语法元组ν，计算其经验上下文向量（empirical context vector）：

     φ̂_l(ν) = (1/N(ν)) · Σ_p e_{Z^(p)} · 1{T^(p)_l = ν}

这里的Z是"堂兄弟元组"（cousin tuple）中的一个元素——即与当前元组共享同一个l+2层祖父节点的另一个元组
关键性质：同义词（共享父节点的元组）有相同的上下文向量
对这些上下文向量进行聚类（k-means，k=v），将v·m个元组分到v个父类中
聚类结果定义下一层潜变量：h^(l+1) = 聚类标签

为什么这有效？

论文证明（Theorem 1，非正式表述）：

> 对于一个平衡且分离的RHM语法，如果P ≥ C·[v·m·log(L·v·m/δ) + v·m^3/(1-f)·log(L·v·m/δ)]，那么ILC算法可以以概率≥1-δ恢复所有非根层级h^(1), h^(2), ..., h^(L-1)。

简化后：

P_ILC ~ v·m^3  （与L无关，只有对数因子log L）

为什么与L无关？

因为一旦第l层被恢复，第l+1层的预测任务与第0层到第1层的预测任务在统计上是完全相同的。每一层都是"从当前层到下一层的局部聚类"，复杂度不累积。

这和Token-level SSL形成鲜明对比：在Token-level SSL中，学习第l层需要通过l+2层下降通道，所以复杂度随l线性增长，最终达到L+1。

3.3 SLC：端到端神经网络

ILC是算法层面的。论文进一步问了：一个端到端训练的神经网络，能否实现同样的复杂度？

答案是可以，通过SLC（Stacked Latent Clustering，堆叠潜变量聚类）网络。

架构（Figure 2）：

L-1个相同的模块，每个模块对应一个潜变量层级
每个模块有两个子网络：
p（Predictor）：输入一个s-元组，输出对"堂兄弟token"的预测分布（交叉熵训练）
C（Clusterer）：将预测向量映射到离散码本（codebook），通过对比目标：相似预测向量拉向同一个码，不相似的推远
第l层的聚类输出h^(l+1)成为第l+1模块的输入token

关键设计：

教师网络（Teacher）使用EMA（指数移动平均）跟踪学生网络权重，防止表征崩溃（representation collapse）
每个模块的预测难度在所有层是恒定的，因为输入和输出在同一抽象层次

实验结果（Figure 3-right）：

对于L=4, s=3, v=10，当样本轴按v·m^3重新标度时，不同m的曲线完美坍缩（collapse）。这证明了SLC确实达到了O(m^3)的样本复杂度，与深度L无关。

更惊人的结果（Figure 12）：

对于L ∈ {3, 4, 5, 6, 7}，样本复杂度不随L变化。

3.4 生物学合理性：局部学习足够

论文还做了另一个有趣的消融实验（Figure 9）：

在模块之间插入stop-gradient（层间不反向传播）
甚至去掉EMA教师网络
甚至在预测器和聚类器之间插入stop-gradient

结果：SLC仍然可以在纯粹的局部学习规则下学习，达到同样的v·m^3复杂度。

这暗示：大脑可能不需要端到端反向传播。每个皮层区域可以独立学习局部预测-聚类，然后传递到下一层。

---

4. data2vec的意外发现：主流方法已经"无意中"在做这件事

论文的第三部分（第5节）是最具工业价值的：它证明了data2vec——一个已经在实际中使用的SSL方法——隐式地执行了层次化潜变量预测。

4.1 data2vec回顾

data2vec（Baevski et al., 2022）是Meta提出的自监督方法：

学生网络看到部分mask的输入S
教师网络看到完整输入x
学生在每个mask位置i，被训练去预测教师网络的平均最后K层激活：Y_i(x) = avg(last K blocks of teacher)
教师权重通过EMA跟踪学生：W_teacher ← (1-α)·W_teacher + α·W_student

4.2 论文的理论分析：data2vec = 隐式ILC

论文提出了两个关键假设（A1和A2）：

A1：目标携带已学习的潜变量

如果编码器已经线性表示了h^(1), ..., h^(l)，那么教师目标Y_i(x)包含这些潜变量的线性成分：

Y_i(x) = F_i(S) + Σ_{a=0}^l B_a · e_{z_i^(a)} + residual

由于transformer的残差连接，一个从某层可解码的特征，会通过identity path传播到所有后续层，因此会在teacher average中以非零线性系数出现。

A2：相关性学习

当预测目标和可见输入特征之间的相关性超过采样噪声时，梯度下降会提取该特征。

分阶段分析（Phase-by-phase）：

Phase 0：教师初始时只有输入token的信息。学生预测Y_i(x)从S，等价于预测被mask的token。这在P ~ v·m^3时恢复第1层潜变量。
Phase 1：教师更新后，现在包含了第1层潜变量。学生预测Y_i(x)包含了一个线性成分E[e_{z_i^(1)} | S]。由于第1层已可解码，可见上下文S可以被解析为第1层符号。预测问题从"叶子到叶子"提升为"第1层到第1层"——这正是ILC中的聚类问题。样本复杂度仍然是P ~ v·m^3。
Phase l：归纳假设，每一阶段都提升一个层级，每阶段复杂度相同。

结论：

P_data2vec ~ v·m^3  （与L无关）

4.3 实验验证

论文在RHM上预训练了data2vec（在线设置，每步从语法中抽取新batch），然后冻结编码器，训练一个单层MLP probe来从最终层特征预测根标签。

结果（Figure 4-right）：

当样本轴按v·m^3重新标度时，曲线完美坍缩。根分类需要解析所有L-1个非根层级，然后识别顶层元组到根类的划分。Token-level SSL需要P ~ v·m^5（对于L=4），而data2vec只用了P ~ v·m^3——甚至比监督学习还好（监督学习需要P ~ v·m^4）。

---

5. 对AI行业的启示：Scaling Law会死吗？

5.1 当前Scaling Law的根基

当前LLM（GPT-4、Claude、Gemini）的Scaling Law基于一个观察：

> 模型性能（如loss、下游任务准确率）随计算量（C）、参数量（N）、数据量（D）幂律增长： > L(D) ~ D^(-α)，其中α ~ 0.1-0.3

这意味着：要提升性能，需要指数级增加数据。GPT-4的10万亿token不是奢侈，而是 Scaling Law的数学要求。

5.2 这篇论文的潜在冲击

如果Latent SSL真的能将样本复杂度从O(m^(L+1))降到O(m^3)，那意味着：

场景	Token-level SSL	Latent SSL	节省
L=5层语法，m=100	P ~ 10^12	P ~ 10^6	100万倍
L=10层语法，m=100	P ~ 10^22	P ~ 10^6	10^16倍
实际语言（L~10, m~1000）	P ~ 10^33	P ~ 10^9	10^24倍

（注：这些是RHM的理论计算，真实语言更复杂，但趋势相同）

论文本身的谨慎立场：

> "最近的工作表明，语言中的经验神经Scaling Law由token相关性随上下文长度幂律衰减所决定。用潜变量自监督训练的生成模型，能否单独或与token-level损失结合，系统地击败现有Scaling Law？"

> "一个有用的第一步，是在data2vec和相同架构的next-token-prediction基线之间，在变化训练集大小P时做控制对比：在小的P时两者应该显著分歧，在非常大的P时它们应该收敛到相同的潜变量表征。"

论文没有说Scaling Law已死。它说的是：

1. 在数据稀疏区（small P），Latent SSL有巨大优势 2. 在数据饱和区（large P），两种方法可能收敛到相同表征（因为足够的数据可以让token-level模型也学到深层结构） 3. 关键问题：如何设计"Latent-supervised generative models"来打破当前Scaling Law？

5.3 工业界的已有探索

论文引用了几个正在探索这条路线的工作：

data2vec（Meta, 2022）：已经证明潜变量预测有效
JEPA（Joint Embedding Predictive Architecture）（LeCun, 2022）：I-JEPA、V-JEPA，预测潜变量而非token
data2vec 2.0/3.0（Meta, 2023-2024）：效率更高的版本
H-JEPA（Hierarchical JEPA）（LeCun, 2024）：显式堆叠多层JEPA
Next Concept Prediction（Liu et al., 2026）：在离散潜空间预测"下一个概念"而非token
LLM pretraining with continuous concepts（Tack et al., 2025）：用连续概念替代token预测

论文对H-JEPA的暗示：

> "这表明显式堆叠（如H-JEPA）在很大程度上是冗余的。"

如果data2vec这样的单尺度网络可以隐式地执行层次化潜变量预测，那可能不需要显式设计多层架构。

---

6. 局限性与未解问题

6.1 RHM的简化性

RHM是一个高度简化的模型：

固定树结构（真实语言是动态的、有歧义的）
无噪声（真实数据充满例外、噪声、多义性）
有限词汇表（真实语言有无限的新造词、专有名词）
完美语法（真实语言有大量语法例外、方言变化）

论文承认：RHM捕获了自然语言和图像的组合结构，但真实世界的复杂性远超RHM。

6.2 从"学习层次结构"到"生成"

论文关注的是表征学习（representation learning）——发现数据的层次结构。但LLM的核心任务不是"发现结构"，而是生成（generation）——预测下一个token。

Latent SSL在生成任务上的表现如何？论文没有直接回答。如果模型只预测潜变量，它如何生成人类可读的文本？

可能的答案：

在潜变量空间做自回归，然后解码到token空间（类似VAE的decoder）
结合Latent SSL和Token-level损失（多任务学习）
用扩散模型在潜空间生成

6.3 生物学习的真正差距

论文开头提到LLM需要比人类多5个数量级的数据。但即使Latent SSL能缩小这个差距，可能仍然不够：

人类学习是多模态的：视觉、听觉、触觉、 proprioception同时输入
人类学习是交互式的：行动-反馈循环，不是被动观察
人类学习有先验结构：进化硬编码的语言习得机制、物理直觉（core knowledge）
人类学习有社会性：从他人的意图、情感和反馈中学习

Latent SSL解决了"数据效率"问题的一个方面，但不是全部。

6.4 实际部署的挑战

计算效率：Latent SSL需要维护教师网络、码本、多层模块——比简单next-token prediction更复杂
稳定性：聚类目标（contrastive objective）容易崩溃（论文通过EMA和stop-gradient解决，但仍需精细调参）
可扩展性：RHM实验中L最大到7，真实语言可能需要L>20——是否仍然有效？
评估困难：在潜变量空间评估模型质量比token-level更困难（没有perplexity这样的简单指标）

---

7. 结论：从"预测token"到"预测自己"

这篇论文的核心贡献，可以用一句话总结：

> 当模型预测自己的潜变量而非底层token时，层次化抽象的学习成本从随深度指数爆炸，降到与深度无关。

这不是一篇工程论文。它没有发布新的SOTA模型。但它做了更重要的事：

1. 它给出了一个数学理论，解释了为什么当前LLM需要那么多数据 2. 它证明了一个替代路径（Latent SSL）在理论上有指数级优势 3. 它解释了现有方法（data2vec）为什么有效——它们已经在"无意中"做这件事 4. 它指出了工业方向：设计"Latent-supervised generative models"来打破当前Scaling Law

最精彩的隐喻：

> 如果当前LLM是在学习"读唇语"（从嘴型推断声音），Latent SSL是在学习"理解语言"（从语义推断语义）。两者最终都能理解语言，但前者需要看过无数张嘴，后者只需要理解概念之间的关系。

论文的最后一句话：

> "这为我们的共同直觉——token-level预测是次优的——提供了一个坚实的定量基础。"

这不是一个"LLM已死"的宣言。这是一个"我们可能有更好的办法"的邀请。

---

参考论文： Korchinski, D., Favero, A., & Wyart, M. (2026). *Learn from your own latents and not from tokens: A sample-complexity theory*. EPFL, Simons Collaboration on the Physics of Learning and Neural Computation. arXiv:2605.27734.

相关文献：

data2vec: Baevski et al. (2022), Meta AI
JEPA: LeCun (2022), "A Path Towards Autonomous Machine Intelligence"
RHM: Cagnetta et al. (2024), Physical Review X
Predictive Coding: Friston (2010), Nature Reviews Neuroscience
Next Concept Prediction: Liu et al. (2026), arXiv:2602.08984
LLM with continuous concepts: Tack et al. (2025), arXiv:2502.08524

#ScalingLaw #数据效率 #LatentSSL #生成模型 #LLM #自监督学习 #data2vec #JEPA #层次化学习 #信号稀释 #RHM #EPFL #Wyart #AI理论

AI的数据饥渴症：为什么GPT需要万亿token，而人类幼崽只需要一亿？

1. 5个数量级的数据鸿沟

2. 信号稀释：为什么越高层越难学？

2.1 一个思想实验："电话游戏"中的信息衰减

2.2 RHM：一个可解的数学模型

2.3 三种学习目标的样本复杂度对比

3. Latent SSL：打破指数诅咒

3.1 核心洞察：同层潜变量之间的相关性更强

3.2 ILC：迭代潜变量聚类

3.3 SLC：端到端神经网络

3.4 生物学合理性：局部学习足够

4. data2vec的意外发现：主流方法已经"无意中"在做这件事

4.1 data2vec回顾

4.2 论文的理论分析：data2vec = 隐式ILC

4.3 实验验证

5. 对AI行业的启示：Scaling Law会死吗？

5.1 当前Scaling Law的根基

5.2 这篇论文的潜在冲击

5.3 工业界的已有探索

6. 局限性与未解问题

6.1 RHM的简化性

6.2 从"学习层次结构"到"生成"

6.3 生物学习的真正差距

6.4 实际部署的挑战

7. 结论：从"预测token"到"预测自己"

看完这篇，我只有一个问题：你们是不是把"理论优雅"和"实际可行"搞混了？

1. RHM太干净了，干净到不像真实世界

2. "与深度无关"不等于"免费午餐"

3. data2vec的"隐式层次化"可能是过度解读

4. "Scaling Law不会死，但可能减速"

5. 最被忽略的一点：人类的数据效率不只是"Latent SSL"

但有一说一，这篇论文有一个真正的贡献

AI的数据饥渴症：为什么GPT需要万亿token，而人类幼崽只需要一亿？

1. 5个数量级的数据鸿沟

2. 信号稀释：为什么越高层越难学？

2.1 一个思想实验："电话游戏"中的信息衰减

2.2 RHM：一个可解的数学模型

2.3 三种学习目标的样本复杂度对比

3. Latent SSL：打破指数诅咒

3.1 核心洞察：同层潜变量之间的相关性更强

3.2 ILC：迭代潜变量聚类

3.3 SLC：端到端神经网络

3.4 生物学合理性：局部学习足够

4. data2vec的意外发现：主流方法已经"无意中"在做这件事

4.1 data2vec回顾

4.2 论文的理论分析：data2vec = 隐式ILC

4.3 实验验证

5. 对AI行业的启示：Scaling Law会死吗？

5.1 当前Scaling Law的根基

5.2 这篇论文的潜在冲击

5.3 工业界的已有探索

6. 局限性与未解问题

6.1 RHM的简化性

6.2 从"学习层次结构"到"生成"

6.3 生物学习的真正差距

6.4 实际部署的挑战

7. 结论：从"预测token"到"预测自己"

看完这篇，我只有一个问题：你们是不是把"理论优雅"和"实际可行"搞混了？

1. RHM太干净了，干净到不像真实世界

2. "与深度无关"不等于"免费午餐"

3. data2vec的"隐式层次化"可能是过度解读

4. "Scaling Law不会死，但可能减速"

5. 最被忽略的一点：人类的数据效率不只是"Latent SSL"

但有一说一，这篇论文有一个真正的贡献

🌟 智谱 GLM-5 已上线