当前最前沿的LLM需要10万亿token才能"涌现"智能,而人类幼崽到5岁时只听过约1亿个词。这5个数量级的差距,不是计算量的差距,而是"学习对象"的差距。2026年5月,EPFL和Simons Collaboration的研究者发表论文,首次用数学证明:如果AI不再预测底层token,而是预测自己的潜变量(latent),样本复杂度可以从随层级深度指数爆炸的\(O(m^{L+1})\),降到与深度无关的\(O(m^3)\)。这意味着,一条可能打破当前Scaling Law的新路径,正在浮出水面。
1. 5个数量级的数据鸿沟
让我们先看一组数字:
| 学习者 | 数据量 | 掌握能力 |
|---|---|---|
| GPT-4级LLM | 10^13 ~ 10^14 token(10万亿) | 语法、推理、部分世界知识 |
| 人类幼崽(5岁) | ~\(10^8\) 词(1亿) | 语法、基本逻辑、物理直觉、社会规则 |
| 差距 | 10万倍 | — |
这个差距是 不可能用"人类大脑更复杂"来解释的。人脑约有860亿神经元,当前最大LLM(如GPT-4)的参数量级也在万亿级别。如果智能只取决于参数规模,那AI不应该需要比人类多10万倍的数据。
EPFL的Matthieu Wyart团队在这篇论文中提出了一个关键假设:问题不在于数据量,而在于AI在学什么。
当前LLM(GPT、Claude、Llama)的核心训练目标是什么?预测下一个token(next-token prediction)或 重建被mask的token(masked language modeling)。也就是说,模型在学的,是最底层的像素或文本单元。
论文的核心发现是:这种"底层预测"机制会导致信号稀释,让高层抽象概念的学习成本随层级深度指数级爆炸。
2. 信号稀释:为什么越高层越难学?
2.1 一个思想实验:"电话游戏"中的信息衰减
想象一个层级化的概念系统:
- 第0层(叶子):原始token(如单词、像素)
- 第1层:短语/局部模式
- 第2层:句子/物体部件
- 第3层:段落/物体整体
- ...
- 第L层(根):整篇文章/场景意图
当你在第L层做一个高层决策(比如"这段文字在讽刺"),这个信号要向下传播到第0层,才能变成具体的token输出。每一层传播,信号都要经过一个"多选一"的分支过程(从m个同义词中选择),这导致信号的统计强度被平均稀释。
2.2 RHM:一个可解的数学模型
论文使用了一个叫 RHM(Random Hierarchy Model,随机层次模型) 的概率上下文无关文法来严格量化这个效应。
RHM的参数:
- L:树的深度(层级数)
- s:分支因子(每个节点有s个子节点)
- v:每层词汇表大小
- m:每个父节点有m条同义的产生规则(synonymous rules)
关键概念:同义词(synonyms)
在RHM中,不同子节点元组可能"共享同一个父节点"——它们是同义词。例如,["cat", "sat"]和["feline", "rested"]可能共享同一个"动物动作"父节点。
学习RHM等价于发现同义词的交换不变性:如果两个子节点元组有相同的父节点,它们应该被"交换而不影响更高层的含义"。
2.3 三种学习目标的样本复杂度对比
论文严格计算了三种不同训练目标所需的样本量(P):
| 训练目标 | 样本复杂度 | 与深度L的关系 |
|---|---|---|
| 监督学习(Supervised) | P ~ v·m^(L-l) | 指数依赖:学习第l层需要m^(L-l) |
| Token-level SSL(如MLM) | P ~ v·m^(L+1) | 指数依赖:最高层瓶颈 |
| Latent SSL(ILC/SLC/data2vec) | P ~ v·m^3 | 与L无关 |
为什么Token-level SSL是指数级?
论文的核心论证(第2节):
-
第1层学习:从原始token中识别局部同义词类,需要\(P ~ v·m^3\)样本。这是因为在局部上下文中的token-token相关性,其信号强度足以在\(O(m^3)\)样本中被检测。
-
第2层学习:要识别更高层的同义词,模型需要依赖"token与潜变量的相关性"。但预测目标仍然是 token!这意味着高层信号必须通过"从潜变量到叶子"的下降通道传播。每一层下降,都要经过一个"m选一"的平均过程,信号衰减一个m因子。
-
第l层学习:当学习第l层时(l≥1),需要通过l+2层下降通道来预测token,因此样本复杂度是P ~ v·m^(l+2)。
-
最高层瓶颈:要学到最顶层(L-1层),需要P ~ v·m^L。再加上根层的m因子,总复杂度为P ~ v·m^(L+1)。
数学公式:
Token-level SSL 样本复杂度:
P_l^{tok} ~ v·m^(l+2) (对于第l层)
P_{total}^{tok} ~ v·m^(L+1) (整体瓶颈)
这解释了为什么GPT-4需要10万亿token:如果真实语言有L10层抽象层级,m100(每个概念有100种表达方式),那m^(L+1) = 100^11 = 10^22,这远远超出了任何数据集。
但论文说:我们不需要那么多数据,如果模型不预测token,而是预测自己的潜变量。
3. Latent SSL:打破指数诅咒
3.1 核心洞察:同层潜变量之间的相关性更强
论文的第2节核心洞察(Figure 1):
同层潜变量之间的"距离"(树距离)决定了相关性的强度。如果预测目标Z和上下文T在同一层(或相邻层),它们的树距离是小的,信号强。如果预测目标在叶子层(token)而上下文在高层,信号必须通过整个下降树传播,被严重稀释。
关键直觉:
- 当你预测"下一个token"时,你要求模型从高层概念("这句话在讽刺")一直推断到具体的词("哦,真的吗?")。这个"下降通道"很长,每一步都有m种选择,信号被平均。
- 当你预测"同一层的潜变量"时(比如"这个短语的潜表示,与另一个同义词短语的潜表示,有多相似?"),你比较的是同一抽象层次的东西,信号不需要经过下降通道。
3.2 ILC:迭代潜变量聚类
论文提出的第一个算法是 ILC(Iterative Latent Clustering,迭代潜变量聚类)。
算法流程(Algorithm 1):
- 初始化:从最底层token开始,h^(0) = x
- 迭代(对每一层l = 0, 1, ..., L-2):
-
从当前层l的token构建所有s-元组(s-tuples)
-
对每个语法元组ν,计算其经验上下文向量(empirical context vector):
φ̂_l(ν) = (1/N(ν)) · Σ_p e_{Z^(p)} · 1{T^(p)_l = ν} -
这里的Z是"堂兄弟元组"(cousin tuple)中的一个元素——即与当前元组共享同一个l+2层祖父节点的另一个元组
-
关键性质:同义词(共享父节点的元组)有相同的上下文向量
-
对这些上下文向量进行聚类(k-means,k=v),将v·m个元组分到v个父类中
-
聚类结果定义下一层潜变量:h^(l+1) = 聚类标签
-
为什么这有效?
论文证明(Theorem 1,非正式表述):
对于一个平衡且分离的RHM语法,如果P ≥ C·[v·m·log(L·v·m/δ) + v·m^3/(1-f)·log(L·v·m/δ)],那么ILC算法可以以概率≥1-δ恢复所有非根层级h^(1), h^(2), ..., h^(L-1)。
简化后:
P_ILC ~ v·m^3 (与L无关,只有对数因子log L)
为什么与L无关?
因为一旦第l层被恢复,第l+1层的预测任务与第0层到第1层的预测任务在统计上是完全相同的。每一层都是"从当前层到下一层的局部聚类",复杂度不累积。
这和Token-level SSL形成鲜明对比:在Token-level SSL中,学习第l层需要通过l+2层下降通道,所以复杂度随l线性增长,最终达到L+1。
3.3 SLC:端到端神经网络
ILC是算法层面的。论文进一步问了:一个端到端训练的神经网络,能否实现同样的复杂度?
答案是可以,通过**SLC(Stacked Latent Clustering,堆叠潜变量聚类)**网络。
架构(Figure 2):
- L-1个相同的模块,每个模块对应一个潜变量层级
- 每个模块有两个子网络:
- p(Predictor):输入一个s-元组,输出对"堂兄弟token"的预测分布(交叉熵训练)
- C(Clusterer):将预测向量映射到离散码本(codebook),通过对比目标:相似预测向量拉向同一个码,不相似的推远
- 第l层的聚类输出h^(l+1)成为第l+1模块的输入token
关键设计:
- 教师网络(Teacher)使用EMA(指数移动平均)跟踪学生网络权重,防止表征崩溃(representation collapse)
- 每个模块的预测难度在所有层是恒定的,因为输入和输出在同一抽象层次
实验结果(Figure 3-right):
对于L=4, s=3, v=10,当样本轴按v·m^3重新标度时,不同m的曲线完美坍缩(collapse)。这证明了SLC确实达到了O(m^3)的样本复杂度,与深度L无关。
更惊人的结果(Figure 12):
对于L ∈ {3, 4, 5, 6, 7},样本复杂度不随L变化。
3.4 生物学合理性:局部学习足够
论文还做了另一个有趣的消融实验(Figure 9):
- 在模块之间插入stop-gradient(层间不反向传播)
- 甚至去掉EMA教师网络
- 甚至在预测器和聚类器之间插入stop-gradient
结果:SLC仍然可以在纯粹的局部学习规则下学习,达到同样的v·m^3复杂度。
这暗示:大脑可能不需要端到端反向传播。每个皮层区域可以独立学习局部预测-聚类,然后传递到下一层。
4. data2vec的意外发现:主流方法已经"无意中"在做这件事
论文的第三部分(第5节)是最具工业价值的:它证明了data2vec——一个已经在实际中使用的SSL方法——隐式地执行了层次化潜变量预测。
4.1 data2vec回顾
data2vec(Baevski et al., 2022)是Meta提出的自监督方法:
- 学生网络看到部分mask的输入S
- 教师网络看到完整输入x
- 学生在每个mask位置i,被训练去预测教师网络的平均最后K层激活:Y_i(x) = avg(last K blocks of teacher)
- 教师权重通过EMA跟踪学生:W_teacher ← (1-α)·W_teacher + α·W_student
4.2 论文的理论分析:data2vec = 隐式ILC
论文提出了两个关键假设(A1和A2):
A1:目标携带已学习的潜变量
如果编码器已经线性表示了h^(1), ..., h^(l),那么教师目标Y_i(x)包含这些潜变量的线性成分:
Y_i(x) = F_i(S) + Σ_{a=0}^l B_a · e_{z_i^(a)} + residual
由于transformer的残差连接,一个从某层可解码的特征,会通过identity path传播到所有后续层,因此会在teacher average中以非零线性系数出现。
A2:相关性学习
当预测目标和可见输入特征之间的相关性超过采样噪声时,梯度下降会提取该特征。
分阶段分析(Phase-by-phase):
-
Phase 0:教师初始时只有输入token的信息。学生预测Y_i(x)从S,等价于预测被mask的token。这在P ~ v·m^3时恢复第1层潜变量。
-
Phase 1:教师更新后,现在包含了第1层潜变量。学生预测Y_i(x)包含了一个线性成分E[e_{z_i^(1)} | S]。由于第1层已可解码,可见上下文S可以被解析为第1层符号。预测问题从"叶子到叶子"提升为"第1层到第1层"——这正是ILC中的聚类问题。样本复杂度仍然是P ~ v·m^3。
-
Phase l:归纳假设,每一阶段都提升一个层级,每阶段复杂度相同。
结论:
P_data2vec ~ v·m^3 (与L无关)
4.3 实验验证
论文在RHM上预训练了data2vec(在线设置,每步从语法中抽取新batch),然后冻结编码器,训练一个单层MLP probe来从最终层特征预测根标签。
结果(Figure 4-right):
当样本轴按v·m^3重新标度时,曲线完美坍缩。根分类需要解析所有L-1个非根层级,然后识别顶层元组到根类的划分。Token-level SSL需要P ~ v·m^5(对于L=4),而data2vec只用了P ~ v·m^3——甚至比监督学习还好(监督学习需要P ~ v·m^4)。
5. 对AI行业的启示:Scaling Law会死吗?
5.1 当前Scaling Law的根基
当前LLM(GPT-4、Claude、Gemini)的Scaling Law基于一个观察:
模型性能(如loss、下游任务准确率)随计算量(C)、参数量(N)、数据量(D)幂律增长:
L(D) ~ D^(-α),其中α ~ 0.1-0.3
这意味着:要提升性能,需要指数级增加数据。GPT-4的10万亿token不是奢侈,而是** Scaling Law的数学要求**。
5.2 这篇论文的潜在冲击
如果Latent SSL真的能将样本复杂度从O(m^(L+1))降到O(m^3),那意味着:
| 场景 | Token-level SSL | Latent SSL | 节省 |
|---|---|---|---|
| L=5层语法,m=100 | P ~ 10^12 | P ~ 10^6 | 100万倍 |
| L=10层语法,m=100 | P ~ 10^22 | P ~ 10^6 | 10^16倍 |
| 实际语言(L |
P ~ 10^33 | P ~ 10^9 | 10^24倍 |
(注:这些是RHM的理论计算,真实语言更复杂,但趋势相同)
论文本身的谨慎立场:
"最近的工作表明,语言中的经验神经Scaling Law由token相关性随上下文长度幂律衰减所决定。用潜变量自监督训练的生成模型,能否单独或与token-level损失结合,系统地击败现有Scaling Law?"
"一个有用的第一步,是在data2vec和相同架构的next-token-prediction基线之间,在变化训练集大小P时做控制对比:在小的P时两者应该显著分歧,在非常大的P时它们应该收敛到相同的潜变量表征。"
论文没有说Scaling Law已死。它说的是:
- 在数据稀疏区(small P),Latent SSL有巨大优势
- 在数据饱和区(large P),两种方法可能收敛到相同表征(因为足够的数据可以让token-level模型也学到深层结构)
- 关键问题:如何设计"Latent-supervised generative models"来打破当前Scaling Law?
5.3 工业界的已有探索
论文引用了几个正在探索这条路线的工作:
- data2vec(Meta, 2022):已经证明潜变量预测有效
- JEPA(Joint Embedding Predictive Architecture)(LeCun, 2022):I-JEPA、V-JEPA,预测潜变量而非token
- data2vec 2.0/3.0(Meta, 2023-2024):效率更高的版本
- H-JEPA(Hierarchical JEPA)(LeCun, 2024):显式堆叠多层JEPA
- Next Concept Prediction(Liu et al., 2026):在离散潜空间预测"下一个概念"而非token
- LLM pretraining with continuous concepts(Tack et al., 2025):用连续概念替代token预测
论文对H-JEPA的暗示:
"这表明显式堆叠(如H-JEPA)在很大程度上是冗余的。"
如果data2vec这样的单尺度网络可以隐式地执行层次化潜变量预测,那可能不需要显式设计多层架构。
6. 局限性与未解问题
6.1 RHM的简化性
RHM是一个高度简化的模型:
- 固定树结构(真实语言是动态的、有歧义的)
- 无噪声(真实数据充满例外、噪声、多义性)
- 有限词汇表(真实语言有无限的新造词、专有名词)
- 完美语法(真实语言有大量语法例外、方言变化)
论文承认:RHM捕获了自然语言和图像的组合结构,但真实世界的复杂性远超RHM。
6.2 从"学习层次结构"到"生成"
论文关注的是表征学习(representation learning)——发现数据的层次结构。但LLM的核心任务不是"发现结构",而是生成(generation)——预测下一个token。
Latent SSL在生成任务上的表现如何?论文没有直接回答。如果模型只预测潜变量,它如何生成人类可读的文本?
可能的答案:
- 在潜变量空间做自回归,然后解码到token空间(类似VAE的decoder)
- 结合Latent SSL和Token-level损失(多任务学习)
- 用扩散模型在潜空间生成
6.3 生物学习的真正差距
论文开头提到LLM需要比人类多5个数量级的数据。但即使Latent SSL能缩小这个差距,可能仍然不够:
- 人类学习是多模态的:视觉、听觉、触觉、 proprioception同时输入
- 人类学习是交互式的:行动-反馈循环,不是被动观察
- 人类学习有先验结构:进化硬编码的语言习得机制、物理直觉(core knowledge)
- 人类学习有社会性:从他人的意图、情感和反馈中学习
Latent SSL解决了"数据效率"问题的一个方面,但不是全部。
6.4 实际部署的挑战
- 计算效率:Latent SSL需要维护教师网络、码本、多层模块——比简单next-token prediction更复杂
- 稳定性:聚类目标(contrastive objective)容易崩溃(论文通过EMA和stop-gradient解决,但仍需精细调参)
- 可扩展性:RHM实验中L最大到7,真实语言可能需要L>20——是否仍然有效?
- 评估困难:在潜变量空间评估模型质量比token-level更困难(没有perplexity这样的简单指标)
7. 结论:从"预测token"到"预测自己"
这篇论文的核心贡献,可以用一句话总结:
当模型预测自己的潜变量而非底层token时,层次化抽象的学习成本从随深度指数爆炸,降到与深度无关。
这不是一篇工程论文。它没有发布新的SOTA模型。但它做了更重要的事:
- 它给出了一个数学理论,解释了为什么当前LLM需要那么多数据
- 它证明了一个替代路径(Latent SSL)在理论上有指数级优势
- 它解释了现有方法(data2vec)为什么有效——它们已经在"无意中"做这件事
- 它指出了工业方向:设计"Latent-supervised generative models"来打破当前Scaling Law
最精彩的隐喻:
如果当前LLM是在学习"读唇语"(从嘴型推断声音),Latent SSL是在学习"理解语言"(从语义推断语义)。两者最终都能理解语言,但前者需要看过无数张嘴,后者只需要理解概念之间的关系。
论文的最后一句话:
"这为我们的共同直觉——token-level预测是次优的——提供了一个坚实的定量基础。"
这不是一个"LLM已死"的宣言。这是一个"我们可能有更好的办法"的邀请。
参考论文:
Korchinski, D., Favero, A., & Wyart, M. (2026). Learn from your own latents and not from tokens: A sample-complexity theory. EPFL, Simons Collaboration on the Physics of Learning and Neural Computation. arXiv:2605.27734.
相关文献:
- data2vec: Baevski et al. (2022), Meta AI
- JEPA: LeCun (2022), "A Path Towards Autonomous Machine Intelligence"
- RHM: Cagnetta et al. (2024), Physical Review X
- Predictive Coding: Friston (2010), Nature Reviews Neuroscience
- Next Concept Prediction: Liu et al. (2026), arXiv:2602.08984
- LLM with continuous concepts: Tack et al. (2025), arXiv:2502.08524
#ScalingLaw #数据效率 #LatentSSL #生成模型 #LLM #自监督学习 #data2vec #JEPA #层次化学习 #信号稀释 #RHM #EPFL #Wyart #AI理论
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。