一句话:不是喂更多数据,而是让数据在正确的轨道上跑
2026 年 2 月,Atlassian、NYU、Brown 的研究者(Hai Huang, Yann LeCun, Randall Balestriero)发布了 Semantic Tube Prediction(STP)。它不增加模型参数,不增加训练数据,只是在标准 next-token prediction 上加了一个几何约束——就敢挑战 Chinchilla 的缩放定律。
结果:16 倍数据效率。 在 NL-RX-SYNTH 数据集上,用 1/16 的数据量达到和完整数据训练一样的准确率。
一、问题:为什么 LLM 需要那么多数据?
Chinchilla 缩放定律告诉我们:模型越大,需要的数据越多。这是一个幂律关系,看似不可动摇。
但 LeCun 团队问了一个问题:这些数据真的都被有效利用了吗?
答案是:没有。LLM 的 hidden state 在高维空间里乱走,大量训练信号被淹没在噪声里。就像让一个人闭着眼睛在迷宫里跑步——跑得多不代表找得到出口。
二、核心假设:测地线假说(Geodesic Hypothesis)
"Token 序列在语义流形上沿测地线运动,且局部是线性的。"
用大白话:如果你把 LLM 的 hidden state 看成在高维空间里的点,那么一个正确的 token 序列会在这些点之间画出一条最平滑的曲线——测地线。错误、噪声、随机性会让这条曲线偏离。
这是一个强大的几何先验:如果 token 序列"应该"走直线,那么训练的目标就不仅是"猜对下一个 token",还应该包括"让 hidden state 的运动轨迹保持直线"。
三、STP 机制:一个 loss 项约束整条轨迹
STP 的 loss 函数极其简洁:
从序列中随机采样三个位置 s < r < t,计算 hidden state 的位移向量 \((h_r - h_s)\) 和 \((h_t - h_r)\),然后求它们的夹角余弦。
目标:让余弦值接近 1,即两个位移向量平行。
这意味着:从 s 到 r 的方向,和从 r 到 t 的方向一致。整条轨迹被约束在一条"管子"(tube)里,围绕测地线运动。
完整训练目标:
标准的 next-token prediction 保证语言建模能力,STP 保证几何平滑性。
四、效果:16x 数据效率不是魔法,是几何约束
| 指标 | 基线(完整数据) | STP(1/16 数据) | 意义 |
|---|---|---|---|
| NL-RX-SYNTH 准确率 | 基准 | 同等 | 直接违反数据缩放定律 |
| 信噪比(SNR) | 低 | 显著提升 | 隐藏状态更干净 |
| 推理多样性 | 易模式坍塌 | 轨迹碰撞减少 | 防止生成多样性下降 |
| 两视图需求 | JEPA 需要手动构建 | 不需要 | 简化了 JEPA 架构 |
关键洞察:STP 不是"少吃数据",而是让每一口数据都产生更干净的信号。它把 hidden state 的噪声压缩到语义管里,让模型能"看见"正确的方向。
五、为什么能防止推理崩溃?
训练时(teacher forcing),模型看到正确的上下文,hidden state 沿测地线平滑运动。但推理时(自回归生成),模型看到的可能是自己生成的错误 token,误差会累积。
用微分方程的语言:
- 训练时:ODE(确定性方程,有唯一解,不会模式坍塌)
- 推理时:SDE(随机方程,噪声导致轨迹发散成圆锥)
STP 通过约束轨迹在测地线附近,相当于给推理过程加了一个"轨道校正"——即使出现误差,也不会让 hidden state 偏离太远,从而降低轨迹碰撞和模式坍塌的风险。
六、后续影响:一个框架的打开
STP 的测地线假设启发了后续工作:
-
Semantic Step Prediction(Yuan Yidi, 2026-04):把 STP 的采样点从随机 token 位置改为推理步骤边界。在 ProcessBench 上,多步 latent prediction 准确率比 frozen baseline 高 168 倍(随机 token 版本仅 4 倍)。
-
JEPA 的简化:STP 不需要手动构建两视图(文本 + 代码),不需要额外的 target encoder 或预测器,让 JEPA 思想在语言模型上更自然地落地。
七、一句话总结
STP 的赌注是:LLM 的隐藏状态不是在高维空间里随机漫步,而是在一个语义流形上沿测地线运动。如果这是真的,那么训练的目标就不只是"猜对下一个词",还应该包括"走对路"。
这个几何先验值多少钱?16 倍的数据效率——这是挑战缩放定律的实证,不是理论猜想。
论文: arXiv:2602.22617
作者: Hai Huang, Yann LeCun, Randall Balestriero(Atlassian, NYU, Brown)
发布时间: 2026-02-26
代码: galilai-group/llm-jepa
#STP #SemanticTubePrediction #测地线假设 #GeodesicHypothesis #JEPA #LeCun #缩放定律 #ScalingLaws #数据效率 #LLM训练 #NYU
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。