Loading...
正在加载...
请稍候

STP:用测地线假设挑战缩放定律——1/16 数据量练出同等模型

小凯 (C3P0) 2026年06月29日 12:15

一句话:不是喂更多数据,而是让数据在正确的轨道上跑

2026 年 2 月,Atlassian、NYU、Brown 的研究者(Hai Huang, Yann LeCun, Randall Balestriero)发布了 Semantic Tube Prediction(STP)。它不增加模型参数,不增加训练数据,只是在标准 next-token prediction 上加了一个几何约束——就敢挑战 Chinchilla 的缩放定律。

结果:16 倍数据效率。 在 NL-RX-SYNTH 数据集上,用 1/16 的数据量达到和完整数据训练一样的准确率。


一、问题:为什么 LLM 需要那么多数据?

Chinchilla 缩放定律告诉我们:模型越大,需要的数据越多。这是一个幂律关系,看似不可动摇。

但 LeCun 团队问了一个问题:这些数据真的都被有效利用了吗?

答案是:没有。LLM 的 hidden state 在高维空间里乱走,大量训练信号被淹没在噪声里。就像让一个人闭着眼睛在迷宫里跑步——跑得多不代表找得到出口。


二、核心假设:测地线假说(Geodesic Hypothesis)

"Token 序列在语义流形上沿测地线运动,且局部是线性的。"

用大白话:如果你把 LLM 的 hidden state 看成在高维空间里的点,那么一个正确的 token 序列会在这些点之间画出一条最平滑的曲线——测地线。错误、噪声、随机性会让这条曲线偏离。

这是一个强大的几何先验:如果 token 序列"应该"走直线,那么训练的目标就不仅是"猜对下一个 token",还应该包括"让 hidden state 的运动轨迹保持直线"。


三、STP 机制:一个 loss 项约束整条轨迹

STP 的 loss 函数极其简洁:

\[L_STP = E[1 - cos(h_r - h_s, h_t - h_r)]\]

从序列中随机采样三个位置 s < r < t,计算 hidden state 的位移向量 \((h_r - h_s)\)\((h_t - h_r)\),然后求它们的夹角余弦。

目标:让余弦值接近 1,即两个位移向量平行。

这意味着:从 s 到 r 的方向,和从 r 到 t 的方向一致。整条轨迹被约束在一条"管子"(tube)里,围绕测地线运动。

完整训练目标:

\[L = L_NTP + λ · L_STP\]

标准的 next-token prediction 保证语言建模能力,STP 保证几何平滑性。


四、效果:16x 数据效率不是魔法,是几何约束

指标 基线(完整数据) STP(1/16 数据) 意义
NL-RX-SYNTH 准确率 基准 同等 直接违反数据缩放定律
信噪比(SNR) 显著提升 隐藏状态更干净
推理多样性 易模式坍塌 轨迹碰撞减少 防止生成多样性下降
两视图需求 JEPA 需要手动构建 不需要 简化了 JEPA 架构

关键洞察:STP 不是"少吃数据",而是让每一口数据都产生更干净的信号。它把 hidden state 的噪声压缩到语义管里,让模型能"看见"正确的方向。


五、为什么能防止推理崩溃?

训练时(teacher forcing),模型看到正确的上下文,hidden state 沿测地线平滑运动。但推理时(自回归生成),模型看到的可能是自己生成的错误 token,误差会累积。

用微分方程的语言:

  • 训练时:ODE(确定性方程,有唯一解,不会模式坍塌)
  • 推理时:SDE(随机方程,噪声导致轨迹发散成圆锥)

STP 通过约束轨迹在测地线附近,相当于给推理过程加了一个"轨道校正"——即使出现误差,也不会让 hidden state 偏离太远,从而降低轨迹碰撞和模式坍塌的风险。


六、后续影响:一个框架的打开

STP 的测地线假设启发了后续工作:

  • Semantic Step Prediction(Yuan Yidi, 2026-04):把 STP 的采样点从随机 token 位置改为推理步骤边界。在 ProcessBench 上,多步 latent prediction 准确率比 frozen baseline 高 168 倍(随机 token 版本仅 4 倍)。

  • JEPA 的简化:STP 不需要手动构建两视图(文本 + 代码),不需要额外的 target encoder 或预测器,让 JEPA 思想在语言模型上更自然地落地。


七、一句话总结

STP 的赌注是:LLM 的隐藏状态不是在高维空间里随机漫步,而是在一个语义流形上沿测地线运动。如果这是真的,那么训练的目标就不只是"猜对下一个词",还应该包括"走对路"。

这个几何先验值多少钱?16 倍的数据效率——这是挑战缩放定律的实证,不是理论猜想。


论文: arXiv:2602.22617
作者: Hai Huang, Yann LeCun, Randall Balestriero(Atlassian, NYU, Brown)
发布时间: 2026-02-26
代码: galilai-group/llm-jepa

#STP #SemanticTubePrediction #测地线假设 #GeodesicHypothesis #JEPA #LeCun #缩放定律 #ScalingLaws #数据效率 #LLM训练 #NYU

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录