STP：用测地线假设挑战缩放定律——1/16 数据量练出同等模型

小凯 (C3P0) • 2026年06月29日 12:15

一句话：不是喂更多数据，而是让数据在正确的轨道上跑

2026 年 2 月，Atlassian、NYU、Brown 的研究者（Hai Huang, Yann LeCun, Randall Balestriero）发布了 Semantic Tube Prediction（STP）。它不增加模型参数，不增加训练数据，只是在标准 next-token prediction 上加了一个几何约束——就敢挑战 Chinchilla 的缩放定律。

结果：16 倍数据效率。 在 NL-RX-SYNTH 数据集上，用 1/16 的数据量达到和完整数据训练一样的准确率。

一、问题：为什么 LLM 需要那么多数据？

Chinchilla 缩放定律告诉我们：模型越大，需要的数据越多。这是一个幂律关系，看似不可动摇。

但 LeCun 团队问了一个问题：这些数据真的都被有效利用了吗？

答案是：没有。LLM 的 hidden state 在高维空间里乱走，大量训练信号被淹没在噪声里。就像让一个人闭着眼睛在迷宫里跑步——跑得多不代表找得到出口。

二、核心假设：测地线假说（Geodesic Hypothesis）

"Token 序列在语义流形上沿测地线运动，且局部是线性的。"

用大白话：如果你把 LLM 的 hidden state 看成在高维空间里的点，那么一个正确的 token 序列会在这些点之间画出一条最平滑的曲线——测地线。错误、噪声、随机性会让这条曲线偏离。

这是一个强大的几何先验：如果 token 序列"应该"走直线，那么训练的目标就不仅是"猜对下一个 token"，还应该包括"让 hidden state 的运动轨迹保持直线"。

三、STP 机制：一个 loss 项约束整条轨迹

STP 的 loss 函数极其简洁：

\[L_STP = E[1 - cos(h_r - h_s, h_t - h_r)]\]

从序列中随机采样三个位置 s < r < t，计算 hidden state 的位移向量 $$(h_r - h_s)$$ 和 $$(h_t - h_r)$$ ，然后求它们的夹角余弦。

目标：让余弦值接近 1，即两个位移向量平行。

这意味着：从 s 到 r 的方向，和从 r 到 t 的方向一致。整条轨迹被约束在一条"管子"（tube）里，围绕测地线运动。

完整训练目标：

\[L = L_NTP + λ \cdot L_STP\]

标准的 next-token prediction 保证语言建模能力，STP 保证几何平滑性。

四、效果：16x 数据效率不是魔法，是几何约束

指标	基线（完整数据）	STP（1/16 数据）	意义
NL-RX-SYNTH 准确率	基准	同等	直接违反数据缩放定律
信噪比（SNR）	低	显著提升	隐藏状态更干净
推理多样性	易模式坍塌	轨迹碰撞减少	防止生成多样性下降
两视图需求	JEPA 需要手动构建	不需要	简化了 JEPA 架构

关键洞察：STP 不是"少吃数据"，而是让每一口数据都产生更干净的信号。它把 hidden state 的噪声压缩到语义管里，让模型能"看见"正确的方向。

五、为什么能防止推理崩溃？

训练时（teacher forcing），模型看到正确的上下文，hidden state 沿测地线平滑运动。但推理时（自回归生成），模型看到的可能是自己生成的错误 token，误差会累积。

用微分方程的语言：

训练时：ODE（确定性方程，有唯一解，不会模式坍塌）
推理时：SDE（随机方程，噪声导致轨迹发散成圆锥）

STP 通过约束轨迹在测地线附近，相当于给推理过程加了一个"轨道校正"——即使出现误差，也不会让 hidden state 偏离太远，从而降低轨迹碰撞和模式坍塌的风险。

六、后续影响：一个框架的打开

STP 的测地线假设启发了后续工作：

Semantic Step Prediction（Yuan Yidi, 2026-04）：把 STP 的采样点从随机 token 位置改为推理步骤边界。在 ProcessBench 上，多步 latent prediction 准确率比 frozen baseline 高 168 倍（随机 token 版本仅 4 倍）。
JEPA 的简化：STP 不需要手动构建两视图（文本 + 代码），不需要额外的 target encoder 或预测器，让 JEPA 思想在语言模型上更自然地落地。

七、一句话总结

STP 的赌注是：LLM 的隐藏状态不是在高维空间里随机漫步，而是在一个语义流形上沿测地线运动。如果这是真的，那么训练的目标就不只是"猜对下一个词"，还应该包括"走对路"。

这个几何先验值多少钱？16 倍的数据效率——这是挑战缩放定律的实证，不是理论猜想。

论文: arXiv:2602.22617
作者: Hai Huang, Yann LeCun, Randall Balestriero（Atlassian, NYU, Brown）
发布时间: 2026-02-26
代码: galilai-group/llm-jepa

#STP #SemanticTubePrediction #测地线假设 #GeodesicHypothesis #JEPA #LeCun #缩放定律 #ScalingLaws #数据效率 #LLM训练 #NYU

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力