Loading...
正在加载...
请稍候

悬崖 token:当大模型自信地迈入错误的那一步

✨步子哥 (steper) 2026年06月25日 22:10

一个让人困惑的现象

你给同一个大模型同一道数学题,跑十次。六次对,四次错。模型没变,题目没变,prompt 没变——为什么有的对有的错?

这不是个例。Qwen3-8B 在 GSM1K 上的 pass@1 大概 60% 出头,但 pass@64 几乎是 100%。这意味着:这道题模型有能力做对,但在单次尝试中经常做错。能力不是问题,"运气"才是。

那这个运气到底丢在哪里?

过去的研究要么看"步骤级"——哪一步开始错了;要么看"事后"——成功概率已经归零的那个 token。但没人回答一个更尖锐的问题:到底是哪一个 token,把模型从"还能救"推向"救不回"?

首尔大学的 Jaeyong Ko 和 Pilsung Kang,加上波士顿大学的 Yukyung Lee,在 2026 年 6 月的论文《Cliff Tokens: Identifying Single-Token Failure Triggers in LLM Mathematical Reasoning》里,给这个 token 起了个名字——悬崖 token(cliff token)

什么是悬崖 token

想象你走在一条山脊上。山脊宽阔,左右都有路。但有一个位置,地面突然塌陷——你一脚踩空,掉下悬崖。

悬崖 token 就是那个踩空的位置。

论文的定义是这样的:在一条推理链的每个 token 位置 \(t\),定义一个token-wise potential(token 级潜力)——从这个位置出发,跑 64 次续写,有多少次能到达正确答案。这个潜力值就是"还能到达正确答案的概率"。

悬崖 token 是这样一个位置:潜力值在这里发生了统计显著的骤降。前一个 token 还能救,这一个 token 就救不回了。

为什么不用固定阈值

最直觉的做法是:潜力下降超过 0.2 就算悬崖。但论文没这么做。

原因很微妙。token-wise potential 是用 64 次 rollout 估计的,本身有方差。在潜力接近 0 或 1 的地方,方差小;在潜力 0.5 附近,方差大——就像抛 64 次硬币,正面比例的标准差在 p=0.5 时最大。

如果用固定阈值 0.2,在潜力 0.5 附近会把"采样噪声"误判为"悬崖"。论文用了一个自适应阈值

\[\Delta_t > 0.1 + 1.645 \cdot \text{SE}_t\]

其中 \(\text{SE}_t\) 是两个比例差的标准误差,1.645 是 95% 置信水平的 z 值。这个阈值在潜力极端值处约 0.18,在中间区域升到约 0.24——在噪声大的地方提高门槛,在噪声小的地方降低门槛

这个细节看似技术性,但背后是个重要的方法论原则:区分"真的塌了"和"看起来塌了其实是测量噪声"。很多关于 LLM 失败的分析倒在了这一步。

删掉一个 token,救回整条推理链

论文做了一个极简而极有说服力的实验。

找一条错误的推理链,定位第一个悬崖 token \(c_{t^*}\)。然后做两组对照:

  • Cliff-del:从悬崖 token 前面重新采样(删掉悬崖 token)
  • Cliff-keep:从悬崖 token 后面重新采样(保留悬崖 token)

结果:

指标 Cliff-del Cliff-keep
pass@64 1.00 0.71–1.00

删掉那一个 token,64 次采样里必定能找到正确答案;保留那一个 token,即使采样 64 次,也救不回 30% 的案例。

一个 token 决定生死。

这不是相关性,是因果性。悬崖 token 不是"失败发生了所以这里潜力低",而是"这里潜力低所以失败发生了"。

三种掉下悬崖的方式

论文最漂亮的部分来了。不是所有悬崖 token 都一样——作者用 token 熵(entropy)和是否贪婪采样(greedy)两个维度,把悬崖分成了三类。

1. 确定性悬崖(Deterministic cliff)

贪婪 token,熵极低(\(H < 0.0561\) nats,对应贪婪概率 \(p_1 > 0.99\))。

模型对这个 token 几乎绝对确定。它不是犹豫了一下选错,而是自信地选了错。cliff probability mass(悬崖位置上分配给悬崖 token 的总概率)接近 1.0。

类比:一个人走在山脊上,目视前方,步伐坚定——然后坚定地走下了悬崖。没有犹豫,没有滑倒,他真心认为那就是路。

2. 不确定悬崖(Uncertain cliff)

贪婪 token,但熵高(\(H \geq 0.0561\))。

模型选了悬崖 token,但其实心里没底。cliff probability mass 平均 0.68,分布很宽(四分位距 0.44–0.95)——模型倾向于悬崖 token,但其他 token 也有不小的概率。

类比:走到岔路口,犹豫了一下,最终还是选了那条错路。犹豫说明知道有风险,但选择说明倾向还是错了。

3. 采样偏移悬崖(Sampled-off cliff)

非贪婪 token,熵高。

模型本来最可能选的不是悬崖 token,但采样时偏偏抽中了。cliff probability mass 平均只有 0.32——悬崖 token 本来是个低概率候选,是随机性把它推了上去。

类比:走在山脊上,本来不会掉下去,但脚下一颗碎石滑了,人就下去了。不是路选错了,是脚没踩稳。

三类悬崖的概率质量分布

论文 Figure 4 给出了三类悬崖的 cliff probability mass 分布:

  • 确定性悬崖:集中在 1.0 附近(模型几乎把所有概率都给了悬崖 token)
  • 不确定悬崖:均值 0.68,分布很宽(倾向明显但非绝对)
  • 采样偏移悬崖:均值 0.32(悬崖 token 是低概率候选被采中)

三类分布清晰分离,说明这个分类不是人为切分,而是数据本身就有三个簇

跨尺度迁移:小模型和大模型掉下同一个悬崖

这是论文最让人后背发凉的部分。

作者做了一个跨尺度实验:用 Qwen3-8B 找到的悬崖 token 位置,去看 Qwen3-0.6B 在同一位置的行为,反之亦然。

结果:

  • 确定性悬崖:尺度不变。Qwen3-8B 找到的 46 个确定性悬崖位置里,44 个 Qwen3-0.6B 也采样了完全相同的悬崖 token。反过来,Qwen3-0.6B 的 37 个确定性悬崖,Qwen3-8B 全部复现。0.6B 和 8B 在同一个位置,自信地选了同一个错答案。
  • 不确定悬崖:模型特异性。跨模型迁移时,cliff probability mass 普遍下降约 0.13——大模型的"犹豫点"和小模型的"犹豫点"不在同一位置。
  • 采样偏移悬崖:尺度不对称。8B 的采样偏移悬崖,在 0.6B 那里往往是高概率悬崖——小模型更容易把那些 token 当成确定选择

确定性悬崖的尺度不变性意味着什么?

这意味着失败不是模型规模的偶然,是模型家族的宿命。 Qwen3 系列(无论 0.6B 还是 8B)在某些数学推理位置,共享同一个"自信的错误"。这个错误可能来自预训练数据中的共同模式,可能来自架构本身的归纳偏置,但绝不是靠后训练能轻易抹掉的。

Cliff-DPO:在悬崖上训练

如果悬崖 token 是失败的触发点,那能不能专门在悬崖位置上做偏好优化,教模型别走那一步?

作者提出了 Cliff-DPO。思路很直接:

  1. 在 GSM8K 训练集上找到 2,926 个悬崖位置
  2. 在每个悬崖位置,取 top-10 候选 token,跑 64 次 rollout 估计每个候选的潜力
  3. 把非悬崖候选(chosen)和悬崖 token(rejected)配对,构造 19,227 个偏好对
  4. 用 DPO loss 训练,但只在悬崖位置计算 loss——其他 token 不动

结果(Qwen3-0.6B):

方法 GSM1K MATH500 AIME 2025 更新 token 数
基线 57.0 51.6 3.5
DPO(全序列) 56.5 51.0 2.2 2,862,845
cDPO(全序列) 61.3 54.9 4.8 5,829,052
Cliff-DPO(确定性) 57.0 51.5 2.9 5,538
Cliff-DPO(不确定) 62.9 53.3 3.8 18,122
Cliff-DPO(采样偏移) 62.5 52.6 3.5 14,794
Cliff-DPO(不确定+采样偏移) 63.6 56.0 4.9 32,916

几个关键观察:

1. 不确定+采样偏移组合效果最好,在 GSM1K 上 +6.6,MATH500 上 +4.4,AIME 2025 上 +1.4。和 cDPO 持平甚至略胜。

2. 确定性悬崖训练没用。在 GSM8K 上有一点点 in-domain 提升,出域完全没动。这和跨尺度实验的发现一致——确定性悬崖是预训练偏置,DPO 这种后训练方法动不了它。

3. 效率惊人。Cliff-DPO(不确定+采样偏移)只更新了 32,916 个 token 位置,cDPO 更新了 5,829,052 个——少 177 倍,效果一样好。

这意味着什么?大部分 DPO 训练 token 是浪费的。真正影响推理成败的,就是那几个悬崖位置。把训练信号集中在那里,比在全序列上铺开有效得多。

工程洞察

1. 单 token 监督是可行的

过去做偏好优化,都是序列级——整条推理链作为 chosen/rejected 对。Cliff-DPO 证明:只在一个 token 位置上做偏好优化,就能改善推理。这打开了 token 级监督的大门。

2. 失败分类指导训练策略

三类悬崖对应三种工程策略:

  • 采样偏移悬崖:调温度、top-p 就能缓解,本质是采样噪声
  • 不确定悬崖:DPO/RLHF 可救,模型有知识但倾向错了
  • 确定性悬崖:DPO 救不了,得回到预训练数据或架构层面

先分类,再治疗。 笼统的"推理能力提升"不如针对性的"哪类失败用哪个工具"。

3. 自适应阈值避免假阳性

固定阈值在潜力中间区域会大量误判。任何做 token 级分析的工作——不只是悬崖 token——都应该考虑用统计检验代替硬阈值。这个方法论可以迁移到激活分析、注意力分析、logit 分析等各种场景。

4. 跨尺度诊断家族级偏置

如果你发现 0.6B 和 8B 在同一位置犯同样的错,那不是规模问题,是家族问题。这给模型选择提供了一个诊断工具:在确定性悬崖比例高的任务上,换更大的模型没用——你得换家族。

5. 4047 A100-hours 的账单

论文提到,token-wise potential 估计消耗了 4,047 个 A100-80GB GPU 小时。这是 token 级分析的代价——每个 token 跑 64 次 rollout,一条推理链几百个 token,乘以 230 道题乘以 7 个模型。

这个成本意味着:悬崖 token 分析目前还只能离线做,不能塞进推理 loop。但 Cliff-DPO 训练好的模型可以在线部署——训练是一次性成本。

一个更深的疑问

论文在 Discussion 里留了一个钩子:

"Deterministic cliffs may reflect pretraining priors or shared architectural inductive biases."

确定性悬崖可能反映预训练先验或共享的架构归纳偏置。

这是论文最克制、也最值得追的一句话。如果确定性悬崖真的是预训练偏置,那意味着:

  1. 某些数学错误是"设计出来的",不是随机出现的。模型在预训练阶段就学到了某种错误的关联模式,而且这个模式在家族内共享。
  2. 规模不会修复它。0.6B 和 8B 共享同一个错误,14B、72B 大概率也共享。
  3. DPO 修不了它。论文已经验证了。可能需要回到预训练数据,找到那些让模型学到"7 是 1092 的因子"这种错误关联的语料。

这让人想到 Anthropic 在 Transformer Circuits 上的工作——某些行为是架构内禀的,不是后训练能塑造的。确定性悬崖可能是这个方向在数学推理上的对应物。

限制与边界

论文很诚实地划了边界:

  • 只分析"有潜力但丢失"的案例。如果一道题模型完全不会(token-wise potential 从一开始就接近 0),不会出现悬崖 token。在 AIME 2025 上,60 条 Llama-3.1-8B/1B 的错误推理链里,53 条从一开始潜力就是 0——这些不是悬崖问题,是能力问题。
  • 只测了数学推理。代码生成、多步规划、工具使用里的悬崖 token 是什么样,论文没碰。
  • N=64 是个权衡。更多 rollout 能减少方差,但 GPU 预算不允许。自适应阈值部分补偿了这个限制。

我的思考

这篇论文让我想到一个更广的图景。

我们说大模型"会推理",其实是在说:在 pass@k 的意义上,模型有到达正确答案的潜力。但"有潜力"和"能稳定到达"是两件事。中间隔着无数个悬崖 token。

每一个悬崖 token,都是模型在"知道"和"做到"之间的一次失足。

而三类悬崖的划分,本质上是在说:失足有三种原因——你太自信了(确定性)、你犹豫但还是选错了(不确定)、你被随机性绊倒了(采样偏移)。这三种原因需要三种不同的修复策略。

最让人不安的是确定性悬崖的尺度不变性。0.6B 和 8B 在同一个位置、自信地选同一个错答案——这不是"小模型笨",是"这个家族在这个位置就是会错"。规模不是万能药。

Cliff-DPO 的 177× 效率提升则指向另一个方向:也许我们一直在用错误粒度训练模型。序列级 DPO 把信号稀释在几百个 token 上,真正起作用的可能就那几个位置。把信号集中到关键位置,效果不降反升。

这和"稀疏激活"、"关键 token"、"重要注意力头"等一系列发现指向同一个直觉:大模型的有效计算是高度稀疏的。大部分 token、大部分参数、大部分梯度更新,对最终行为的影响远小于我们的直觉。

悬崖 token 是这个稀疏性故事在推理失败侧的一个具体例子。它告诉我们:失败也是有结构的,而且结构比我们以为的清晰得多。

论文与代码

#LLM #推理失败 #机制可解释性 #DPO #悬崖token

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录