悬崖 token:当大模型自信地迈入错误的那一步
一个让人困惑的现象
你给同一个大模型同一道数学题,跑十次。六次对,四次错。模型没变,题目没变,prompt 没变——为什么有的对有的错?
这不是个例。Qwen3-8B 在 GSM1K 上的 pass@1 大概 60% 出头,但 pass@64 几乎是 100%。这意味着:这道题模型有能力做对,但在单次尝试中经常做错。能力不是问题,"运气"才是。
那这个运气到底丢在哪里?
过去的研究要么看"步骤级"——哪一步开始错了;要么看"事后"——成功概率已经归零的那个 token。但没人回答一个更尖锐的问题:到底是哪一个 token,把模型从"还能救"推向"救不回"?
首尔大学的 Jaeyong Ko 和 Pilsung Kang,加上波士顿大学的 Yukyung Lee,在 2026 年 6 月的论文《Cliff Tokens: Identifying Single-Token Failure Triggers in LLM Mathematical Reasoning》里,给这个 token 起了个名字——悬崖 token(cliff token)。
什么是悬崖 token
想象你走在一条山脊上。山脊宽阔,左右都有路。但有一个位置,地面突然塌陷——你一脚踩空,掉下悬崖。
悬崖 token 就是那个踩空的位置。
论文的定义是这样的:在一条推理链的每个 token 位置 $t$,定义一个token-wise potential(token 级潜力)——从这个位置出发,跑 64 次续写,有多少次能到达正确答案。这个潜力值就是"还能到达正确答案的概率"。
悬崖 token 是这样一个位置:潜力值在这里发生了统计显著的骤降。前一个 token 还能救,这一个 token 就救不回了。
为什么不用固定阈值
最直觉的做法是:潜力下降超过 0.2 就算悬崖。但论文没这么做。
原因很微妙。token-wise potential 是用 64 次 rollout 估计的,本身有方差。在潜力接近 0 或 1 的地方,方差小;在潜力 0.5 附近,方差大——就像抛 64 次硬币,正面比例的标准差在 p=0.5 时最大。
如果用固定阈值 0.2,在潜力 0.5 附近会把"采样噪声"误判为"悬崖"。论文用了一个自适应阈值:
$$\Delta_t > 0.1 + 1.645 \cdot \text{SE}_t$$
其中 $\text{SE}_t$ 是两个比例差的标准误差,1.645 是 95% 置信水平的 z 值。这个阈值在潜力极端值处约 0.18,在中间区域升到约 0.24——在噪声大的地方提高门槛,在噪声小的地方降低门槛。
这个细节看似技术性,但背后是个重要的方法论原则:区分"真的塌了"和"看起来塌了其实是测量噪声"。很多关于 LLM 失败的分析倒在了这一步。
删掉一个 token,救回整条推理链
论文做了一个极简而极有说服力的实验。
找一条错误的推理链,定位第一个悬崖 token $c_{t^*}$。然后做两组对照:
- Cliff-del:从悬崖 token 前面重新采样(删掉悬崖 token)
- Cliff-keep:从悬崖 token 后面重新采样(保留悬崖 token)
| 指标 | Cliff-del | Cliff-keep |
|---|---|---|
| pass@64 | 1.00 | 0.71–1.00 |
一个 token 决定生死。
这不是相关性,是因果性。悬崖 token 不是"失败发生了所以这里潜力低",而是"这里潜力低所以失败发生了"。
三种掉下悬崖的方式
论文最漂亮的部分来了。不是所有悬崖 token 都一样——作者用 token 熵(entropy)和是否贪婪采样(greedy)两个维度,把悬崖分成了三类。
1. 确定性悬崖(Deterministic cliff)
贪婪 token,熵极低($H < 0.0561$ nats,对应贪婪概率 $p_1 > 0.99$)。
模型对这个 token 几乎绝对确定。它不是犹豫了一下选错,而是自信地选了错。cliff probability mass(悬崖位置上分配给悬崖 token 的总概率)接近 1.0。
类比:一个人走在山脊上,目视前方,步伐坚定——然后坚定地走下了悬崖。没有犹豫,没有滑倒,他真心认为那就是路。
2. 不确定悬崖(Uncertain cliff)
贪婪 token,但熵高($H \geq 0.0561$)。
模型选了悬崖 token,但其实心里没底。cliff probability mass 平均 0.68,分布很宽(四分位距 0.44–0.95)——模型倾向于悬崖 token,但其他 token 也有不小的概率。
类比:走到岔路口,犹豫了一下,最终还是选了那条错路。犹豫说明知道有风险,但选择说明倾向还是错了。
3. 采样偏移悬崖(Sampled-off cliff)
非贪婪 token,熵高。
模型本来最可能选的不是悬崖 token,但采样时偏偏抽中了。cliff probability mass 平均只有 0.32——悬崖 token 本来是个低概率候选,是随机性把它推了上去。
类比:走在山脊上,本来不会掉下去,但脚下一颗碎石滑了,人就下去了。不是路选错了,是脚没踩稳。
三类悬崖的概率质量分布
论文 Figure 4 给出了三类悬崖的 cliff probability mass 分布:
- 确定性悬崖:集中在 1.0 附近(模型几乎把所有概率都给了悬崖 token)
- 不确定悬崖:均值 0.68,分布很宽(倾向明显但非绝对)
- 采样偏移悬崖:均值 0.32(悬崖 token 是低概率候选被采中)
跨尺度迁移:小模型和大模型掉下同一个悬崖
这是论文最让人后背发凉的部分。
作者做了一个跨尺度实验:用 Qwen3-8B 找到的悬崖 token 位置,去看 Qwen3-0.6B 在同一位置的行为,反之亦然。
结果:
- 确定性悬崖:尺度不变。Qwen3-8B 找到的 46 个确定性悬崖位置里,44 个 Qwen3-0.6B 也采样了完全相同的悬崖 token。反过来,Qwen3-0.6B 的 37 个确定性悬崖,Qwen3-8B 全部复现。0.6B 和 8B 在同一个位置,自信地选了同一个错答案。
- 不确定悬崖:模型特异性。跨模型迁移时,cliff probability mass 普遍下降约 0.13——大模型的"犹豫点"和小模型的"犹豫点"不在同一位置。
- 采样偏移悬崖:尺度不对称。8B 的采样偏移悬崖,在 0.6B 那里往往是高概率悬崖——小模型更容易把那些 token 当成确定选择。
这意味着失败不是模型规模的偶然,是模型家族的宿命。 Qwen3 系列(无论 0.6B 还是 8B)在某些数学推理位置,共享同一个"自信的错误"。这个错误可能来自预训练数据中的共同模式,可能来自架构本身的归纳偏置,但绝不是靠后训练能轻易抹掉的。
Cliff-DPO:在悬崖上训练
如果悬崖 token 是失败的触发点,那能不能专门在悬崖位置上做偏好优化,教模型别走那一步?
作者提出了 Cliff-DPO。思路很直接:
1. 在 GSM8K 训练集上找到 2,926 个悬崖位置 2. 在每个悬崖位置,取 top-10 候选 token,跑 64 次 rollout 估计每个候选的潜力 3. 把非悬崖候选(chosen)和悬崖 token(rejected)配对,构造 19,227 个偏好对 4. 用 DPO loss 训练,但只在悬崖位置计算 loss——其他 token 不动
结果(Qwen3-0.6B):
| 方法 | GSM1K | MATH500 | AIME 2025 | 更新 token 数 |
|---|---|---|---|---|
| 基线 | 57.0 | 51.6 | 3.5 | — |
| DPO(全序列) | 56.5 | 51.0 | 2.2 | 2,862,845 |
| cDPO(全序列) | 61.3 | 54.9 | 4.8 | 5,829,052 |
| Cliff-DPO(确定性) | 57.0 | 51.5 | 2.9 | 5,538 |
| Cliff-DPO(不确定) | 62.9 | 53.3 | 3.8 | 18,122 |
| Cliff-DPO(采样偏移) | 62.5 | 52.6 | 3.5 | 14,794 |
| Cliff-DPO(不确定+采样偏移) | 63.6 | 56.0 | 4.9 | 32,916 |
1. 不确定+采样偏移组合效果最好,在 GSM1K 上 +6.6,MATH500 上 +4.4,AIME 2025 上 +1.4。和 cDPO 持平甚至略胜。
2. 确定性悬崖训练没用。在 GSM8K 上有一点点 in-domain 提升,出域完全没动。这和跨尺度实验的发现一致——确定性悬崖是预训练偏置,DPO 这种后训练方法动不了它。
3. 效率惊人。Cliff-DPO(不确定+采样偏移)只更新了 32,916 个 token 位置,cDPO 更新了 5,829,052 个——少 177 倍,效果一样好。
这意味着什么?大部分 DPO 训练 token 是浪费的。真正影响推理成败的,就是那几个悬崖位置。把训练信号集中在那里,比在全序列上铺开有效得多。
工程洞察
1. 单 token 监督是可行的
过去做偏好优化,都是序列级——整条推理链作为 chosen/rejected 对。Cliff-DPO 证明:只在一个 token 位置上做偏好优化,就能改善推理。这打开了 token 级监督的大门。
2. 失败分类指导训练策略
三类悬崖对应三种工程策略:
- 采样偏移悬崖:调温度、top-p 就能缓解,本质是采样噪声
- 不确定悬崖:DPO/RLHF 可救,模型有知识但倾向错了
- 确定性悬崖:DPO 救不了,得回到预训练数据或架构层面
3. 自适应阈值避免假阳性
固定阈值在潜力中间区域会大量误判。任何做 token 级分析的工作——不只是悬崖 token——都应该考虑用统计检验代替硬阈值。这个方法论可以迁移到激活分析、注意力分析、logit 分析等各种场景。
4. 跨尺度诊断家族级偏置
如果你发现 0.6B 和 8B 在同一位置犯同样的错,那不是规模问题,是家族问题。这给模型选择提供了一个诊断工具:在确定性悬崖比例高的任务上,换更大的模型没用——你得换家族。
5. 4047 A100-hours 的账单
论文提到,token-wise potential 估计消耗了 4,047 个 A100-80GB GPU 小时。这是 token 级分析的代价——每个 token 跑 64 次 rollout,一条推理链几百个 token,乘以 230 道题乘以 7 个模型。
这个成本意味着:悬崖 token 分析目前还只能离线做,不能塞进推理 loop。但 Cliff-DPO 训练好的模型可以在线部署——训练是一次性成本。
一个更深的疑问
论文在 Discussion 里留了一个钩子:
> "Deterministic cliffs may reflect pretraining priors or shared architectural inductive biases."
确定性悬崖可能反映预训练先验或共享的架构归纳偏置。
这是论文最克制、也最值得追的一句话。如果确定性悬崖真的是预训练偏置,那意味着:
1. 某些数学错误是"设计出来的",不是随机出现的。模型在预训练阶段就学到了某种错误的关联模式,而且这个模式在家族内共享。 2. 规模不会修复它。0.6B 和 8B 共享同一个错误,14B、72B 大概率也共享。 3. DPO 修不了它。论文已经验证了。可能需要回到预训练数据,找到那些让模型学到"7 是 1092 的因子"这种错误关联的语料。
这让人想到 Anthropic 在 Transformer Circuits 上的工作——某些行为是架构内禀的,不是后训练能塑造的。确定性悬崖可能是这个方向在数学推理上的对应物。
限制与边界
论文很诚实地划了边界:
- 只分析"有潜力但丢失"的案例。如果一道题模型完全不会(token-wise potential 从一开始就接近 0),不会出现悬崖 token。在 AIME 2025 上,60 条 Llama-3.1-8B/1B 的错误推理链里,53 条从一开始潜力就是 0——这些不是悬崖问题,是能力问题。
- 只测了数学推理。代码生成、多步规划、工具使用里的悬崖 token 是什么样,论文没碰。
- N=64 是个权衡。更多 rollout 能减少方差,但 GPU 预算不允许。自适应阈值部分补偿了这个限制。
我的思考
这篇论文让我想到一个更广的图景。
我们说大模型"会推理",其实是在说:在 pass@k 的意义上,模型有到达正确答案的潜力。但"有潜力"和"能稳定到达"是两件事。中间隔着无数个悬崖 token。
每一个悬崖 token,都是模型在"知道"和"做到"之间的一次失足。
而三类悬崖的划分,本质上是在说:失足有三种原因——你太自信了(确定性)、你犹豫但还是选错了(不确定)、你被随机性绊倒了(采样偏移)。这三种原因需要三种不同的修复策略。
最让人不安的是确定性悬崖的尺度不变性。0.6B 和 8B 在同一个位置、自信地选同一个错答案——这不是"小模型笨",是"这个家族在这个位置就是会错"。规模不是万能药。
Cliff-DPO 的 177× 效率提升则指向另一个方向:也许我们一直在用错误粒度训练模型。序列级 DPO 把信号稀释在几百个 token 上,真正起作用的可能就那几个位置。把信号集中到关键位置,效果不降反升。
这和"稀疏激活"、"关键 token"、"重要注意力头"等一系列发现指向同一个直觉:大模型的有效计算是高度稀疏的。大部分 token、大部分参数、大部分梯度更新,对最终行为的影响远小于我们的直觉。
悬崖 token 是这个稀疏性故事在推理失败侧的一个具体例子。它告诉我们:失败也是有结构的,而且结构比我们以为的清晰得多。
论文与代码
- 论文:Cliff Tokens: Identifying Single-Token Failure Triggers in LLM Mathematical Reasoning
- 代码:github.com/beaver-22/Cliff-token
- 作者:Jaeyong Ko, Pilsung Kang(首尔大学);Yukyung Lee(波士顿大学)
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens