悬崖 token：当大模型自信地迈入错误的那一步

✨步子哥 (steper) • 2026年06月25日 22:10

一个让人困惑的现象

你给同一个大模型同一道数学题，跑十次。六次对，四次错。模型没变，题目没变，prompt 没变——为什么有的对有的错？

这不是个例。Qwen3-8B 在 GSM1K 上的 pass@1 大概 60% 出头，但 pass@64 几乎是 100%。这意味着：这道题模型有能力做对，但在单次尝试中经常做错。能力不是问题，"运气"才是。

那这个运气到底丢在哪里？

过去的研究要么看"步骤级"——哪一步开始错了；要么看"事后"——成功概率已经归零的那个 token。但没人回答一个更尖锐的问题：到底是哪一个 token，把模型从"还能救"推向"救不回"？

首尔大学的 Jaeyong Ko 和 Pilsung Kang，加上波士顿大学的 Yukyung Lee，在 2026 年 6 月的论文《Cliff Tokens: Identifying Single-Token Failure Triggers in LLM Mathematical Reasoning》里，给这个 token 起了个名字——悬崖 token（cliff token）。

什么是悬崖 token

想象你走在一条山脊上。山脊宽阔，左右都有路。但有一个位置，地面突然塌陷——你一脚踩空，掉下悬崖。

悬崖 token 就是那个踩空的位置。

论文的定义是这样的：在一条推理链的每个 token 位置 $$t$$ ，定义一个token-wise potential（token 级潜力）——从这个位置出发，跑 64 次续写，有多少次能到达正确答案。这个潜力值就是"还能到达正确答案的概率"。

悬崖 token 是这样一个位置：潜力值在这里发生了统计显著的骤降。前一个 token 还能救，这一个 token 就救不回了。

为什么不用固定阈值

最直觉的做法是：潜力下降超过 0.2 就算悬崖。但论文没这么做。

原因很微妙。token-wise potential 是用 64 次 rollout 估计的，本身有方差。在潜力接近 0 或 1 的地方，方差小；在潜力 0.5 附近，方差大——就像抛 64 次硬币，正面比例的标准差在 p=0.5 时最大。

如果用固定阈值 0.2，在潜力 0.5 附近会把"采样噪声"误判为"悬崖"。论文用了一个自适应阈值：

\Delta_t > 0.1 + 1.645 \cdot \text{SE}_t

其中 $\text{SE}_t$ 是两个比例差的标准误差，1.645 是 95% 置信水平的 z 值。这个阈值在潜力极端值处约 0.18，在中间区域升到约 0.24——在噪声大的地方提高门槛，在噪声小的地方降低门槛。

这个细节看似技术性，但背后是个重要的方法论原则：区分"真的塌了"和"看起来塌了其实是测量噪声"。很多关于 LLM 失败的分析倒在了这一步。

删掉一个 token，救回整条推理链

论文做了一个极简而极有说服力的实验。

找一条错误的推理链，定位第一个悬崖 token $c_{t^*}$ 。然后做两组对照：

Cliff-del：从悬崖 token 前面重新采样（删掉悬崖 token）
Cliff-keep：从悬崖 token 后面重新采样（保留悬崖 token）

结果：

指标	Cliff-del	Cliff-keep
pass@64	1.00	0.71–1.00

删掉那一个 token，64 次采样里必定能找到正确答案；保留那一个 token，即使采样 64 次，也救不回 30% 的案例。

一个 token 决定生死。

这不是相关性，是因果性。悬崖 token 不是"失败发生了所以这里潜力低"，而是"这里潜力低所以失败发生了"。

三种掉下悬崖的方式

论文最漂亮的部分来了。不是所有悬崖 token 都一样——作者用 token 熵（entropy）和是否贪婪采样（greedy）两个维度，把悬崖分成了三类。

1. 确定性悬崖（Deterministic cliff）

贪婪 token，熵极低（ $$H < 0.0561$$ nats，对应贪婪概率 $$p_1 > 0.99$$ ）。

模型对这个 token 几乎绝对确定。它不是犹豫了一下选错，而是自信地选了错。cliff probability mass（悬崖位置上分配给悬崖 token 的总概率）接近 1.0。

类比：一个人走在山脊上，目视前方，步伐坚定——然后坚定地走下了悬崖。没有犹豫，没有滑倒，他真心认为那就是路。

2. 不确定悬崖（Uncertain cliff）

贪婪 token，但熵高（ $H \geq 0.0561$ ）。

模型选了悬崖 token，但其实心里没底。cliff probability mass 平均 0.68，分布很宽（四分位距 0.44–0.95）——模型倾向于悬崖 token，但其他 token 也有不小的概率。

类比：走到岔路口，犹豫了一下，最终还是选了那条错路。犹豫说明知道有风险，但选择说明倾向还是错了。

3. 采样偏移悬崖（Sampled-off cliff）

非贪婪 token，熵高。

模型本来最可能选的不是悬崖 token，但采样时偏偏抽中了。cliff probability mass 平均只有 0.32——悬崖 token 本来是个低概率候选，是随机性把它推了上去。

类比：走在山脊上，本来不会掉下去，但脚下一颗碎石滑了，人就下去了。不是路选错了，是脚没踩稳。

三类悬崖的概率质量分布

论文 Figure 4 给出了三类悬崖的 cliff probability mass 分布：

确定性悬崖：集中在 1.0 附近（模型几乎把所有概率都给了悬崖 token）
不确定悬崖：均值 0.68，分布很宽（倾向明显但非绝对）
采样偏移悬崖：均值 0.32（悬崖 token 是低概率候选被采中）

三类分布清晰分离，说明这个分类不是人为切分，而是数据本身就有三个簇。

跨尺度迁移：小模型和大模型掉下同一个悬崖

这是论文最让人后背发凉的部分。

作者做了一个跨尺度实验：用 Qwen3-8B 找到的悬崖 token 位置，去看 Qwen3-0.6B 在同一位置的行为，反之亦然。

结果：

确定性悬崖：尺度不变。Qwen3-8B 找到的 46 个确定性悬崖位置里，44 个 Qwen3-0.6B 也采样了完全相同的悬崖 token。反过来，Qwen3-0.6B 的 37 个确定性悬崖，Qwen3-8B 全部复现。0.6B 和 8B 在同一个位置，自信地选了同一个错答案。
不确定悬崖：模型特异性。跨模型迁移时，cliff probability mass 普遍下降约 0.13——大模型的"犹豫点"和小模型的"犹豫点"不在同一位置。
采样偏移悬崖：尺度不对称。8B 的采样偏移悬崖，在 0.6B 那里往往是高概率悬崖——小模型更容易把那些 token 当成确定选择。

确定性悬崖的尺度不变性意味着什么？

这意味着失败不是模型规模的偶然，是模型家族的宿命。 Qwen3 系列（无论 0.6B 还是 8B）在某些数学推理位置，共享同一个"自信的错误"。这个错误可能来自预训练数据中的共同模式，可能来自架构本身的归纳偏置，但绝不是靠后训练能轻易抹掉的。

Cliff-DPO：在悬崖上训练

如果悬崖 token 是失败的触发点，那能不能专门在悬崖位置上做偏好优化，教模型别走那一步？

作者提出了 Cliff-DPO。思路很直接：

在 GSM8K 训练集上找到 2,926 个悬崖位置
在每个悬崖位置，取 top-10 候选 token，跑 64 次 rollout 估计每个候选的潜力
把非悬崖候选（chosen）和悬崖 token（rejected）配对，构造 19,227 个偏好对
用 DPO loss 训练，但只在悬崖位置计算 loss——其他 token 不动

结果（Qwen3-0.6B）：

方法	GSM1K	MATH500	AIME 2025	更新 token 数
基线	57.0	51.6	3.5	—
DPO（全序列）	56.5	51.0	2.2	2,862,845
cDPO（全序列）	61.3	54.9	4.8	5,829,052
Cliff-DPO（确定性）	57.0	51.5	2.9	5,538
Cliff-DPO（不确定）	62.9	53.3	3.8	18,122
Cliff-DPO（采样偏移）	62.5	52.6	3.5	14,794
Cliff-DPO（不确定+采样偏移）	63.6	56.0	4.9	32,916

几个关键观察：

1. 不确定+采样偏移组合效果最好，在 GSM1K 上 +6.6，MATH500 上 +4.4，AIME 2025 上 +1.4。和 cDPO 持平甚至略胜。

2. 确定性悬崖训练没用。在 GSM8K 上有一点点 in-domain 提升，出域完全没动。这和跨尺度实验的发现一致——确定性悬崖是预训练偏置，DPO 这种后训练方法动不了它。

3. 效率惊人。Cliff-DPO（不确定+采样偏移）只更新了 32,916 个 token 位置，cDPO 更新了 5,829,052 个——少 177 倍，效果一样好。

这意味着什么？大部分 DPO 训练 token 是浪费的。真正影响推理成败的，就是那几个悬崖位置。把训练信号集中在那里，比在全序列上铺开有效得多。

工程洞察

1. 单 token 监督是可行的

过去做偏好优化，都是序列级——整条推理链作为 chosen/rejected 对。Cliff-DPO 证明：只在一个 token 位置上做偏好优化，就能改善推理。这打开了 token 级监督的大门。

2. 失败分类指导训练策略

三类悬崖对应三种工程策略：

采样偏移悬崖：调温度、top-p 就能缓解，本质是采样噪声
不确定悬崖：DPO/RLHF 可救，模型有知识但倾向错了
确定性悬崖：DPO 救不了，得回到预训练数据或架构层面

先分类，再治疗。 笼统的"推理能力提升"不如针对性的"哪类失败用哪个工具"。

3. 自适应阈值避免假阳性

固定阈值在潜力中间区域会大量误判。任何做 token 级分析的工作——不只是悬崖 token——都应该考虑用统计检验代替硬阈值。这个方法论可以迁移到激活分析、注意力分析、logit 分析等各种场景。

4. 跨尺度诊断家族级偏置

如果你发现 0.6B 和 8B 在同一位置犯同样的错，那不是规模问题，是家族问题。这给模型选择提供了一个诊断工具：在确定性悬崖比例高的任务上，换更大的模型没用——你得换家族。

5. 4047 A100-hours 的账单

论文提到，token-wise potential 估计消耗了 4,047 个 A100-80GB GPU 小时。这是 token 级分析的代价——每个 token 跑 64 次 rollout，一条推理链几百个 token，乘以 230 道题乘以 7 个模型。

这个成本意味着：悬崖 token 分析目前还只能离线做，不能塞进推理 loop。但 Cliff-DPO 训练好的模型可以在线部署——训练是一次性成本。

一个更深的疑问

论文在 Discussion 里留了一个钩子：

"Deterministic cliffs may reflect pretraining priors or shared architectural inductive biases."

确定性悬崖可能反映预训练先验或共享的架构归纳偏置。

这是论文最克制、也最值得追的一句话。如果确定性悬崖真的是预训练偏置，那意味着：

某些数学错误是"设计出来的"，不是随机出现的。模型在预训练阶段就学到了某种错误的关联模式，而且这个模式在家族内共享。
规模不会修复它。0.6B 和 8B 共享同一个错误，14B、72B 大概率也共享。
DPO 修不了它。论文已经验证了。可能需要回到预训练数据，找到那些让模型学到"7 是 1092 的因子"这种错误关联的语料。

这让人想到 Anthropic 在 Transformer Circuits 上的工作——某些行为是架构内禀的，不是后训练能塑造的。确定性悬崖可能是这个方向在数学推理上的对应物。

限制与边界

论文很诚实地划了边界：

只分析"有潜力但丢失"的案例。如果一道题模型完全不会（token-wise potential 从一开始就接近 0），不会出现悬崖 token。在 AIME 2025 上，60 条 Llama-3.1-8B/1B 的错误推理链里，53 条从一开始潜力就是 0——这些不是悬崖问题，是能力问题。
只测了数学推理。代码生成、多步规划、工具使用里的悬崖 token 是什么样，论文没碰。
N=64 是个权衡。更多 rollout 能减少方差，但 GPU 预算不允许。自适应阈值部分补偿了这个限制。

我的思考

这篇论文让我想到一个更广的图景。

我们说大模型"会推理"，其实是在说：在 pass@k 的意义上，模型有到达正确答案的潜力。但"有潜力"和"能稳定到达"是两件事。中间隔着无数个悬崖 token。

每一个悬崖 token，都是模型在"知道"和"做到"之间的一次失足。

而三类悬崖的划分，本质上是在说：失足有三种原因——你太自信了（确定性）、你犹豫但还是选错了（不确定）、你被随机性绊倒了（采样偏移）。这三种原因需要三种不同的修复策略。

最让人不安的是确定性悬崖的尺度不变性。0.6B 和 8B 在同一个位置、自信地选同一个错答案——这不是"小模型笨"，是"这个家族在这个位置就是会错"。规模不是万能药。

Cliff-DPO 的 177× 效率提升则指向另一个方向：也许我们一直在用错误粒度训练模型。序列级 DPO 把信号稀释在几百个 token 上，真正起作用的可能就那几个位置。把信号集中到关键位置，效果不降反升。

这和"稀疏激活"、"关键 token"、"重要注意力头"等一系列发现指向同一个直觉：大模型的有效计算是高度稀疏的。大部分 token、大部分参数、大部分梯度更新，对最终行为的影响远小于我们的直觉。

悬崖 token 是这个稀疏性故事在推理失败侧的一个具体例子。它告诉我们：失败也是有结构的，而且结构比我们以为的清晰得多。

论文与代码

论文：Cliff Tokens: Identifying Single-Token Failure Triggers in LLM Mathematical Reasoning
代码：github.com/beaver-22/Cliff-token
作者：Jaeyong Ko, Pilsung Kang（首尔大学）；Yukyung Lee（波士顿大学）

#LLM #推理失败 #机制可解释性 #DPO #悬崖token

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力