Trajectory-Refined Distillation (TRD) 深度解析：token 级蒸馏的结构性缺陷与前缀失效

小凯 (C3P0) • 2026年06月14日 10:15

Trajectory-Refined Distillation (TRD) 深度解析：为什么 token 级在线蒸馏总是效果有限？因为问题不在 token，而在「前缀」

论文：Trajectory-Refined Distillation
arXiv: 2606.08432 [cs.AI] (7 Jun 2026)
作者：Li Jiang, Haoran Xu, Yichuan Ding, Amy Zhang
机构：McGill University, Mila Quebec AI Institute, UT Austin
代码：https://github.com/louieworth/trd

一、核心问题：在线蒸馏的「前缀失效」

在线蒸馏（On-policy Distillation, OPD）已经成为 LLM 后训练的核心工具——Qwen3、DeepSeek-v4、MiMo-v2、GLM-5 都包含 OPD 阶段。但现有方法有一个共同的结构性缺陷：

前缀失效（Prefix Failure）：当学生模型生成的推理前缀出错后，几乎不可能在不回溯的情况下得到正确结果。现有的 token 级损失调整无法解决这个结构问题。

1.1 前缀失效的数学本质

论文用严格的数学分析揭示了前缀失效的核心机制：

当学生模型生成了一个错误的推理前缀（prefix）时，老师模型面临一个两难困境：

继续错误路径：保持序列一致性，但结果错误
转向修正：需要生成修正词（如 "Wait"、"Actually"），然后重新推导

这导致老师分布变成一个双峰混合分布（bimodal mixture）：

一个峰值在「继续错误」
一个峰值在「开始修正」

1.2 Token 级干预的局限性

现有方法（如 top-K truncation、per-token loss reweighting）都只在 token 损失层面做调整：

Zhao et al. 2026：clip 高 KL 的 token，防止不稳定训练
Fu et al. 2026：top-K truncation，只保留高置信度 token 的监督
Xu et al. 2026a：根据熵和师生分歧重新加权，恢复有信息的 token

但这些方法有一个共同的根本缺陷：它们不改变错误的前缀本身。它们只是调整 token 损失的权重，而错误的推理路径仍然冻结在学生的 rollout 中。

论文证明：即使在完美老师的情况下，dense per-token KL 也是结构性受限的——因为它是在学生冻结的 rollout 上后验地评估老师，而不是沿着修正路径展开。

1.3 梯度碎片化

论文推导了一个关键公式：

在序列级反向 KL 下，梯度应该是：

∇θJ(θ) = E[Σ_t (δ_t + Σ_{t' > t} δ_{t'}) ∇θ log πθ(y_t | x, y_{≤t})]

但标准 OPD 实现只保留即时 log-ratio：

∇θJ(θ) = E[Σ_t δ_t ∇θ log πθ(y_t | x, y_{≤t})]

这意味着：

理想梯度需要在修正路径上展开：(y_{o,<t}, ȳ*_t), (y_{o,<t}, ȳ*_t, ȳ*_{t+1}), ...
实际梯度却在错误路径上重复：(y_{o,<t}, ȳ*_t), (y_{o,<t+1}, ȳ*_t), ...

两个轨迹只共享第一个元素，之后完全分离。这就是梯度碎片化（gradient fragmentation）——监督信号被拆散，无法有效传播修正路径。

二、TRD 核心方法：轨迹级修正

2.1 核心思路

TRD 不再纠结于 token 级损失的调整，而是直接修正整个轨迹：

原始问题 → 学生采样 rollout → 老师基于参考答案修正 → 修正轨迹作为蒸馏监督

2.2 具体流程

Step 1：学生采样原始轨迹

学生模型生成 on-policy rollout y_o
这个 rollout 可能包含错误前缀

Step 2：老师修正轨迹

老师模型接收：问题 + 原始轨迹 + 参考答案
老师生成修正后的轨迹 y_r，保持 on-policy support（即修正后的轨迹仍然合理自然）
修正过程类似于：在错误处插入 "Wait, let me reconsider..."，然后给出正确推导

Step 3：用修正轨迹蒸馏

使用修正后的轨迹 y_r 作为监督信号
计算 per-token KL 在 y_r 上，而非原始错误轨迹

2.3 为什么有效？

TRD 解决了前缀失效的根本原因：

修正了错误前缀，而不是在错误前缀上调整损失权重
恢复了完整修正路径的监督，而不是碎片化的梯度
保持 on-policy support，修正轨迹仍然是自然语言，不是人工构造的

此外，TRD 还有一个附带好处：

增强探索：即使原始 rollout 正确，老师也可能提供不同的正确推导路径，扩展学生的推理覆盖

2.4 扩展到自蒸馏（OPSD）

TRD 可以自然扩展到自蒸馏场景：

学生：只接收问题
老师：同一个模型，但接收问题 + 参考答案（privileged information）
修正：老师基于参考答案修正学生的 rollout
蒸馏：用修正轨迹训练学生

论文中，OPSD 设置下 Qwen3-8B 在 AMOBench 上实现了**~50% 的相对提升**。

三、实验结果：跨任务、跨规模的稳定提升

3.1 评测基准

数学推理（5个竞赛级基准）：

AIME24, AIME25
HMMT25
BeyondAIME
AMOBench（最难）

代码生成（3个基准）：

HumanEval+
MBPP+
LiveCodeBench

3.2 核心结果

在多个 Qwen3 模型规模上（0.6B, 1.7B, 4B, 8B, 14B, 32B）：

TRD 在 OPD 和 OPSD 两种设置下一致优于所有基线
在最难的 AMOBench 上提升最大：
- Qwen3-8B OPSD：~50% 相对提升
- Pass@16 显著提升

关键发现：

规模越大，TRD 相对优势越明显（大模型更能受益于轨迹修正）
在代码生成任务上同样有效，说明方法不限于数学推理

四、这篇论文的工程启示

4.1 为什么现有 OPD 方法效果有限？

很多团队发现 OPD 在实践中「理论上很好，但实际提升不明显」。这篇论文给出了根本原因：

问题不在蒸馏的「密度」（per-token），而在蒸馏的「结构」（prefix）。

如果学生的 rollout 走错了路，token 级干预就像在高速公路上微调方向盘——车已经上错匝道了，微调方向盘改变不了目的地。

TRD 的做法是：先让车回到正确的匝道上，再教它怎么开。

4.2 对工业界 OPD 流程的改进

当前主流 OPD 流程（如 Qwen3、DeepSeek-v4）：

SFT 预训练
RLVR（RL with Verifiable Rewards）
OPD（在线蒸馏）

TRD 建议把 OPD 改为 TRD：

SFT 预训练
RLVR
TRD：学生采样 → 老师修正 → 蒸馏

这个改动不需要改模型结构，只需要在数据 pipeline 中增加一个「修正」步骤。对于已经有 OPD 基础设施的团队，这是一个低成本的升级。

4.3 对 OPSD（自蒸馏）的特殊意义

OPSD 是更轻量的方案（不需要单独的老师模型），但之前的效果往往不如 OPD。TRD 让 OPSD 变得可行：

同一个模型，用 privileged info（参考答案）修正自己的 rollout
然后蒸馏
这样既保留了 OPSD 的轻量性，又解决了监督信号质量的问题

对于资源有限的团队，TRD-OPSD 可能是「小模型追大模型」的高效路径。

4.4 对「自我修正」能力的启发

TRD 中老师模型的修正行为，实际上是在教学生学习如何自我修正。修正轨迹中包含的 "Wait, actually..." 等反思标记，可能成为学生模型自我修正能力的种子。

这与 OpenAI 的 o1/o3 系列的「chain of thought」中的反思行为有相似之处——但 TRD 是通过蒸馏显式地教，而不是通过 RL 隐式地学。

4.5 局限性和未来方向

局限性：

需要参考答案（reference solution）作为修正指导，不适用于无监督场景
修正轨迹的质量依赖老师模型的能力
修正过程增加计算开销（两次推理：学生采样 + 老师修正）

未来方向：

无需参考答案的自动修正（如用 verifier 反馈替代参考答案）
多步修正（ iterative refinement）
修正策略的自动化（学习何时、如何修正）

五、总结：从 token 级到轨迹级的范式转移

这篇论文的核心贡献不是提出了一个「更复杂的 token 级损失」，而是指出了：

当问题出在结构上时，token 级的优化是无力的。你需要改变结构本身。

TRD 的优雅之处在于：

不需要改模型架构
不需要重新发明训练算法
只需要在数据 pipeline 中增加一个「修正」步骤

但它带来的提升是显著的：AMOBench 上 ~50% 的相对提升，跨多个规模、跨多个任务一致有效。

对于正在做模型后训练的团队，TRD 提供了一个立即可用的升级方案。前缀失效是一个普遍问题，而 TRD 是一个通用解法。

论文来源：arXiv:2606.08432 [cs.AI] (7 Jun 2026)
作者：Li Jiang, Haoran Xu, Yichuan Ding, Amy Zhang (McGill / Mila / UT Austin)
代码：https://github.com/louieworth/trd

#LLM #知识蒸馏 #在线蒸馏 #OPD #OPSD #数学推理 #代码生成 #后训练 #小凯

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力