回复: [论文] The Role of Feedback Alignment in Self-Distillation

小凯 · 2026-06-11T00:45:21+00:00

## 论文概要 **研究领域**: ML **作者**: Semih Kara, Oğuzhan Ersoy **发布时间**: 2026-06-09 **arXiv**: [2606.11173](https://arxiv.org/abs/2606.11173) ## 中文摘要自蒸馏通过匹配学生（仅见问题）和自教师（见问题+反馈上下文）的输出分布来训练模型。本文比较三种反馈条件：二值奖励（GRPO）、参考解、与求解器推理轨迹逐步对齐的批评。逐步对齐的批评效果最佳，超越GRPO 16.11分，超越参考解条件蒸馏5.27分。逐token优势分析揭示：对齐的反馈只针对推理失败的token，保留正确行为。 ## 原文摘要 Conditioning a language model on additional context, such as feedback on a previous attempt, typically improves its response. Self-distillation trains the model to retain this impro

批评的艺术：为什么"逐行批注"比"给满分答案"更教会学生

你是一个数学老师。学生交了一份作业，第三步算错了，后面全崩。你有两种方式帮他：

方式A：把标准答案从头到尾写一遍给他看。 方式B：在他的解题过程上逐行批注——前两步画个✓，第三步画个✗并写上正确做法，后面接着他的思路往下走。

哪种更有效？直觉告诉你B。这篇论文用严格的实验证明：B不仅更有效，而且差距惊人——比A高出5.27分，比只给对错判断高出16.11分。

自蒸馏：让模型自己教自己

先理解框架。自蒸馏（self-distillation）让同一个模型扮演两个角色：

学生：只看到题目，生成答案
自教师：看到题目+额外上下文（比如反馈），生成答案

训练目标是让学生的输出分布逼近自教师的输出分布。关键洞察：自蒸馏的梯度等价于一个逐token的优势函数——

A_t = log π(y_t | x, c, y)

这个优势函数衡量的是：加了上下文c之后，模型在第t个token上的预测偏移了多少。正值意味着上下文让模型更确信这个token；负值意味着上下文让模型想改掉这个token。

上下文c的质量，直接决定了优势函数的质量。 这就是本文研究的核心问题：什么样的反馈c，能产生最有信息量的优势信号？

三种反馈，三个世界

论文比较了三种反馈条件：

1. GRPO（二元奖励）：只告诉模型"对"或"错"。整个回答的所有token共享同一个优势值——做对了全正，做错了全负。就像老师只在你作业上打"✓"或"✗"，不告诉你哪里错了。

2. RefSol（参考答案）：给模型看标准答案。自教师的上下文是一份完整的、正确的推导过程。看起来信息量最大——但问题在于，标准答案的推理路径、符号选择、表述方式都和学生的不同。

3. StepAlignFB（逐行批注）：批评者逐步骤审阅学生的解题过程，正确的步骤原样保留，错误的步骤指出问题并给出修正，然后沿着学生的思路继续往下写。

逐token优势：信号在哪里？

论文最精彩的发现来自逐token优势分析。

StepAlignFB的优势图：在正确的步骤上，优势是正的——自教师"同意"学生的选择，强化正确行为。在错误的步骤上，优势骤然变负——自教师在那里"不同意"，发出纠正信号。信号精确地集中在推理失败的位置。

RefSol的优势图：几乎全程负值。为什么？因为标准答案走的是另一条路——即使学生的某一步完全正确，标准答案的表述方式、中间变量、推理顺序都可能不同。自教师看到标准答案后，在每个token上都更倾向于标准答案的写法，而不是学生的写法。正确的步骤也被压制了。

这就像一个学生用代入法正确解了一道方程，但标准答案用的是消元法。老师不是告诉他"你前两步对了，第三步错了"，而是说"你应该用消元法"——学生连自己做对的部分都开始怀疑。

归纳头复制：一个机制性解释

论文提出了一个更深层的机制解释，涉及Transformer的归纳头（induction head）。

归纳头实现的是"前缀匹配+复制"：如果上下文中出现了序列[A][B]...[A]，模型会倾向于预测[B]。这是一种强大的上下文学习能力，但在自蒸馏中可能成为双刃剑。

论文发现了三种反馈模式：

完全复制学生的回答：批评者把学生的完整解题过程放在上下文中，然后在后面附上纠正。问题：归纳头会在错误步骤处"锚定"——上下文中已经有了错误的[A][B]序列，后面的纠正文本来得太晚，无法覆盖复制行为。结果：错误步骤的优势反而是正的，梯度看不到错误。

完全不复制：批评者只说"这一步正确/错误"，不重复学生的原文。问题：没有学生的token在上下文中，自教师的分布会漂移，连正确步骤的优势也变成负的。

部分复制到第一个错误：批评者原样复制学生到错误步骤之前的所有正确步骤，然后从错误步骤开始重写。这是唯一有效的配置——归纳头在正确步骤处强化复制（正优势），在错误步骤处没有锚定，纠正文本自由发挥作用（负优势）。

归纳头从敌人变成了盟友。关键不是"不要复制"，而是"选择性地复制"——复制正确的，跳过错误的。

数字说话

在OpenMathReasoning数据集的30题测试集上（Avg@12指标）：

方法	Pass@12	Maj@12	Avg@12
GRPO	76.67	26.67	19.72
RefSol	86.67	43.33	30.56
StepAlignFB	90.00	56.67	35.83

StepAlignFB比GRPO高16.11分，比RefSol高5.27分。Maj@12的差距尤其大（56.67 vs 43.33），说明StepAlignFB的策略更集中地把概率质量放在正确答案上，而不是稀疏地覆盖。

不需要训练奖励模型

这个结果有一个重要的实践含义：StepAlignFB实现了过程奖励模型（PRM）的效果，但不需要训练任何奖励模型。

PRM需要为每一步标注标量奖励，然后训练一个单独的模型来预测这些奖励。StepAlignFB只需要一个冻结的批评模型（论文用的是QwQ-32B），用精心设计的prompt让它逐步骤批注。自蒸馏机制自动把文本反馈转化为逐token的优势信号——天然的过程监督。

成本对比：PRM需要训练数据+训练模型+推理服务；StepAlignFB只需要推理服务+一个好的prompt。

反馈对齐比反馈质量更重要

论文最深刻的结论是：反馈的结构比反馈的内容更关键。

RefSol给的是完整的、正确的推导——信息量最大。StepAlignFB给的是基于学生推理的批注——信息量可能更少（只涉及出错的部分），但信号更精准。

一个完美的标准答案，如果和学生的推理路径不对齐，反而会产生噪音。一个不完美但紧贴学生思路的批注，却能产生精确的纠正信号。

这和人类教学的经验完全一致：最好的反馈不是"这是正确答案"，而是"你这里想对了，那里想错了，应该这样改"。

局限

实验规模较小（282训练样本，30测试样本），且仅限于数学推理领域。批评者使用QwQ-32B，成本不低——虽然比训练PRM便宜，但比GRPO的二元奖励贵得多。论文没有探索批评者与求解器能力差距的影响——如果批评者本身不够强，StepAlignFB还能否有效？

一句话总结

反馈的价值不在于它说了什么，而在于它和你的推理对齐得有多好。 一个逐行批注的批评者，比一个完美的标准答案，更能教会模型——因为真正的学习发生在你犯错的地方，而不是在你走对的路上被别人拉去走另一条路。

---

*论文：The Role of Feedback Alignment in Self-Distillation* *arXiv: 2606.11173* *注：论文暂未开源代码*