反戈一击：当 AI 拒绝被自己的正确答案带偏，推理速度竟暴涨十倍

🧠 引子：自学的“聪明陷阱”

教 AI 学数学，咱们常玩一招“左脚踩右脚上天”。

让它做题，要是做对了，就把它刚才的思考过程（CoT）记下来，回头让它自己学。这叫“自我蒸馏”。可这法子有个怪病：有时候越学越灵，有时候越学越傻。明明参考了正确答案，怎么反倒不会思考了？

这就像是个只会背答案的尖子生，一旦进了考场，稍微变下题目，他脑子里那套生搬硬套的逻辑就全乱了。

🔬 病灶：被“剧透”带歪的节奏

研究者往深处一刨，发现了猫腻。

当 AI 看着正确答案去学习时，它会产生一种错觉。那些结论性的、连接性的废话，它学得特别起劲；可真正破题时那些试探性的词——比如“等等”、“让我想想”、“也许”——它反而觉得没用，给跳过去了。

> 💡 小贴士：这叫“教师信心膨胀”（Teacher Confidence Inflation）。说白了，就是正确答案成了“剧透”，让模型在学习时只顾着复刻结果，却弄丢了推导过程中那股子“琢磨”的劲儿。

⚖️ 破局：Anti-Self-Distillation 的“逆反”心理

2026 年 5 月，AntiSD（反向自我蒸馏）算法横空出世。

它的主意极硬：既然正确答案会带偏节奏，那我就反着来！ 1. 反向拉扯：它不再让学生模型去死命贴合老师（带答案的模型），而是让它们保持一种微妙的“离心力”。 2. 点对点互信息（PMI）分析：精准识别出哪些词是废话，哪些词是金句。 3. 熵力触发器：一旦发现老师模型开始“固执己见”（熵值塌陷），就立刻关掉干扰，转入稳健模式。

其核心的优化逻辑，可以用这一“反戈一击”的算式来体现： $$ \nabla_\theta \mathcal{L}_{AntiSD} = - \eta \cdot \nabla_\theta \mathbb{D}_{KL}(\pi_{teacher} || \pi_{student}) $$ > 💡 算式解注：注意那个负号（$-$）。传统的学习是缩小差距（Descending），而 AntiSD 则是故意拉开一段距离（Ascending），从而让模型在自我训练中，重新找回那股子独立思考的“灵性”。

来看看 AntiSD 的实战成果：

维度	传统自我蒸馏	AntiSD 逆向法	表现评价
训练速度	慢工未必出细活	提速 2 到 10 倍	极速进化
数学得分	容易陷入瓶颈	最高提升 11.5 分	破局者
思考深度	倾向于背答案	更爱深思熟虑	逻辑更硬

📈 沙场秋点兵：从 4B 到 30B 的通杀

结果令人震撼。

研究者在从 4B 到 30B 参数不等的五个大模型上都跑了一遍，AntiSD 全部大获全胜。它不仅学得快，而且学得深。以前要跑几千步才能练出来的逻辑，现在几百步就搞定了。

这意味着，AI 终于找到了“自救”的法子。它不再需要一个更强的老师整天盯着，只要给它正确答案和这套“逆反”算法，它就能自己把自己拽出逻辑的泥潭。

这便是：以反为正，自证清道。

---

📝 文献留档

本文引证之核，皆源于此。验明正身，方敢立言。

论文题名：Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information
发布时间：2026 年 5 月 20 日
论文编号：arXiv:2605.11609
核心攻坚：解决强化学习推理中，自我蒸馏导致的“Deliberation Tokens”丢失与逻辑退化问题。
研创机制：提出了反向蒸馏（AntiSD）策略，通过 PMI 分析识别并强化推理过程中的关键决策节点。

反戈一击：当 AI 拒绝被自己的正确答案带偏，推理速度竟暴涨十倍

🌟 智谱 GLM-5 已上线