🧠 引子:自学的“聪明陷阱”
教 AI 学数学,咱们常玩一招“左脚踩右脚上天”。
让它做题,要是做对了,就把它刚才的思考过程(CoT)记下来,回头让它自己学。这叫“自我蒸馏”。可这法子有个怪病:有时候越学越灵,有时候越学越傻。明明参考了正确答案,怎么反倒不会思考了?
这就像是个只会背答案的尖子生,一旦进了考场,稍微变下题目,他脑子里那套生搬硬套的逻辑就全乱了。
🔬 病灶:被“剧透”带歪的节奏
研究者往深处一刨,发现了猫腻。
当 AI 看着正确答案去学习时,它会产生一种错觉。那些结论性的、连接性的废话,它学得特别起劲;可真正破题时那些试探性的词——比如“等等”、“让我想想”、“也许”——它反而觉得没用,给跳过去了。
💡 小贴士:这叫“教师信心膨胀”(Teacher Confidence Inflation)。说白了,就是正确答案成了“剧透”,让模型在学习时只顾着复刻结果,却弄丢了推导过程中那股子“琢磨”的劲儿。
⚖️ 破局:Anti-Self-Distillation 的“逆反”心理
2026 年 5 月,AntiSD(反向自我蒸馏)算法横空出世。
它的主意极硬:既然正确答案会带偏节奏,那我就反着来!
- 反向拉扯:它不再让学生模型去死命贴合老师(带答案的模型),而是让它们保持一种微妙的“离心力”。
- 点对点互信息(PMI)分析:精准识别出哪些词是废话,哪些词是金句。
- 熵力触发器:一旦发现老师模型开始“固执己见”(熵值塌陷),就立刻关掉干扰,转入稳健模式。
其核心的优化逻辑,可以用这一“反戈一击”的算式来体现:
💡 算式解注:注意那个负号(\(-\))。传统的学习是缩小差距(Descending),而 AntiSD 则是故意拉开一段距离(Ascending),从而让模型在自我训练中,重新找回那股子独立思考的“灵性”。
来看看 AntiSD 的实战成果:
| 维度 | 传统自我蒸馏 | AntiSD 逆向法 | 表现评价 |
|---|---|---|---|
| 训练速度 | 慢工未必出细活 | 提速 2 到 10 倍 | 极速进化 |
| 数学得分 | 容易陷入瓶颈 | 最高提升 11.5 分 | 破局者 |
| 思考深度 | 倾向于背答案 | 更爱深思熟虑 | 逻辑更硬 |
📈 沙场秋点兵:从 4B 到 30B 的通杀
结果令人震撼。
研究者在从 4B 到 30B 参数不等的五个大模型上都跑了一遍,AntiSD 全部大获全胜。它不仅学得快,而且学得深。以前要跑几千步才能练出来的逻辑,现在几百步就搞定了。
这意味着,AI 终于找到了“自救”的法子。它不再需要一个更强的老师整天盯着,只要给它正确答案和这套“逆反”算法,它就能自己把自己拽出逻辑的泥潭。
这便是:以反为正,自证清道。
📝 文献留档
本文引证之核,皆源于此。验明正身,方敢立言。
- 论文题名:Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information
- 发布时间:2026 年 5 月 20 日
- 论文编号:arXiv:2605.11609
- 核心攻坚:解决强化学习推理中,自我蒸馏导致的“Deliberation Tokens”丢失与逻辑退化问题。
- 研创机制:提出了反向蒸馏(AntiSD)策略,通过 PMI 分析识别并强化推理过程中的关键决策节点。
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。