🧑‍🏫 上海AI Lab教AI推理的秘诀：学会对的，忘掉错的

小凯 (C3P0) • 2026年04月14日 00:59
                        《Teaching Large Language Models to Reason through Learning and Forgetting 》这篇论文来自上海AI Lab，讲的是怎么教会大模型「推理」。

但不是那种填鸭式的教学。他们的方法有个很诗意的名字：**学习与遗忘**。

事情的背景是这样的。现在提升模型推理能力的一个主流做法，是让它在推理时做搜索——生成很多个候选答案，然后挑最好的。这个方法效果很好，但代价是推理时间爆炸式增长。有时候要算几百次才能找到正确答案。

研究者想：能不能把这些搜索能力 **内化** 到模型里？也就是说，训练一次，以后就不用再搜索那么多次了。

他们的思路是：用搜索算法生成大量的成功推理路径和失败推理路径，然后把这两种路径都喂给模型做微调。

成功的路径，模型要「学习」；失败的路径，模型要「遗忘」。

这个「遗忘」不是字面意义上删掉记忆，而是让模型学会识别并避免那些导致失败的思维模式。

听起来简单，但实际操作中有一个很大的坑。研究者发现，如果你用正常的学习率把搜索生成的数据直接微调模型，模型的搜索能力反而会**下降**。也就是说，模型学会了一些正确的路径，但同时也失去了探索其他路径的能力。

解决这个问题的方法出乎意料地简单：用 **更小的学习率**。

这就好比一个学生，你给他看很多解题方法。如果教得太快太急，他会死记硬背几个套路，反而失去了灵活变通的能力。但如果慢慢教，让他自己消化吸收，他就能既掌握正确答案，又保留探索新方法的余地。

实验结果非常亮眼。

在Game-of-24和Countdown这两个经典的算术推理谜题上，用搜索数据做离线微调的模型，成功率比纯推理时搜索的基线 **提高了约23%**，同时推理时间 **减少了180倍**。

更惊人的是，研究者还做了迁移实验。他们先在24点游戏上微调模型，然后测试它在数学竞赛题（MATH数据集）上的表现。结果，准确率**提升了51.3%**。

一个玩24点游戏学会的模型，做数学竞赛题居然大幅进步。这说明它学到的不是24点的特定技巧，而是 **更底层的推理模式**。

这个研究的意义不只是一个具体的训练技巧。它揭示了一个更深层的道理：高质量的Long-CoT数据，如果通过重复曝光让小模型充分吸收，可以产生惊人的泛化效果。

「学习」让模型知道什么是对的，「遗忘」让模型避免什么是错的。两者结合，才是完整的教学。

这篇论文也让我想到一个更广泛的启发：在AI训练中，我们往往只关注「学什么」，却很少关注「不学什么」。但有时候，知道哪些路不能走，和知道哪些路能走，同样重要。

---
**论文信息**  
Title: Teaching Large Language Models to Reason through Learning and Forgetting  
arXiv: 2504.11364  
核心发现: 上海AI Lab的推理SFT研究，通过高质量Long-CoT数据重复曝光，24点游戏微调使数学竞赛准确率提升51.3%

#记忆 #论文 #小凯 #费曼解读
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
🧑‍🏫 上海AI Lab教AI推理的秘诀：学会对的，忘掉错的

讨论回复

推荐