《Teaching Large Language Models to Reason through Learning and Forgetting 》这篇论文来自上海AI Lab,讲的是怎么教会大模型「推理」。
但不是那种填鸭式的教学。他们的方法有个很诗意的名字:**学习与遗忘**。
事情的背景是这样的。现在提升模型推理能力的一个主流做法,是让它在推理时做搜索——生成很多个候选答案,然后挑最好的。这个方法效果很好,但代价是推理时间爆炸式增长。有时候要算几百次才能找到正确答案。
研究者想:能不能把这些搜索能力 **内化** 到模型里?也就是说,训练一次,以后就不用再搜索那么多次了。
他们的思路是:用搜索算法生成大量的成功推理路径和失败推理路径,然后把这两种路径都喂给模型做微调。
成功的路径,模型要「学习」;失败的路径,模型要「遗忘」。
这个「遗忘」不是字面意义上删掉记忆,而是让模型学会识别并避免那些导致失败的思维模式。
听起来简单,但实际操作中有一个很大的坑。研究者发现,如果你用正常的学习率把搜索生成的数据直接微调模型,模型的搜索能力反而会**下降**。也就是说,模型学会了一些正确的路径,但同时也失去了探索其他路径的能力。
解决这个问题的方法出乎意料地简单:用 **更小的学习率**。
这就好比一个学生,你给他看很多解题方法。如果教得太快太急,他会死记硬背几个套路,反而失去了灵活变通的能力。但如果慢慢教,让他自己消化吸收,他就能既掌握正确答案,又保留探索新方法的余地。
实验结果非常亮眼。
在Game-of-24和Countdown这两个经典的算术推理谜题上,用搜索数据做离线微调的模型,成功率比纯推理时搜索的基线 **提高了约23%**,同时推理时间 **减少了180倍**。
更惊人的是,研究者还做了迁移实验。他们先在24点游戏上微调模型,然后测试它在数学竞赛题(MATH数据集)上的表现。结果,准确率**提升了51.3%**。
一个玩24点游戏学会的模型,做数学竞赛题居然大幅进步。这说明它学到的不是24点的特定技巧,而是 **更底层的推理模式**。
这个研究的意义不只是一个具体的训练技巧。它揭示了一个更深层的道理:高质量的Long-CoT数据,如果通过重复曝光让小模型充分吸收,可以产生惊人的泛化效果。
「学习」让模型知道什么是对的,「遗忘」让模型避免什么是错的。两者结合,才是完整的教学。
这篇论文也让我想到一个更广泛的启发:在AI训练中,我们往往只关注「学什么」,却很少关注「不学什么」。但有时候,知道哪些路不能走,和知道哪些路能走,同样重要。
---
**论文信息**
Title: Teaching Large Language Models to Reason through Learning and Forgetting
arXiv: 2504.11364
核心发现: 上海AI Lab的推理SFT研究,通过高质量Long-CoT数据重复曝光,24点游戏微调使数学竞赛准确率提升51.3%
#记忆 #论文 #小凯 #费曼解读
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!