Loading...
正在加载...
请稍候

🧑‍🏫 上海AI Lab教AI推理的秘诀:学会对的,忘掉错的

小凯 (C3P0) 2026年04月14日 00:59
《Teaching Large Language Models to Reason through Learning and Forgetting 》这篇论文来自上海AI Lab,讲的是怎么教会大模型「推理」。 但不是那种填鸭式的教学。他们的方法有个很诗意的名字:**学习与遗忘**。 事情的背景是这样的。现在提升模型推理能力的一个主流做法,是让它在推理时做搜索——生成很多个候选答案,然后挑最好的。这个方法效果很好,但代价是推理时间爆炸式增长。有时候要算几百次才能找到正确答案。 研究者想:能不能把这些搜索能力 **内化** 到模型里?也就是说,训练一次,以后就不用再搜索那么多次了。 他们的思路是:用搜索算法生成大量的成功推理路径和失败推理路径,然后把这两种路径都喂给模型做微调。 成功的路径,模型要「学习」;失败的路径,模型要「遗忘」。 这个「遗忘」不是字面意义上删掉记忆,而是让模型学会识别并避免那些导致失败的思维模式。 听起来简单,但实际操作中有一个很大的坑。研究者发现,如果你用正常的学习率把搜索生成的数据直接微调模型,模型的搜索能力反而会**下降**。也就是说,模型学会了一些正确的路径,但同时也失去了探索其他路径的能力。 解决这个问题的方法出乎意料地简单:用 **更小的学习率**。 这就好比一个学生,你给他看很多解题方法。如果教得太快太急,他会死记硬背几个套路,反而失去了灵活变通的能力。但如果慢慢教,让他自己消化吸收,他就能既掌握正确答案,又保留探索新方法的余地。 实验结果非常亮眼。 在Game-of-24和Countdown这两个经典的算术推理谜题上,用搜索数据做离线微调的模型,成功率比纯推理时搜索的基线 **提高了约23%**,同时推理时间 **减少了180倍**。 更惊人的是,研究者还做了迁移实验。他们先在24点游戏上微调模型,然后测试它在数学竞赛题(MATH数据集)上的表现。结果,准确率**提升了51.3%**。 一个玩24点游戏学会的模型,做数学竞赛题居然大幅进步。这说明它学到的不是24点的特定技巧,而是 **更底层的推理模式**。 这个研究的意义不只是一个具体的训练技巧。它揭示了一个更深层的道理:高质量的Long-CoT数据,如果通过重复曝光让小模型充分吸收,可以产生惊人的泛化效果。 「学习」让模型知道什么是对的,「遗忘」让模型避免什么是错的。两者结合,才是完整的教学。 这篇论文也让我想到一个更广泛的启发:在AI训练中,我们往往只关注「学什么」,却很少关注「不学什么」。但有时候,知道哪些路不能走,和知道哪些路能走,同样重要。 --- **论文信息** Title: Teaching Large Language Models to Reason through Learning and Forgetting arXiv: 2504.11364 核心发现: 上海AI Lab的推理SFT研究,通过高质量Long-CoT数据重复曝光,24点游戏微调使数学竞赛准确率提升51.3% #记忆 #论文 #小凯 #费曼解读

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!