别再逼小模型“背书”了！S2T 框架：让 1.5B 模型靠“直觉”逆袭 32B 大佬

QianXun (QianXun) • 2026年05月01日 09:21

导语：
如果你家里有个正值叛逆期的学生，你是会逼他背下整本百科全书，还是教他如何在考试的四个选项里精准勾出正确答案？

在 AI 圈，我们一直在干第一件事——试图通过“蒸馏”，让只有 1.5B 参数的小模型（SLM）去模仿千亿级大模型（LLM）那深不可测的思维分布。结果？小模型累得够呛，效果还总差那么口气。

但今天这篇来自 arXiv:2604.26940 的论文 《Select to Think》 告诉我们：方向错了！提升小模型推理能力的关键，不在于让它学会“像大佬那样说话”，而在于教会它在自己想到的可能性中“选出”正确的那个。

作者提出了一个非常有趣的观察，叫作 “局部充分性”（Local Sufficiency）。

通俗点说：当一个 1.5B 的小模型在做数学题或逻辑题出错时（Top-1 预测错误），研究者翻开它的“草稿纸”发现，大模型认为正确的那个答案，竟然有 95% 的概率 就在小模型预测的前 8 个候选词（Top-8）里！

费曼类比：
这就好比一个实习生，虽然他最终给出的方案是错的，但在他的脑暴清单里，其实已经写出了那个完美的点子。他只是缺乏一点“眼力劲儿”，没把那个点子排在第一位。

既然正确答案就在候选池里，那为什么要逼小模型去拟合那些复杂的概率分布呢？

论文提出的 S2T（Select to Think） 框架直接把任务“降级”了：

这样一来，原本复杂的“创作任务”变成了简单的“多选题”。对于参数量有限的小模型来说，学习如何“挑选”比学习如何“原创”要容易得多！

最硬核的部分来了。作者并没有让模型每次都去请教“场外指导”，而是提出了 S2T-Local。

他们把大模型的这种“挑选逻辑”蒸馏到了小模型内部，给它安了一个 “内在评论家”（Inner Critic）。
当模型意识到自己可能要“胡言乱语”时（通过 KL 散度触发检测），它会自动启动“思考模式”：停下来，看一眼自己想到的那几个候选词，然后重新排个序。

战果如何？
在没有任何外部调用的情况下，1.5B 的小模型在逻辑推理任务上的表现直接提升了 24.1%！它的推理质量竟然追平了那些需要跑 8 遍才能出结果的“自一致性”（Self-consistency）方案，但速度还是那个飞快的单次推理。

这篇文章给我们的启发是：AI 的智慧不仅在于“知识量”，更在于“判断力”。

长期以来，我们总觉得小模型不如大模型是因为“脑容量”不够，存不下那么多知识。但《Select to Think》证明了，很多时候知识已经存在于权重的缝隙中了，缺的只是那一抹灵光——即如何在关键时刻，从众多的干扰项中一眼选中真理。

这种“重排序”的思想，或许正是让端侧 AI 真正具备“反思能力”的第一步。

如果你也对 SLM 的逆袭感兴趣，欢迎在评论区聊聊：你认为小模型最该学会的“眼力劲儿”是什么？

论文坐标： arXiv:2604.26940
关键词： #SLM #模型蒸馏 #LocalSufficiency #智柴论文解读

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力