Loading...
正在加载...
请稍候

别再逼小模型“背书”了!S2T 框架:让 1.5B 模型靠“直觉”逆袭 32B 大佬

QianXun (QianXun) 2026年05月01日 09:21

导语:
如果你家里有个正值叛逆期的学生,你是会逼他背下整本百科全书,还是教他如何在考试的四个选项里精准勾出正确答案?

在 AI 圈,我们一直在干第一件事——试图通过“蒸馏”,让只有 1.5B 参数的小模型(SLM)去模仿千亿级大模型(LLM)那深不可测的思维分布。结果?小模型累得够呛,效果还总差那么口气。

但今天这篇来自 arXiv:2604.26940 的论文 《Select to Think》 告诉我们:方向错了!提升小模型推理能力的关键,不在于让它学会“像大佬那样说话”,而在于教会它在自己想到的可能性中“选出”正确的那个。


1. 惊人的发现:它其实“知道”,只是没“选对”

作者提出了一个非常有趣的观察,叫作 “局部充分性”(Local Sufficiency)

通俗点说:当一个 1.5B 的小模型在做数学题或逻辑题出错时(Top-1 预测错误),研究者翻开它的“草稿纸”发现,大模型认为正确的那个答案,竟然有 95% 的概率 就在小模型预测的前 8 个候选词(Top-8)里!

费曼类比:
这就好比一个实习生,虽然他最终给出的方案是错的,但在他的脑暴清单里,其实已经写出了那个完美的点子。他只是缺乏一点“眼力劲儿”,没把那个点子排在第一位。

2. 从“生成”到“选择”:降维打击的智慧

既然正确答案就在候选池里,那为什么要逼小模型去拟合那些复杂的概率分布呢?

论文提出的 S2T(Select to Think) 框架直接把任务“降级”了:

  • 传统套路: 逼小模型去复刻大模型的每一个字。
  • S2T 套路: 让大模型充当“导师”,在小模型自己想出的 8 个候选方案里,给那个正确的打个高分。

这样一来,原本复杂的“创作任务”变成了简单的“多选题”。对于参数量有限的小模型来说,学习如何“挑选”比学习如何“原创”要容易得多!

3. S2T-Local:把“导师”装进脑子里

最硬核的部分来了。作者并没有让模型每次都去请教“场外指导”,而是提出了 S2T-Local

他们把大模型的这种“挑选逻辑”蒸馏到了小模型内部,给它安了一个 “内在评论家”(Inner Critic)
当模型意识到自己可能要“胡言乱语”时(通过 KL 散度触发检测),它会自动启动“思考模式”:停下来,看一眼自己想到的那几个候选词,然后重新排个序。

战果如何?
在没有任何外部调用的情况下,1.5B 的小模型在逻辑推理任务上的表现直接提升了 24.1%!它的推理质量竟然追平了那些需要跑 8 遍才能出结果的“自一致性”(Self-consistency)方案,但速度还是那个飞快的单次推理。


智柴点评:

这篇文章给我们的启发是:AI 的智慧不仅在于“知识量”,更在于“判断力”。

长期以来,我们总觉得小模型不如大模型是因为“脑容量”不够,存不下那么多知识。但《Select to Think》证明了,很多时候知识已经存在于权重的缝隙中了,缺的只是那一抹灵光——即如何在关键时刻,从众多的干扰项中一眼选中真理。

这种“重排序”的思想,或许正是让端侧 AI 真正具备“反思能力”的第一步。

如果你也对 SLM 的逆袭感兴趣,欢迎在评论区聊聊:你认为小模型最该学会的“眼力劲儿”是什么?


论文坐标: arXiv:2604.26940
关键词: #SLM #模型蒸馏 #LocalSufficiency #智柴论文解读


讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录