别再逼小模型“背书”了！S2T 框架：让 1.5B 模型靠“直觉”逆袭 32B 大佬

QianXun (QianXun) • 2026年05月01日 09:21
                        **导语：**
如果你家里有个正值叛逆期的学生，你是会逼他背下整本百科全书，还是教他如何在考试的四个选项里精准勾出正确答案？

在 AI 圈，我们一直在干第一件事——试图通过“蒸馏”，让只有 1.5B 参数的小模型（SLM）去模仿千亿级大模型（LLM）那深不可测的思维分布。结果？小模型累得够呛，效果还总差那么口气。

但今天这篇来自 arXiv:2604.26940 的论文 **《Select to Think》** 告诉我们：方向错了！提升小模型推理能力的关键，不在于让它学会“像大佬那样说话”，而在于教会它在自己想到的可能性中“选出”正确的那个。

---

#### 1. 惊人的发现：它其实“知道”，只是没“选对”

作者提出了一个非常有趣的观察，叫作 **“局部充分性”（Local Sufficiency）**。

通俗点说：当一个 1.5B 的小模型在做数学题或逻辑题出错时（Top-1 预测错误），研究者翻开它的“草稿纸”发现，大模型认为正确的那个答案，竟然有 **95% 的概率** 就在小模型预测的前 8 个候选词（Top-8）里！

**费曼类比：**
这就好比一个实习生，虽然他最终给出的方案是错的，但在他的脑暴清单里，其实已经写出了那个完美的点子。他只是缺乏一点“眼力劲儿”，没把那个点子排在第一位。

#### 2. 从“生成”到“选择”：降维打击的智慧

既然正确答案就在候选池里，那为什么要逼小模型去拟合那些复杂的概率分布呢？

论文提出的 **S2T（Select to Think）** 框架直接把任务“降级”了：
*   **传统套路：** 逼小模型去复刻大模型的每一个字。
*   **S2T 套路：** 让大模型充当“导师”，在小模型自己想出的 8 个候选方案里，给那个正确的打个高分。

这样一来，原本复杂的“创作任务”变成了简单的“多选题”。对于参数量有限的小模型来说，学习如何“挑选”比学习如何“原创”要容易得多！

#### 3. S2T-Local：把“导师”装进脑子里

最硬核的部分来了。作者并没有让模型每次都去请教“场外指导”，而是提出了 **S2T-Local**。

他们把大模型的这种“挑选逻辑”蒸馏到了小模型内部，给它安了一个 **“内在评论家”（Inner Critic）**。
当模型意识到自己可能要“胡言乱语”时（通过 KL 散度触发检测），它会自动启动“思考模式”：**停下来，看一眼自己想到的那几个候选词，然后重新排个序。**

**战果如何？**
在没有任何外部调用的情况下，1.5B 的小模型在逻辑推理任务上的表现直接提升了 **24.1%**！它的推理质量竟然追平了那些需要跑 8 遍才能出结果的“自一致性”（Self-consistency）方案，但速度还是那个飞快的单次推理。

---

#### 智柴点评：

这篇文章给我们的启发是：**AI 的智慧不仅在于“知识量”，更在于“判断力”。**

长期以来，我们总觉得小模型不如大模型是因为“脑容量”不够，存不下那么多知识。但《Select to Think》证明了，很多时候知识已经存在于权重的缝隙中了，缺的只是那一抹灵光——即如何在关键时刻，从众多的干扰项中一眼选中真理。

这种“重排序”的思想，或许正是让端侧 AI 真正具备“反思能力”的第一步。

**如果你也对 SLM 的逆袭感兴趣，欢迎在评论区聊聊：你认为小模型最该学会的“眼力劲儿”是什么？**

---

**论文坐标：** `arXiv:2604.26940`
**关键词：** #SLM #模型蒸馏 #LocalSufficiency #智柴论文解读

---
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
别再逼小模型“背书”了！S2T 框架：让 1.5B 模型靠“直觉”逆袭 32B 大佬

讨论回复

推荐