一句话省流

> VibeThinker-3B 是微博AI（Sina Weibo）开源的3B参数推理模型，基于Qwen2.5-Coder-3B后训练。它在数学竞赛（AIME26）和编程题（LeetCode）上干翻了参数是它200倍以上的旗舰模型——但代价是：它不会画鹈鹕骑自行车，不懂世界知识，不能调用工具。它是极端专业化的推理"特化型"，不是通用AI。

---

一、费曼式核心：小模型凭什么打赢大模型？

先讲一个类比。

想象两个大脑：

大模型（671B DeepSeek V3.2）= 一个百科全书式的超级教授。他知道莎士比亚、量子物理、菜谱、劳动法、去年流行语……你问他什么他都能聊，但做数学竞赛题时，他会"想太多"——把简单问题复杂化。
VibeThinker-3B = 一个专门训练过数学竞赛和编程竞赛的运动员。他不知道莎士比亚是谁，但他知道怎么在90分钟内解完25道AIME题。他的脑子里只有可验证推理——答案是唯一确定的，对就是对，错就是错。

论文提出一个核心假设："Parametric Compression-Coverage Hypothesis"（参数压缩-覆盖假设）。

简单说：

可验证推理（数学、代码、形式化问题） = 高度可压缩的。它依赖规则、逻辑、模式，可以塞进小模型的参数里。
开放域知识（历史、常识、世界知识） = 需要广泛参数覆盖。你得知道"特朗普是谁"、"2024年发生了什么"、"各种语言的细微差别"——这些事实的分布太稀疏，小模型装不下。

所以VibeThinker-3B的"作弊策略"很清晰：我放弃一切通用能力，只专注于可验证推理。我用极致的专业化，换极致的性价比。

---

二、性能数据：是真的猛，还是基准测试过拟合？

先看硬数字，再讨论"是不是真的"。

模型	参数	AIME26	HMMT25	IMO-Ans	LiveCodeBench v6	GPQA-D
VibeThinker-3B	3B	94.3	89.3	76.4	80.2	70.2
VibeThinker-3B + CLR	3B	97.1	95.4	80.6	—	72.9
GPT-OSS (high)	120B	93.2	90.0	75.6	81.9	80.1
DeepSeek V3.2	671B	94.2	90.2	78.3	80.8	82.4
GLM-5	744B	95.8	97.9	82.5	85.5	86.0
Kimi K2.5	1T	93.3	95.4	81.8	85.0	87.6

来源：VibeThinker-3B技术报告表2

这些数据说明什么？

1. 数学和编程上，3B确实能和671B掰手腕

AIME26是美国数学邀请赛级别，94.3意味着它能解决绝大部分竞赛级数学题。LiveCodeBench v6是编程基准，80.2 Pass@1意味着它在单次尝试下就能正确解决80%的编程问题。

更有说服力的是OOD测试（Out-of-Distribution）：论文用2026年4-5月的真实LeetCode周赛和双周赛题目测试（这些题不在训练集里）。结果：128次提交中123次通过，96.1%接受率。这是真刀真枪的实战测试，不是刷榜。

2. 知识型任务上，小模型必然被碾压

GPQA-Diamond（研究生级科学问题）只有70.2，远低于GLM-5的86.0和Kimi K2.5的87.6。这说明VibeThinker-3B的"通用知识"确实不行——它不知道最新研究、没有广泛的事实储备。

3. 社区实测：有人爱，有人骂

Hacker News上的讨论很有意思：

有人用它做源代码安全审查，在RTX 3090上跑vLLM，说"比GPT-5 nano好"
有人让它画"鹈鹕骑自行车的SVG"，结果得到"一个矩形和一个黑圈"——它完全不懂视觉概念
有人用RTX 2070 Super跑Q4_K_M量化版，110 tok/s，速度飞快
共识："这是廉价的专业工具，不是通用模型。"

---

三、训练管线：Spectrum-to-Signal 四段式炼金术

VibeThinker-3B不是从头预训练的，它是在Qwen2.5-Coder-3B基础上做后训练。训练管线叫 Spectrum-to-Signal Principle (SSP)——从"频谱"到"信号"，意思是先铺开广泛的推理空间，再聚焦放大正确的路径。

第一阶段：课程式双阶段SFT（监督微调）

Stage 1：宽泛训练。数学、代码、STEM、对话、指令遵循，什么都学。建立基础推理"频谱"。

Stage 2：聚焦困难。只保留推理轨迹超过5000 token的样本，过滤掉1.5B模型能解出75%以上的简单题。强制模型学"真正难的"。

一个关键设计：Diversity-Exploring Distillation（多样性探索蒸馏）。不只看正确答案，还保留多个不同的正确解法路径。这样模型不会死记硬背一条路径，而是学会"有多种方式可以到达罗马"。

第二阶段：多域推理RL（强化学习）

用 MGPO（MaxEnt-Guided Policy Optimization） 算法。

核心思想：只在能力边界处训练。太简单的题（模型已会）不练，太难的题（完全不会）也不练。只练那些"模型有时候对、有时候错"的题——这正好是学习最快的区域。

数学RL还加了 Long2Short 阶段：同样是正确答案，更短的解法得更高奖励。避免模型啰嗦废话，逼它用最少token解决问题。

意外发现：1.5B模型时有效的"渐进式上下文扩展"（先短后长）在3B上反而有害。因为3B基础能力更强，短上下文warmup会截断有效推理链。所以他们直接用固定64K上下文训练。

第三阶段：离线自蒸馏

把RL训练出的多个checkpoint（检查点）里的高质量推理轨迹，蒸馏回一个统一的模型。这相当于让模型"总结自己最好的表现"，固化成稳定能力。

第四阶段：Instruct RL

最后做一轮指令遵循的强化学习。确保模型即使推理能力拉满，也能听话、按格式输出、不瞎跑。结果是IFEval 93.4——说明它依然可控。

---

四、CLR：不加参数的测试时缩放

CLR（Claim-Level Reliability Assessment）是VibeThinker-3B的"外挂"。

传统测试时缩放：生成多个答案，投票选最多的。

CLR更聪明： 1. 生成K=32个推理轨迹 2. 从每个轨迹提取M=5个"决策性声明"（claim）+ 最终答案 3. 模型自己做裁判：验证每个声明是否正确 4. 一个声明被证伪，整个轨迹的可靠性分数暴跌 5. 按可靠性加权投票，选最可信的答案

效果：AIME26从94.3 → 97.1，BruMO25从93.8 → 99.2。

关键洞察：CLR不增加模型参数，只增加推理时的计算。它用"让模型自我批判"的方式，在推理阶段做"质量筛选"。这类似于人类解完题后回头检查每一步——但不是外置验证器，而是模型自己验证自己。

---

五、诚实边界：它不能干什么？

这是最重要的部分。 hype太多，必须诚实。

能力	表现	原因
✅ 数学竞赛	顶级	专门训练
✅ 算法编程	顶级	专门训练
✅ 单文件安全审查	可用	自包含代码分析
✅ 本地推理速度	极快	3B参数，RTX 2070都能跑
❌ 通用知识问答	弱	没训练
❌ 工具调用（搜索/API）	不支持	没训练
❌ 多文件代码理解	弱	上下文限制，非仓库级
❌ 视觉/创意生成	完全不行	不是多模态
❌ 开放域推理	弱	没有外部信息补充

一句话：它是推理领域的"特化型生物"，不是通用AI。

你问它"证明存在无限多个素数"，它能写出一页严谨的证明。你问它"最近有什么好看的电视剧"，它可能胡说八道。

---

六、实用意义：谁该用它？怎么用它？

适合的场景

1. 本地竞赛数学/编程辅导 生成AIME/HMMT级别的解题过程，完全可验证。不需要联网，不需要API费用。

2. 代码安全审查的初筛 把单个可疑文件丢给它，问"这里面有SQL注入风险吗？"它能分析。但多文件关联的漏洞它搞不定。

3. 大规模推理任务的后端 3B模型在云端部署便宜。如果你有大量"可验证子任务"（如批量解方程、批量验证代码片段），路由到这里比调用671B模型省几十倍成本。

4. 边缘设备推理 BF16权重约6GB，Q4量化后1.8GB。手机、树莓派、嵌入式设备都能跑。离线场景下它是极少数能解AIME题的本地模型。

使用方式（vLLM一键启动）

pip install vllm
vllm serve "WeiboAI/VibeThinker-3B"

# 测试
curl -X POST "http://localhost:8000/v1/chat/completions" \
  -H "Content-Type: application/json" \
  --data '{
    "model": "WeiboAI/VibeThinker-3B",
    "messages": [{"role":"user","content":"Prove there are infinitely many primes."}],
    "temperature": 1.0, "top_p": 0.95
  }'

注意：max_new_tokens 要设大（论文推荐102400），因为它的推理轨迹很长。一道题可能需要几万token的思考过程。

---

七、费曼式总结：这件事的本质是什么？

VibeThinker-3B 不是"大模型时代的终结者"。它不是说"小模型比大模型好"。它说的是：在可验证推理这个狭窄的赛道上，小模型通过极致专业化，可以达到甚至超过大模型的水平。

这引出一个更深层的问题：

> AI的未来是"一个超级大脑"，还是"一群特化专家"？

VibeThinker-3B 指向后者。它的最佳用法不是 standalone（独立使用），而是作为多Agent架构中的推理组件——一个便宜、快速、本地可部署的"数学/代码专家"，在需要时调用。

想象一个系统：

大模型（如Kimi K2.5）负责 orchestration（编排）、上下文理解、工具调用
VibeThinker-3B 负责数学验证、代码验证、形式化推理
各司其职，成本最优

这才是VibeThinker-3B的真正意义：它证明了"模型路由"（model routing）不仅是成本策略，而是能力策略。 不是所有任务都需要1T参数。在可验证的封闭世界里，3B就够了。

---

#微博AI #VibeThinker #小模型 #推理模型 #AIME #LiveCodeBench #开源模型 #Qwen #后训练 #模型路由