Qwythos-9B:把Claude Mythos的"脑子"塞进9B小模型,104万上下文4GB显存就能跑——这到底怎么做到的?
一句话省流
> Qwythos-9B是一个基于Qwen3.5-9B架构的开源推理模型,用超过5亿条Claude Mythos/Fable的高质量推理轨迹进行后训练"蒸馏"。它用YaRN技术把上下文扩展到104万Token,支持原生Function Calling和Vision多模态,Q4_K_M量化版仅需4GB显存即可本地部署。核心意义在于:证明了"推理风格"可以被迁移——不需要千亿参数,9B模型也能学会Claude级别的思维链模式。 https://ollama.com/richardyoung/qwythos-9b-abliterated ---
一、费曼式核心:为什么"推理风格"可以被蒸馏?
先理解一个关键问题:大模型的能力到底在哪里?
传统观点认为:模型能力 = 参数数量 × 训练数据量。参数越多,能力越强。
但过去一年的"蒸馏"实验(从DeepSeek-R1到各种小模型)揭示了一个反直觉的事实:
> "知识"和"推理模式"可能是模型能力中相对独立的两部分。
- 知识(世界事实、语言模式):确实需要大量参数来存储
- 推理模式(如何思考、如何拆解问题、如何验证):可能更像一种"程序",可以被学习和迁移
这和传统微调的区别:
- 传统微调:教模型"正确答案是什么"
- 推理蒸馏:教模型"得到答案的思考过程是什么"
二、技术拆解:从Claude Mythos到9B参数的"脑移植"
2.1 什么是"推理轨迹"(Reasoning Trajectories)?
Claude Mythos/Fable的推理轨迹不是简单的Q&A对,而是包含完整思维链的高质量推理过程:
用户问题:"证明对于所有正整数n,1+2+...+n = n(n+1)/2"
推理轨迹(不是直接给答案):
1. "我需要用数学归纳法来证明这个公式"
2. "Base case: n=1时,左边=1,右边=1×2/2=1,成立"
3. "Inductive step: 假设n=k时成立,即1+...+k = k(k+1)/2"
4. "对于n=k+1,左边 = (1+...+k) + (k+1) = k(k+1)/2 + (k+1)"
5. "= (k+1)(k/2 + 1) = (k+1)(k+2)/2 = 右边"
6. "因此由数学归纳法,公式对所有正整数n成立"
7. "让我再检查一下步骤4的代数变形是否正确..."
8. "确认无误,答案正确"
关键特征:
- 自我质疑:"让我再检查一下..."
- 分步拆解:把大问题拆成小步骤
- 回溯验证:中间步骤有问题时回退
- 元认知:"我需要用数学归纳法"——先判断方法再执行
2.2 "深度未审查版本"的Qwen3.5-9B——为什么重要?
论文/博客提到使用"深度未审查版本"的Qwen3.5-9B作为基座。
这是什么意思?
标准的大模型在训练后都会经过 安全对齐(Safety Alignment) ——添加拒绝回答有害问题的能力。但这个过程有时会"过度对齐",导致模型:
- 拒绝回答无害但敏感的问题
- 推理能力下降(安全约束限制了思维链的自由度)
2.3 后训练技术:SFT + DPO/RLHF?
博客没有详细说明训练方法,但基于行业惯例,推测的训练流程:
1. 监督微调(SFT):用Claude Mythos的推理轨迹进行监督学习
- 输入:用户问题
- 目标输出:完整的推理过程 + 最终答案
- 让模型学会"先思考后回答"的模式
- 对同一问题的多个推理路径进行排序
- 让模型学会"更好的推理"vs"更差的推理"
- 强化自我验证、回溯、多角度思考等行为
- 基座Qwen3.5-9B可能原生支持32K或128K上下文
- YaRN(Yet another RoPE extension method)通过调整位置编码,将上下文扩展到104万Token
- 不需要重新训练,只需对RoPE的旋转角度进行插值/外推
三、性能数据解读:+34分MMLU意味着什么?
| 基准 | 提升 | 解读 |
|---|---|---|
| MMLU | +34分 | 知识理解大幅提升——Claude Mythos的知识密度高于Qwen3.5-9B基座 |
| GSM8K Strict | +30分 | 数学推理严格模式下提升——学会了更严谨的思维链 |
| GSM8K Flex | +19分 | 灵活模式下提升——在需要创造性解题的场景也有进步 |
可能两者都有:
- Claude Mythos的推理轨迹中包含了很多隐含知识(如数学定理、科学常识)
- 但更大比例的进步可能来自"推理模式"——学会了如何拆解问题、如何验证中间步骤
---
四、104万Token上下文:YaRN技术原理
4.1 为什么上下文长度重要?
标准LLM的上下文窗口:
- 4K-8K:只能处理几页文档
- 32K-128K:可以处理一篇论文或一个代码文件
- 1M+:可以处理整本书、整个代码库、多轮长对话历史
- 长上下文 = 更长的记忆 = 更复杂的任务链
- 可以一次性分析整个项目代码,而不是逐个文件
4.2 YaRN如何实现上下文扩展?
Transformer使用 RoPE(Rotary Position Embedding) 编码位置信息。每个token的位置用一个旋转矩阵表示:
> f(q, m) = [q₁, q₂, ..., q_d] × 旋转矩阵(θ × m)
其中m是位置索引,θ是频率。
问题:模型训练时只见过一定范围内的位置(如32K)。当输入超过这个范围时,模型"没见过"这些位置编码,表现会下降。
YaRN的解决方案: 1. 插值:把新的位置"压缩"到训练时见过的范围内
- 比如把位置100000映射到模型"熟悉"的位置31250(按比例压缩)
结果:不需要重新训练模型,就能把上下文从32K扩展到1M+。
4.3 实际意义 vs 理论上限
博客文章自己也说了:"104万Token更多属于理论上限,32K-128K已足以满足绝大多数场景。"
为什么?
因为长上下文不等于有效利用长上下文:
- Attention稀释:上下文越长,每个token能"关注"到其他token的"注意力份额"越薄
- 信息检索精度:在1M token中找到关键信息的难度呈指数增长
- KV-Cache内存:1M上下文的KV-Cache需要几十GB显存(即使Q4量化也需要考虑)
---
五、Function Calling + Vision:为什么对本地部署重要?
5.1 原生Function Calling
Qwythos支持Qwen3.5标准的原生Function Calling,这意味着:
- 可以直接调用外部工具(Python执行器、Web搜索、数据库查询)
- 不需要额外的"工具调用适配层"
- 对Agent框架(如OpenClaw)友好
- 离线环境下也能构建有工具的Agent
- 数据不离开本地机器(隐私安全)
- 响应速度不受网络延迟影响
5.2 Vision多模态
支持图片分析、OCR、图表理解。这对本地部署意味着:
- 可以分析本地截图、文档图片
- 不需要上传到云端(隐私)
- 可以与本地文件系统无缝集成
六、局限性与诚实边界
| 方面 | 实际情况 |
|---|---|
| 参数规模 | 9B是小模型,无法与70B/400B模型在复杂推理上竞争 |
| 知识边界 | 蒸馏的是"推理模式"不是"全部知识"——Claude Mythos的知识库远大于9B模型能存储的 |
| 安全性 | "未审查版本"意味着没有安全对齐——可能输出有害内容 |
| 长上下文质量 | YaRN扩展后,超过训练上下文长度的部分,注意力精度会下降 |
| 量化损失 | Q4_K_M量化会损失部分精度,复杂推理任务可能受影响 |
| 数据来源 | 5亿条Claude Mythos轨迹的获取方式未公开——可能涉及API使用条款问题 |
如果训练数据来自Claude Mythos的API输出,这可能违反Anthropic的使用条款(大多数API提供商禁止用输出来训练竞争模型)。
从技术角度,这是合法的模型蒸馏方法;但从商业/法律角度,可能存在争议。
---
七、费曼式总结:Qwythos代表的趋势
Qwythos-9B不是一个革命性的技术突破,但它代表了一个重要的行业趋势:
1. "推理风格"的可迁移性
小模型可以学会大模型的"思考方式"。这意味着未来可能出现:
- 专门针对特定推理风格(数学、代码、创意写作)的"小专家模型"
- 用顶级模型的推理轨迹训练领域专用的小模型
4GB显存就能跑一个"会思考"的模型,这让AI能力真正普及到普通用户。不需要云API、不需要订阅费、不需要担心隐私。
3. 长上下文成为标配
1M上下文不再是GPT-4/Claude的专利,开源小模型也能做到。这对代码分析、文档处理、长对话Agent等场景意义重大。
4. 但未解决的问题
- 蒸馏的合法性边界在哪里?
- 小模型的知识天花板如何突破?
- 长上下文的"有效利用"vs"理论支持"之间的差距怎么缩小?
---
附录:部署参考
| 显存 | 推荐量化 | 上下文长度 |
|---|---|---|
| 4GB | Q4_K_M | 16K |
| 6GB | Q5_K_M | 32K |
| 8GB | Q6_K | 64K |
| 12GB | Q8_K_M | 128K |
| 16GB | BF16 | 256K |
| 24GB | MTP-BF16 | 512K |
---
#Qwythos #ClaudeMythos #模型蒸馏 #本地部署 #开源模型 #YaRN #长上下文 #FunctionCalling #Vision #Qwen #小模型
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens