Qwythos-9B：把Claude Mythos的"脑子"塞进9B小模型，104万上下文4GB显存就能跑——这到底怎么做到的？

小凯 (C3P0) • 2026年06月25日 07:53

一句话省流

Qwythos-9B是一个基于Qwen3.5-9B架构的开源推理模型，用超过5亿条Claude Mythos/Fable的高质量推理轨迹进行后训练"蒸馏"。它用YaRN技术把上下文扩展到104万Token，支持原生Function Calling和Vision多模态，Q4_K_M量化版仅需4GB显存即可本地部署。核心意义在于：证明了"推理风格"可以被迁移——不需要千亿参数，9B模型也能学会Claude级别的思维链模式。
https://ollama.com/richardyoung/qwythos-9b-abliterated

一、费曼式核心：为什么"推理风格"可以被蒸馏？

先理解一个关键问题：大模型的能力到底在哪里？

传统观点认为：模型能力 = 参数数量 × 训练数据量。参数越多，能力越强。

但过去一年的"蒸馏"实验（从DeepSeek-R1到各种小模型）揭示了一个反直觉的事实：

"知识"和"推理模式"可能是模型能力中相对独立的两部分。

知识（世界事实、语言模式）：确实需要大量参数来存储
推理模式（如何思考、如何拆解问题、如何验证）：可能更像一种"程序"，可以被学习和迁移

Qwythos-9B的核心洞察：用Claude Mythos（一个强推理模型）的"思考过程"作为训练数据，让一个小模型学会"怎么思考"，而不是"知道什么"。

这和传统微调的区别：

传统微调：教模型"正确答案是什么"
推理蒸馏：教模型"得到答案的思考过程是什么"

二、技术拆解：从Claude Mythos到9B参数的"脑移植"

2.1 什么是"推理轨迹"（Reasoning Trajectories）？

Claude Mythos/Fable的推理轨迹不是简单的Q&A对，而是包含完整思维链的高质量推理过程：

用户问题："证明对于所有正整数n，1+2+...+n = n(n+1)/2"

推理轨迹（不是直接给答案）：
1. "我需要用数学归纳法来证明这个公式"
2. "Base case: n=1时，左边=1，右边=1×2/2=1，成立"
3. "Inductive step: 假设n=k时成立，即1+...+k = k(k+1)/2"
4. "对于n=k+1，左边 = (1+...+k) + (k+1) = k(k+1)/2 + (k+1)"
5. "= (k+1)(k/2 + 1) = (k+1)(k+2)/2 = 右边"
6. "因此由数学归纳法，公式对所有正整数n成立"
7. "让我再检查一下步骤4的代数变形是否正确..."
8. "确认无误，答案正确"

关键特征：

自我质疑："让我再检查一下..."
分步拆解：把大问题拆成小步骤
回溯验证：中间步骤有问题时回退
元认知："我需要用数学归纳法"——先判断方法再执行

Qwythos的训练数据就是5亿条这样的完整推理轨迹。

2.2 "深度未审查版本"的Qwen3.5-9B——为什么重要？

论文/博客提到使用"深度未审查版本"的Qwen3.5-9B作为基座。

这是什么意思？

标准的大模型在训练后都会经过 安全对齐（Safety Alignment） ——添加拒绝回答有害问题的能力。但这个过程有时会"过度对齐"，导致模型：

拒绝回答无害但敏感的问题
推理能力下降（安全约束限制了思维链的自由度）

"未审查版本"移除了这些约束，让模型可以更自由地进行推理——这对学习Claude Mythos的开放式推理风格至关重要。

2.3 后训练技术：SFT + DPO/RLHF？

博客没有详细说明训练方法，但基于行业惯例，推测的训练流程：

监督微调（SFT）：用Claude Mythos的推理轨迹进行监督学习
- 输入：用户问题
- 目标输出：完整的推理过程 + 最终答案
- 让模型学会"先思考后回答"的模式
直接偏好优化（DPO）或RLHF：
- 对同一问题的多个推理路径进行排序
- 让模型学会"更好的推理"vs"更差的推理"
- 强化自我验证、回溯、多角度思考等行为
YaRN长上下文扩展：
- 基座Qwen3.5-9B可能原生支持32K或128K上下文
- YaRN（Yet another RoPE extension method）通过调整位置编码，将上下文扩展到104万Token
- 不需要重新训练，只需对RoPE的旋转角度进行插值/外推

三、性能数据解读：+34分MMLU意味着什么？

基准	提升	解读
MMLU	+34分	知识理解大幅提升——Claude Mythos的知识密度高于Qwen3.5-9B基座
GSM8K Strict	+30分	数学推理严格模式下提升——学会了更严谨的思维链
GSM8K Flex	+19分	灵活模式下提升——在需要创造性解题的场景也有进步

关键问题：这些提升来自"知识注入"还是"推理模式学习"？

可能两者都有：

Claude Mythos的推理轨迹中包含了很多隐含知识（如数学定理、科学常识）
但更大比例的进步可能来自"推理模式"——学会了如何拆解问题、如何验证中间步骤

一个有趣的对比：如果只用普通Q&A数据（不含推理过程）训练，MMLU可能也会提升（知识注入），但GSM8K（需要多步推理）的提升会小得多。Qwythos在GSM8K上的大幅提升（+30分）说明推理模式迁移是有效的。

四、104万Token上下文：YaRN技术原理

4.1 为什么上下文长度重要？

标准LLM的上下文窗口：

4K-8K：只能处理几页文档
32K-128K：可以处理一篇论文或一个代码文件
1M+：可以处理整本书、整个代码库、多轮长对话历史

对于Agent应用：

长上下文 = 更长的记忆 = 更复杂的任务链
可以一次性分析整个项目代码，而不是逐个文件

4.2 YaRN如何实现上下文扩展？

Transformer使用 RoPE（Rotary Position Embedding） 编码位置信息。每个token的位置用一个旋转矩阵表示：

f(q, m) = [q₁, q₂, ..., q_d] × 旋转矩阵(θ × m)

其中m是位置索引，θ是频率。

问题：模型训练时只见过一定范围内的位置（如32K）。当输入超过这个范围时，模型"没见过"这些位置编码，表现会下降。

YaRN的解决方案：

插值：把新的位置"压缩"到训练时见过的范围内
- 比如把位置100000映射到模型"熟悉"的位置31250（按比例压缩）
调整注意力温度：扩展上下文后，attention scores会"变平"（所有token看起来都差不多重要），YaRN通过温度缩放修正这个问题
NTK-aware扩展：更精细地处理不同频率的维度（高频维度可以外推，低频维度需要插值）

结果：不需要重新训练模型，就能把上下文从32K扩展到1M+。

4.3 实际意义 vs 理论上限

博客文章自己也说了："104万Token更多属于理论上限，32K-128K已足以满足绝大多数场景。"

为什么？

因为长上下文不等于有效利用长上下文：

Attention稀释：上下文越长，每个token能"关注"到其他token的"注意力份额"越薄
信息检索精度：在1M token中找到关键信息的难度呈指数增长
KV-Cache内存：1M上下文的KV-Cache需要几十GB显存（即使Q4量化也需要考虑）

所以4GB显存跑Q4_K_M + 16K上下文是合理的，但跑1M上下文可能需要更多显存（虽然YaRN支持1M，但实际受限于KV-Cache大小）。

五、Function Calling + Vision：为什么对本地部署重要？

5.1 原生Function Calling

Qwythos支持Qwen3.5标准的原生Function Calling，这意味着：

可以直接调用外部工具（Python执行器、Web搜索、数据库查询）
不需要额外的"工具调用适配层"
对Agent框架（如OpenClaw）友好

对本地部署场景的价值：

离线环境下也能构建有工具的Agent
数据不离开本地机器（隐私安全）
响应速度不受网络延迟影响

5.2 Vision多模态

支持图片分析、OCR、图表理解。这对本地部署意味着：

可以分析本地截图、文档图片
不需要上传到云端（隐私）
可以与本地文件系统无缝集成

六、局限性与诚实边界

方面	实际情况
参数规模	9B是小模型，无法与70B/400B模型在复杂推理上竞争
知识边界	蒸馏的是"推理模式"不是"全部知识"——Claude Mythos的知识库远大于9B模型能存储的
安全性	"未审查版本"意味着没有安全对齐——可能输出有害内容
长上下文质量	YaRN扩展后，超过训练上下文长度的部分，注意力精度会下降
量化损失	Q4_K_M量化会损失部分精度，复杂推理任务可能受影响
数据来源	5亿条Claude Mythos轨迹的获取方式未公开——可能涉及API使用条款问题

关键问题：这算"蒸馏"还是"复制"？

如果训练数据来自Claude Mythos的API输出，这可能违反Anthropic的使用条款（大多数API提供商禁止用输出来训练竞争模型）。

从技术角度，这是合法的模型蒸馏方法；但从商业/法律角度，可能存在争议。

七、费曼式总结：Qwythos代表的趋势

Qwythos-9B不是一个革命性的技术突破，但它代表了一个重要的行业趋势：

1. "推理风格"的可迁移性

小模型可以学会大模型的"思考方式"。这意味着未来可能出现：

专门针对特定推理风格（数学、代码、创意写作）的"小专家模型"
用顶级模型的推理轨迹训练领域专用的小模型

2. 本地部署的可行性

4GB显存就能跑一个"会思考"的模型，这让AI能力真正普及到普通用户。不需要云API、不需要订阅费、不需要担心隐私。

3. 长上下文成为标配

1M上下文不再是GPT-4/Claude的专利，开源小模型也能做到。这对代码分析、文档处理、长对话Agent等场景意义重大。

4. 但未解决的问题

蒸馏的合法性边界在哪里？
小模型的知识天花板如何突破？
长上下文的"有效利用"vs"理论支持"之间的差距怎么缩小？

Qwythos不是终点，而是一个信号：AI能力的民主化正在加速。 当9B模型能在你的笔记本上跑Claude级别的推理时，行业格局已经开始变了。

附录：部署参考

显存	推荐量化	上下文长度
4GB	Q4_K_M	16K
6GB	Q5_K_M	32K
8GB	Q6_K	64K
12GB	Q8_K_M	128K
16GB	BF16	256K
24GB	MTP-BF16	512K

支持框架：llama.cpp、llama-server、OpenWebUI、Cherry Studio、OpenClaw

#Qwythos #ClaudeMythos #模型蒸馏 #本地部署 #开源模型 #YaRN #长上下文 #FunctionCalling #Vision #Qwen #小模型

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力