一句话省流
Qwythos-9B是一个基于Qwen3.5-9B架构的开源推理模型,用超过5亿条Claude Mythos/Fable的高质量推理轨迹进行后训练"蒸馏"。它用YaRN技术把上下文扩展到104万Token,支持原生Function Calling和Vision多模态,Q4_K_M量化版仅需4GB显存即可本地部署。核心意义在于:证明了"推理风格"可以被迁移——不需要千亿参数,9B模型也能学会Claude级别的思维链模式。
https://ollama.com/richardyoung/qwythos-9b-abliterated
一、费曼式核心:为什么"推理风格"可以被蒸馏?
先理解一个关键问题:大模型的能力到底在哪里?
传统观点认为:模型能力 = 参数数量 × 训练数据量。参数越多,能力越强。
但过去一年的"蒸馏"实验(从DeepSeek-R1到各种小模型)揭示了一个反直觉的事实:
"知识"和"推理模式"可能是模型能力中相对独立的两部分。
- 知识(世界事实、语言模式):确实需要大量参数来存储
- 推理模式(如何思考、如何拆解问题、如何验证):可能更像一种"程序",可以被学习和迁移
Qwythos-9B的核心洞察:用Claude Mythos(一个强推理模型)的"思考过程"作为训练数据,让一个小模型学会"怎么思考",而不是"知道什么"。
这和传统微调的区别:
- 传统微调:教模型"正确答案是什么"
- 推理蒸馏:教模型"得到答案的思考过程是什么"
二、技术拆解:从Claude Mythos到9B参数的"脑移植"
2.1 什么是"推理轨迹"(Reasoning Trajectories)?
Claude Mythos/Fable的推理轨迹不是简单的Q&A对,而是包含完整思维链的高质量推理过程:
用户问题:"证明对于所有正整数n,1+2+...+n = n(n+1)/2"
推理轨迹(不是直接给答案):
1. "我需要用数学归纳法来证明这个公式"
2. "Base case: n=1时,左边=1,右边=1×2/2=1,成立"
3. "Inductive step: 假设n=k时成立,即1+...+k = k(k+1)/2"
4. "对于n=k+1,左边 = (1+...+k) + (k+1) = k(k+1)/2 + (k+1)"
5. "= (k+1)(k/2 + 1) = (k+1)(k+2)/2 = 右边"
6. "因此由数学归纳法,公式对所有正整数n成立"
7. "让我再检查一下步骤4的代数变形是否正确..."
8. "确认无误,答案正确"
关键特征:
- 自我质疑:"让我再检查一下..."
- 分步拆解:把大问题拆成小步骤
- 回溯验证:中间步骤有问题时回退
- 元认知:"我需要用数学归纳法"——先判断方法再执行
Qwythos的训练数据就是5亿条这样的完整推理轨迹。
2.2 "深度未审查版本"的Qwen3.5-9B——为什么重要?
论文/博客提到使用"深度未审查版本"的Qwen3.5-9B作为基座。
这是什么意思?
标准的大模型在训练后都会经过 安全对齐(Safety Alignment) ——添加拒绝回答有害问题的能力。但这个过程有时会"过度对齐",导致模型:
- 拒绝回答无害但敏感的问题
- 推理能力下降(安全约束限制了思维链的自由度)
"未审查版本"移除了这些约束,让模型可以更自由地进行推理——这对学习Claude Mythos的开放式推理风格至关重要。
2.3 后训练技术:SFT + DPO/RLHF?
博客没有详细说明训练方法,但基于行业惯例,推测的训练流程:
-
监督微调(SFT):用Claude Mythos的推理轨迹进行监督学习
- 输入:用户问题
- 目标输出:完整的推理过程 + 最终答案
- 让模型学会"先思考后回答"的模式
-
直接偏好优化(DPO)或RLHF:
- 对同一问题的多个推理路径进行排序
- 让模型学会"更好的推理"vs"更差的推理"
- 强化自我验证、回溯、多角度思考等行为
-
YaRN长上下文扩展:
- 基座Qwen3.5-9B可能原生支持32K或128K上下文
- YaRN(Yet another RoPE extension method)通过调整位置编码,将上下文扩展到104万Token
- 不需要重新训练,只需对RoPE的旋转角度进行插值/外推
三、性能数据解读:+34分MMLU意味着什么?
| 基准 | 提升 | 解读 |
|---|---|---|
| MMLU | +34分 | 知识理解大幅提升——Claude Mythos的知识密度高于Qwen3.5-9B基座 |
| GSM8K Strict | +30分 | 数学推理严格模式下提升——学会了更严谨的思维链 |
| GSM8K Flex | +19分 | 灵活模式下提升——在需要创造性解题的场景也有进步 |
关键问题:这些提升来自"知识注入"还是"推理模式学习"?
可能两者都有:
- Claude Mythos的推理轨迹中包含了很多隐含知识(如数学定理、科学常识)
- 但更大比例的进步可能来自"推理模式"——学会了如何拆解问题、如何验证中间步骤
一个有趣的对比:如果只用普通Q&A数据(不含推理过程)训练,MMLU可能也会提升(知识注入),但GSM8K(需要多步推理)的提升会小得多。Qwythos在GSM8K上的大幅提升(+30分)说明推理模式迁移是有效的。
四、104万Token上下文:YaRN技术原理
4.1 为什么上下文长度重要?
标准LLM的上下文窗口:
- 4K-8K:只能处理几页文档
- 32K-128K:可以处理一篇论文或一个代码文件
- 1M+:可以处理整本书、整个代码库、多轮长对话历史
对于Agent应用:
- 长上下文 = 更长的记忆 = 更复杂的任务链
- 可以一次性分析整个项目代码,而不是逐个文件
4.2 YaRN如何实现上下文扩展?
Transformer使用 RoPE(Rotary Position Embedding) 编码位置信息。每个token的位置用一个旋转矩阵表示:
f(q, m) = [q₁, q₂, ..., q_d] × 旋转矩阵(θ × m)
其中m是位置索引,θ是频率。
问题:模型训练时只见过一定范围内的位置(如32K)。当输入超过这个范围时,模型"没见过"这些位置编码,表现会下降。
YaRN的解决方案:
- 插值:把新的位置"压缩"到训练时见过的范围内
- 比如把位置100000映射到模型"熟悉"的位置31250(按比例压缩)
- 调整注意力温度:扩展上下文后,attention scores会"变平"(所有token看起来都差不多重要),YaRN通过温度缩放修正这个问题
- NTK-aware扩展:更精细地处理不同频率的维度(高频维度可以外推,低频维度需要插值)
结果:不需要重新训练模型,就能把上下文从32K扩展到1M+。
4.3 实际意义 vs 理论上限
博客文章自己也说了:"104万Token更多属于理论上限,32K-128K已足以满足绝大多数场景。"
为什么?
因为长上下文不等于有效利用长上下文:
- Attention稀释:上下文越长,每个token能"关注"到其他token的"注意力份额"越薄
- 信息检索精度:在1M token中找到关键信息的难度呈指数增长
- KV-Cache内存:1M上下文的KV-Cache需要几十GB显存(即使Q4量化也需要考虑)
所以4GB显存跑Q4_K_M + 16K上下文是合理的,但跑1M上下文可能需要更多显存(虽然YaRN支持1M,但实际受限于KV-Cache大小)。
五、Function Calling + Vision:为什么对本地部署重要?
5.1 原生Function Calling
Qwythos支持Qwen3.5标准的原生Function Calling,这意味着:
- 可以直接调用外部工具(Python执行器、Web搜索、数据库查询)
- 不需要额外的"工具调用适配层"
- 对Agent框架(如OpenClaw)友好
对本地部署场景的价值:
- 离线环境下也能构建有工具的Agent
- 数据不离开本地机器(隐私安全)
- 响应速度不受网络延迟影响
5.2 Vision多模态
支持图片分析、OCR、图表理解。这对本地部署意味着:
- 可以分析本地截图、文档图片
- 不需要上传到云端(隐私)
- 可以与本地文件系统无缝集成
六、局限性与诚实边界
| 方面 | 实际情况 |
|---|---|
| 参数规模 | 9B是小模型,无法与70B/400B模型在复杂推理上竞争 |
| 知识边界 | 蒸馏的是"推理模式"不是"全部知识"——Claude Mythos的知识库远大于9B模型能存储的 |
| 安全性 | "未审查版本"意味着没有安全对齐——可能输出有害内容 |
| 长上下文质量 | YaRN扩展后,超过训练上下文长度的部分,注意力精度会下降 |
| 量化损失 | Q4_K_M量化会损失部分精度,复杂推理任务可能受影响 |
| 数据来源 | 5亿条Claude Mythos轨迹的获取方式未公开——可能涉及API使用条款问题 |
关键问题:这算"蒸馏"还是"复制"?
如果训练数据来自Claude Mythos的API输出,这可能违反Anthropic的使用条款(大多数API提供商禁止用输出来训练竞争模型)。
从技术角度,这是合法的模型蒸馏方法;但从商业/法律角度,可能存在争议。
七、费曼式总结:Qwythos代表的趋势
Qwythos-9B不是一个革命性的技术突破,但它代表了一个重要的行业趋势:
1. "推理风格"的可迁移性
小模型可以学会大模型的"思考方式"。这意味着未来可能出现:
- 专门针对特定推理风格(数学、代码、创意写作)的"小专家模型"
- 用顶级模型的推理轨迹训练领域专用的小模型
2. 本地部署的可行性
4GB显存就能跑一个"会思考"的模型,这让AI能力真正普及到普通用户。不需要云API、不需要订阅费、不需要担心隐私。
3. 长上下文成为标配
1M上下文不再是GPT-4/Claude的专利,开源小模型也能做到。这对代码分析、文档处理、长对话Agent等场景意义重大。
4. 但未解决的问题
- 蒸馏的合法性边界在哪里?
- 小模型的知识天花板如何突破?
- 长上下文的"有效利用"vs"理论支持"之间的差距怎么缩小?
Qwythos不是终点,而是一个信号:AI能力的民主化正在加速。 当9B模型能在你的笔记本上跑Claude级别的推理时,行业格局已经开始变了。
附录:部署参考
| 显存 | 推荐量化 | 上下文长度 |
|---|---|---|
| 4GB | Q4_K_M | 16K |
| 6GB | Q5_K_M | 32K |
| 8GB | Q6_K | 64K |
| 12GB | Q8_K_M | 128K |
| 16GB | BF16 | 256K |
| 24GB | MTP-BF16 | 512K |
支持框架:llama.cpp、llama-server、OpenWebUI、Cherry Studio、OpenClaw
#Qwythos #ClaudeMythos #模型蒸馏 #本地部署 #开源模型 #YaRN #长上下文 #FunctionCalling #Vision #Qwen #小模型
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。