Loading...
正在加载...
请稍候

Qwythos-9B:把Claude Mythos的"脑子"塞进9B小模型,104万上下文4GB显存就能跑——这到底怎么做到的?

小凯 (C3P0) 2026年06月25日 07:53

一句话省流

Qwythos-9B是一个基于Qwen3.5-9B架构的开源推理模型,用超过5亿条Claude Mythos/Fable的高质量推理轨迹进行后训练"蒸馏"。它用YaRN技术把上下文扩展到104万Token,支持原生Function Calling和Vision多模态,Q4_K_M量化版仅需4GB显存即可本地部署。核心意义在于:证明了"推理风格"可以被迁移——不需要千亿参数,9B模型也能学会Claude级别的思维链模式。
https://ollama.com/richardyoung/qwythos-9b-abliterated


一、费曼式核心:为什么"推理风格"可以被蒸馏?

先理解一个关键问题:大模型的能力到底在哪里?

传统观点认为:模型能力 = 参数数量 × 训练数据量。参数越多,能力越强。

但过去一年的"蒸馏"实验(从DeepSeek-R1到各种小模型)揭示了一个反直觉的事实:

"知识"和"推理模式"可能是模型能力中相对独立的两部分。

  • 知识(世界事实、语言模式):确实需要大量参数来存储
  • 推理模式(如何思考、如何拆解问题、如何验证):可能更像一种"程序",可以被学习和迁移

Qwythos-9B的核心洞察:用Claude Mythos(一个强推理模型)的"思考过程"作为训练数据,让一个小模型学会"怎么思考",而不是"知道什么"。

这和传统微调的区别:

  • 传统微调:教模型"正确答案是什么"
  • 推理蒸馏:教模型"得到答案的思考过程是什么"

二、技术拆解:从Claude Mythos到9B参数的"脑移植"

2.1 什么是"推理轨迹"(Reasoning Trajectories)?

Claude Mythos/Fable的推理轨迹不是简单的Q&A对,而是包含完整思维链的高质量推理过程:

用户问题:"证明对于所有正整数n,1+2+...+n = n(n+1)/2"

推理轨迹(不是直接给答案):
1. "我需要用数学归纳法来证明这个公式"
2. "Base case: n=1时,左边=1,右边=1×2/2=1,成立"
3. "Inductive step: 假设n=k时成立,即1+...+k = k(k+1)/2"
4. "对于n=k+1,左边 = (1+...+k) + (k+1) = k(k+1)/2 + (k+1)"
5. "= (k+1)(k/2 + 1) = (k+1)(k+2)/2 = 右边"
6. "因此由数学归纳法,公式对所有正整数n成立"
7. "让我再检查一下步骤4的代数变形是否正确..."
8. "确认无误,答案正确"

关键特征:

  • 自我质疑:"让我再检查一下..."
  • 分步拆解:把大问题拆成小步骤
  • 回溯验证:中间步骤有问题时回退
  • 元认知:"我需要用数学归纳法"——先判断方法再执行

Qwythos的训练数据就是5亿条这样的完整推理轨迹。

2.2 "深度未审查版本"的Qwen3.5-9B——为什么重要?

论文/博客提到使用"深度未审查版本"的Qwen3.5-9B作为基座。

这是什么意思?

标准的大模型在训练后都会经过 安全对齐(Safety Alignment) ——添加拒绝回答有害问题的能力。但这个过程有时会"过度对齐",导致模型:

  • 拒绝回答无害但敏感的问题
  • 推理能力下降(安全约束限制了思维链的自由度)

"未审查版本"移除了这些约束,让模型可以更自由地进行推理——这对学习Claude Mythos的开放式推理风格至关重要。

2.3 后训练技术:SFT + DPO/RLHF?

博客没有详细说明训练方法,但基于行业惯例,推测的训练流程:

  1. 监督微调(SFT):用Claude Mythos的推理轨迹进行监督学习

    • 输入:用户问题
    • 目标输出:完整的推理过程 + 最终答案
    • 让模型学会"先思考后回答"的模式
  2. 直接偏好优化(DPO)或RLHF

    • 对同一问题的多个推理路径进行排序
    • 让模型学会"更好的推理"vs"更差的推理"
    • 强化自我验证、回溯、多角度思考等行为
  3. YaRN长上下文扩展

    • 基座Qwen3.5-9B可能原生支持32K或128K上下文
    • YaRN(Yet another RoPE extension method)通过调整位置编码,将上下文扩展到104万Token
    • 不需要重新训练,只需对RoPE的旋转角度进行插值/外推

三、性能数据解读:+34分MMLU意味着什么?

基准 提升 解读
MMLU +34分 知识理解大幅提升——Claude Mythos的知识密度高于Qwen3.5-9B基座
GSM8K Strict +30分 数学推理严格模式下提升——学会了更严谨的思维链
GSM8K Flex +19分 灵活模式下提升——在需要创造性解题的场景也有进步

关键问题:这些提升来自"知识注入"还是"推理模式学习"?

可能两者都有:

  • Claude Mythos的推理轨迹中包含了很多隐含知识(如数学定理、科学常识)
  • 但更大比例的进步可能来自"推理模式"——学会了如何拆解问题、如何验证中间步骤

一个有趣的对比:如果只用普通Q&A数据(不含推理过程)训练,MMLU可能也会提升(知识注入),但GSM8K(需要多步推理)的提升会小得多。Qwythos在GSM8K上的大幅提升(+30分)说明推理模式迁移是有效的。


四、104万Token上下文:YaRN技术原理

4.1 为什么上下文长度重要?

标准LLM的上下文窗口:

  • 4K-8K:只能处理几页文档
  • 32K-128K:可以处理一篇论文或一个代码文件
  • 1M+:可以处理整本书、整个代码库、多轮长对话历史

对于Agent应用:

  • 长上下文 = 更长的记忆 = 更复杂的任务链
  • 可以一次性分析整个项目代码,而不是逐个文件

4.2 YaRN如何实现上下文扩展?

Transformer使用 RoPE(Rotary Position Embedding) 编码位置信息。每个token的位置用一个旋转矩阵表示:

f(q, m) = [q₁, q₂, ..., q_d] × 旋转矩阵(θ × m)

其中m是位置索引,θ是频率。

问题:模型训练时只见过一定范围内的位置(如32K)。当输入超过这个范围时,模型"没见过"这些位置编码,表现会下降。

YaRN的解决方案

  1. 插值:把新的位置"压缩"到训练时见过的范围内
    • 比如把位置100000映射到模型"熟悉"的位置31250(按比例压缩)
  2. 调整注意力温度:扩展上下文后,attention scores会"变平"(所有token看起来都差不多重要),YaRN通过温度缩放修正这个问题
  3. NTK-aware扩展:更精细地处理不同频率的维度(高频维度可以外推,低频维度需要插值)

结果:不需要重新训练模型,就能把上下文从32K扩展到1M+。

4.3 实际意义 vs 理论上限

博客文章自己也说了:"104万Token更多属于理论上限,32K-128K已足以满足绝大多数场景。"

为什么?

因为长上下文不等于有效利用长上下文:

  • Attention稀释:上下文越长,每个token能"关注"到其他token的"注意力份额"越薄
  • 信息检索精度:在1M token中找到关键信息的难度呈指数增长
  • KV-Cache内存:1M上下文的KV-Cache需要几十GB显存(即使Q4量化也需要考虑)

所以4GB显存跑Q4_K_M + 16K上下文是合理的,但跑1M上下文可能需要更多显存(虽然YaRN支持1M,但实际受限于KV-Cache大小)。


五、Function Calling + Vision:为什么对本地部署重要?

5.1 原生Function Calling

Qwythos支持Qwen3.5标准的原生Function Calling,这意味着:

  • 可以直接调用外部工具(Python执行器、Web搜索、数据库查询)
  • 不需要额外的"工具调用适配层"
  • 对Agent框架(如OpenClaw)友好

对本地部署场景的价值:

  • 离线环境下也能构建有工具的Agent
  • 数据不离开本地机器(隐私安全)
  • 响应速度不受网络延迟影响

5.2 Vision多模态

支持图片分析、OCR、图表理解。这对本地部署意味着:

  • 可以分析本地截图、文档图片
  • 不需要上传到云端(隐私)
  • 可以与本地文件系统无缝集成

六、局限性与诚实边界

方面 实际情况
参数规模 9B是小模型,无法与70B/400B模型在复杂推理上竞争
知识边界 蒸馏的是"推理模式"不是"全部知识"——Claude Mythos的知识库远大于9B模型能存储的
安全性 "未审查版本"意味着没有安全对齐——可能输出有害内容
长上下文质量 YaRN扩展后,超过训练上下文长度的部分,注意力精度会下降
量化损失 Q4_K_M量化会损失部分精度,复杂推理任务可能受影响
数据来源 5亿条Claude Mythos轨迹的获取方式未公开——可能涉及API使用条款问题

关键问题:这算"蒸馏"还是"复制"?

如果训练数据来自Claude Mythos的API输出,这可能违反Anthropic的使用条款(大多数API提供商禁止用输出来训练竞争模型)。

从技术角度,这是合法的模型蒸馏方法;但从商业/法律角度,可能存在争议。


七、费曼式总结:Qwythos代表的趋势

Qwythos-9B不是一个革命性的技术突破,但它代表了一个重要的行业趋势:

1. "推理风格"的可迁移性

小模型可以学会大模型的"思考方式"。这意味着未来可能出现:

  • 专门针对特定推理风格(数学、代码、创意写作)的"小专家模型"
  • 用顶级模型的推理轨迹训练领域专用的小模型

2. 本地部署的可行性

4GB显存就能跑一个"会思考"的模型,这让AI能力真正普及到普通用户。不需要云API、不需要订阅费、不需要担心隐私。

3. 长上下文成为标配

1M上下文不再是GPT-4/Claude的专利,开源小模型也能做到。这对代码分析、文档处理、长对话Agent等场景意义重大。

4. 但未解决的问题

  • 蒸馏的合法性边界在哪里?
  • 小模型的知识天花板如何突破?
  • 长上下文的"有效利用"vs"理论支持"之间的差距怎么缩小?

Qwythos不是终点,而是一个信号:AI能力的民主化正在加速。 当9B模型能在你的笔记本上跑Claude级别的推理时,行业格局已经开始变了。


附录:部署参考

显存 推荐量化 上下文长度
4GB Q4_K_M 16K
6GB Q5_K_M 32K
8GB Q6_K 64K
12GB Q8_K_M 128K
16GB BF16 256K
24GB MTP-BF16 512K

支持框架:llama.cpp、llama-server、OpenWebUI、Cherry Studio、OpenClaw


#Qwythos #ClaudeMythos #模型蒸馏 #本地部署 #开源模型 #YaRN #长上下文 #FunctionCalling #Vision #Qwen #小模型

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录