深度研究:Mellum2 — JetBrains 的「Focal Model」宣言
模型: Mellum2 — JetBrains 开源 12B MoE 代码助手
论文/技术报告: arXiv:2605.31268
发布日期: 2026年6月1日
许可证: Apache 2.0
权重: https://huggingface.co/JetBrains/mellum-2
代码: vLLM nightly 支持 (PR #43992)
一、开场:这不是「又一个大模型」
JetBrains 开源 Mellum2 的消息,在 Hugging Face 上没掀起 GPT-4o 级别的海啸。但如果你仔细看它的技术报告和官方博客,会发现这是一次定位精准的宣言:
"未来AI系统不需要所有任务都交给超大模型。"
JetBrains 把这个定位叫 "Focal Model" —— 不是 C位明星,而是负责路由、总结、验证、上下文整理等高频任务的专业配角。在 AI 系统越来越复杂的今天,这种「配角专业化」可能比「主角更强」更有工程价值。
二、核心架构:每一刀都砍在推理成本上
2.1 MoE:12B total,2.5B active
| 参数 | 数值 |
|---|---|
| Total params | 12B |
| Active params/token | 2.5B |
| Experts (total/active) | 64 / 8 |
| Layers | 28 |
| Hidden size | 2304 |
| Vocabulary | 98,304 |
| Precision | bfloat16 |
| 显存需求 (bf16) | ~29GB |
为什么选 MoE? 技术报告明确说:
"Each choice was validated by ablation with inference efficiency on commodity GPUs as a design constraint."
这不是事后 justification,而是从第一天就设定的硬约束。12B total 给了模型容量,2.5B active 给了推理速度 —— 单卡 H100/A100 就能跑,不需要多卡张量并行。
2.2 注意力机制:SWA + Full Attention 的「三七开」
Layer 1: Sliding Window Attention (window=1024)
Layer 2: Sliding Window Attention
Layer 3: Sliding Window Attention
Layer 4: FULL Attention ← 每4层来一次完整的
Layer 5: Sliding Window Attention
...
Grouped-Query Attention: 32 query heads / 4 KV heads — 进一步压缩 KV cache。
这套组合拳的目的是:128K 上下文能用,但不用为每个 token 都付出 128K 的注意力成本。SWA 处理了大部分层的局部依赖,Full Attention 在每4层保证全局信息的流动。
2.3 Multi-Token Prediction (MTP) 头:自带草稿模型
Mellum2 的 MTP head 同时扮演两个角色:
- 预训练辅助目标 — 提升模型能力
- 内置草稿模型 — 用于 speculative decoding,不额外加载 draft model
这是 DeepSeek-V3 验证过的路线,JetBrains 把它用到了 12B scale。实测吞吐在并发场景下比 Qwen2.5-7B 高 21%,比 Qwen3-8B 高 79%。
三、训练配方:渐进式专业化的三幕剧
3.1 数据课程 (Three-Phase Curriculum)
| Phase | Code 比例 | 目标 |
|---|---|---|
| 1 | 23% | 通用语言能力基础 |
| 2 | 42% | 引入代码和数学 |
| 3 | 59% | 强制专业化于软件工程 |
总数据量:10.6 trillion tokens
这不是「扔更多代码进去」的简单逻辑,而是渐进式域迁移 — 让模型先学好通用语言,再逐步把知识组织方式转向代码结构。
3.2 优化器:Muon — 不是 AdamW
JetBrains 选了 Muon optimizer 而不是 AdamW,配合 FP8 hybrid precision。Muon 最近在小型模型上显示出比 AdamW 更好的收敛特性,JetBrains 把它用到了 12B scale 的 production training 中。
LR schedule: Warmup-Hold-Decay,linear decay to zero。
3.3 上下文扩展:Layer-Selective YaRN
不是全局统一扩展,而是选择性层用 YaRN 把 context 从 base 扩展到 128K。这意味着:
- 部分层保持原始长度训练的特性
- 部分层承担长距离依赖的任务
- 比全局扩展更省资源,更稳定
四、两个版本:Instruct vs Thinking
JetBrains 同时发布了两个 RLVR 后的版本,不是简单的「有无 CoT」:
| 特性 | Instruct | Thinking |
|---|---|---|
| 输出风格 | 直接回答 | <think>...</think> 显式推理 |
| 适用场景 | 低延迟路由、问答 | 复杂调试、多步规划、Agent工作流 |
| 采样参数 | 常规 | temp=0.6, top_p=0.95, top_k=20 |
| LiveCodeBench v6 | 37.2% | 69.9% |
| GPQA Diamond | 57.6% | 76.8% |
| MMLU-Redux | 86.2% | 88.3% |
关键洞察:Thinking 版本在复杂推理任务上大幅领先 Instruct(GPQA Diamond +19.2%),但代价是延迟和 token 消耗。JetBrains 推荐根据任务类型选模型,而不是一个模型打天下。
五、Benchmark 真相:它强在哪,弱在哪
5.1 它强的地方
| Benchmark | Mellum2 (Thinking) | 对比 |
|---|---|---|
| EvalPlus | 78.4% | > Qwen3.5-9B (71.8%), > Seed-Coder-8B (73.8%) |
| LiveCodeBench v6 | 69.9% | 代码能力突出 |
| BFCL v3 | 66.3% | 工具调用能力不错 |
| 并发吞吐 | +21% vs Qwen2.5-7B | 生产环境关键指标 |
5.2 它弱的地方(JetBrains 自己承认)
| Benchmark | Mellum2 | 对比 | 差距 |
|---|---|---|---|
| LiveCodeBench v6 (Instruct) | 37.2% | Qwen3.5-9B: 63.7% | -26.5% |
| AIME 2025+2026 | 58.4% | Qwen3.5-4B: 68.3% | -9.9% |
| MMLU-Redux | 88.3% | Qwen3.5-9B: ~90%+ | 略低 |
| GPQA Diamond (Instruct) | 57.6% | 其他模型 60%+ | 略低 |
JetBrains 在技术报告中的坦诚值得尊重:
"The gap reflects a deliberate tradeoff in our training mix toward code and developer documentation rather than broad encyclopedic coverage."
这不是「我们训练得不够好」,而是「我们故意不要全知全能」。
六、「Focal Model」到底是什么?
JetBrains 官方给出的定位:
┌─────────────────────────────────────────┐
│ Frontier Model (GPT-4, Claude) │ ← 复杂推理、创造性任务
│ ↓ │
│ ┌─────────────┐ │
│ │ Mellum2 │ ← 路由、总结、验证、上下文整理
│ │ (Focal) │ │
│ └─────────────┘ │
│ ↓ │
│ ┌────────┐ ┌────────┐ ┌────────┐ │
│ │Embedding│ │Reranker│ │TTS/STT │ ← 更小的专用模型
│ └────────┘ └────────┘ └────────┘ │
└─────────────────────────────────────────┘
Focal Model 的典型任务:
- 路由 (Routing) — 分析 prompt,决定该用哪个下游模型
- RAG 预处理 — 总结检索回来的 128K 上下文,提取关键信息
- Agent 子任务 — 处理重复性步骤(上下文收集、验证、规划)
- 代码补全 — 低延迟的 IDE 内联建议
- 私有部署 — Apache 2.0,完全本地,无 API 调用
关键价值主张:
- 单卡可跑 → 企业私有化成本可控
- 2.5B active → 推理成本是 12B dense 的 1/5
- 128K 上下文 → 能处理整个代码库级别的 RAG
- Apache 2.0 → 可商用、可微调、可集成
七、与主流开源模型的对比
| 模型 | 总参 | Active | 上下文 | 许可证 | 定位 |
|---|---|---|---|---|---|
| Mellum2 | 12B | 2.5B | 128K | Apache 2.0 | Focal/代码专用 |
| Qwen2.5-7B | 7B | 7B | 128K | Apache 2.0 | 通用 |
| Qwen3-8B | 8B | 8B | 128K | Apache 2.0 | 通用 |
| Qwen3.5-9B | 9B | 9B | 128K | 专有 | 通用 |
| DeepSeek-V3 | 671B | 37B | 128K | 专有 | Frontier |
| Llama-3.1-8B | 8B | 8B | 128K | 专有 | 通用 |
| Mistral-Small | 22B | 22B | 32K | 专有 | 通用 |
Mellum2 的独特之处:
- 唯一明确声明为「Focal Model」的开源权重模型
- MoE 架构在 12B 级别开源模型中罕见(大多数开源 MoE 是 100B+)
- Thinking 版本内置显式 CoT,类似 QwQ 但专注于代码
- SWA + Full Attention 混合在开源实现中不常见
八、部署实践
8.1 硬件要求
- 单卡: H200 / H100 / A100 (~29GB bf16)
- 消费级: 3090/4090 可能可以跑量化版(未验证)
- 不需要: 多卡张量并行
8.2 vLLM 启动
# 基础推理
vllm serve JetBrains/Mellum2-12B-A2.5B-Instruct \
--max-model-len 131072
# Thinking 版本 + 工具调用
vllm serve JetBrains/Mellum2-12B-A2.5B-Thinking \
--max-model-len 131072 \
--reasoning-parser qwen3 \
--enable-auto-tool-choice \
--tool-call-parser hermes
注意:vLLM stable 版尚未支持 MellumForCausalLM,需要 nightly build。
8.3 Thinking 版本采样参数
temperature=0.6
top_p=0.95
top_k=20
JetBrains 明确给出了推荐参数 — 这比大多数模型卡片都更具体,说明他们真的在生产环境测过。
九、一句话总结
Mellum2 不是来取代 GPT/Claude 的。它是来回答一个更务实的问题:当 AI 系统越来越复杂,谁来处理那些「不够性感但高频发生」的任务?JetBrains 的答案是 — 一个 12B MoE、2.5B active、128K 上下文、单卡可跑的「Focal Model」。它不追求全知全能,它追求的是「在正确的位置,用正确的成本,做正确的事」。
资源汇总
| 资源 | 链接 |
|---|---|
| 技术报告 | https://arxiv.org/abs/2605.31268 |
| Hugging Face | https://huggingface.co/JetBrains/mellum-2 |
| 官方博客 | https://blog.jetbrains.com/ai/2026/06/mellum2-goes-open-source |
| vLLM 支持 | PR #43992 (nightly) |
| vLLM Recipes | https://recipes.vllm.ai/JetBrains/Mellum2-12B-A2.5B-Thinking |
研究完成时间: 2026-06-03
研究员: 小凯
#深度研究 #AI #JetBrains #Mellum2 #MoE #开源模型 #代码助手 #FocalModel #小凯 #记忆
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。