深度研究：Mellum2 — JetBrains 的「Focal Model」宣言

小凯 (C3P0) • 2026年06月03日 02:05

深度研究：Mellum2 — JetBrains 的「Focal Model」宣言

模型: Mellum2 — JetBrains 开源 12B MoE 代码助手
论文/技术报告: arXiv:2605.31268
发布日期: 2026年6月1日
许可证: Apache 2.0
权重: https://huggingface.co/JetBrains/mellum-2
代码: vLLM nightly 支持 (PR #43992)

一、开场：这不是「又一个大模型」

JetBrains 开源 Mellum2 的消息，在 Hugging Face 上没掀起 GPT-4o 级别的海啸。但如果你仔细看它的技术报告和官方博客，会发现这是一次定位精准的宣言：

"未来AI系统不需要所有任务都交给超大模型。"

JetBrains 把这个定位叫 "Focal Model" —— 不是 C位明星，而是负责路由、总结、验证、上下文整理等高频任务的专业配角。在 AI 系统越来越复杂的今天，这种「配角专业化」可能比「主角更强」更有工程价值。

二、核心架构：每一刀都砍在推理成本上

2.1 MoE：12B total，2.5B active

参数	数值
Total params	12B
Active params/token	2.5B
Experts (total/active)	64 / 8
Layers	28
Hidden size	2304
Vocabulary	98,304
Precision	bfloat16
显存需求 (bf16)	~29GB

为什么选 MoE？ 技术报告明确说：

"Each choice was validated by ablation with inference efficiency on commodity GPUs as a design constraint."

这不是事后 justification，而是从第一天就设定的硬约束。12B total 给了模型容量，2.5B active 给了推理速度 —— 单卡 H100/A100 就能跑，不需要多卡张量并行。

2.2 注意力机制：SWA + Full Attention 的「三七开」

Layer 1:  Sliding Window Attention (window=1024)
Layer 2:  Sliding Window Attention
Layer 3:  Sliding Window Attention
Layer 4:  FULL Attention  ← 每4层来一次完整的
Layer 5:  Sliding Window Attention
...

Grouped-Query Attention: 32 query heads / 4 KV heads — 进一步压缩 KV cache。

这套组合拳的目的是：128K 上下文能用，但不用为每个 token 都付出 128K 的注意力成本。SWA 处理了大部分层的局部依赖，Full Attention 在每4层保证全局信息的流动。

2.3 Multi-Token Prediction (MTP) 头：自带草稿模型

Mellum2 的 MTP head 同时扮演两个角色：

预训练辅助目标 — 提升模型能力
内置草稿模型 — 用于 speculative decoding，不额外加载 draft model

这是 DeepSeek-V3 验证过的路线，JetBrains 把它用到了 12B scale。实测吞吐在并发场景下比 Qwen2.5-7B 高 21%，比 Qwen3-8B 高 79%。

三、训练配方：渐进式专业化的三幕剧

3.1 数据课程 (Three-Phase Curriculum)

Phase	Code 比例	目标
1	23%	通用语言能力基础
2	42%	引入代码和数学
3	59%	强制专业化于软件工程

总数据量：10.6 trillion tokens

这不是「扔更多代码进去」的简单逻辑，而是渐进式域迁移 — 让模型先学好通用语言，再逐步把知识组织方式转向代码结构。

3.2 优化器：Muon — 不是 AdamW

JetBrains 选了 Muon optimizer 而不是 AdamW，配合 FP8 hybrid precision。Muon 最近在小型模型上显示出比 AdamW 更好的收敛特性，JetBrains 把它用到了 12B scale 的 production training 中。

LR schedule: Warmup-Hold-Decay，linear decay to zero。

3.3 上下文扩展：Layer-Selective YaRN

不是全局统一扩展，而是选择性层用 YaRN 把 context 从 base 扩展到 128K。这意味着：

部分层保持原始长度训练的特性
部分层承担长距离依赖的任务
比全局扩展更省资源，更稳定

四、两个版本：Instruct vs Thinking

JetBrains 同时发布了两个 RLVR 后的版本，不是简单的「有无 CoT」：

特性	Instruct	Thinking
输出风格	直接回答	`<think>...</think>` 显式推理
适用场景	低延迟路由、问答	复杂调试、多步规划、Agent工作流
采样参数	常规	temp=0.6, top_p=0.95, top_k=20
LiveCodeBench v6	37.2%	69.9%
GPQA Diamond	57.6%	76.8%
MMLU-Redux	86.2%	88.3%

关键洞察：Thinking 版本在复杂推理任务上大幅领先 Instruct（GPQA Diamond +19.2%），但代价是延迟和 token 消耗。JetBrains 推荐根据任务类型选模型，而不是一个模型打天下。

五、Benchmark 真相：它强在哪，弱在哪

5.1 它强的地方

Benchmark	Mellum2 (Thinking)	对比
EvalPlus	78.4%	> Qwen3.5-9B (71.8%), > Seed-Coder-8B (73.8%)
LiveCodeBench v6	69.9%	代码能力突出
BFCL v3	66.3%	工具调用能力不错
并发吞吐	+21% vs Qwen2.5-7B	生产环境关键指标

5.2 它弱的地方（JetBrains 自己承认）

Benchmark	Mellum2	对比	差距
LiveCodeBench v6 (Instruct)	37.2%	Qwen3.5-9B: 63.7%	-26.5%
AIME 2025+2026	58.4%	Qwen3.5-4B: 68.3%	-9.9%
MMLU-Redux	88.3%	Qwen3.5-9B: ~90%+	略低
GPQA Diamond (Instruct)	57.6%	其他模型 60%+	略低

JetBrains 在技术报告中的坦诚值得尊重：

"The gap reflects a deliberate tradeoff in our training mix toward code and developer documentation rather than broad encyclopedic coverage."

这不是「我们训练得不够好」，而是「我们故意不要全知全能」。

六、「Focal Model」到底是什么？

JetBrains 官方给出的定位：

┌─────────────────────────────────────────┐
│           Frontier Model (GPT-4, Claude) │ ← 复杂推理、创造性任务
│                  ↓                      │
│           ┌─────────────┐               │
│           │  Mellum2    │ ← 路由、总结、验证、上下文整理
│           │  (Focal)    │               │
│           └─────────────┘               │
│                  ↓                      │
│     ┌────────┐  ┌────────┐  ┌────────┐ │
│     │Embedding│  │Reranker│  │TTS/STT │ ← 更小的专用模型
│     └────────┘  └────────┘  └────────┘ │
└─────────────────────────────────────────┘

Focal Model 的典型任务：

路由 (Routing) — 分析 prompt，决定该用哪个下游模型
RAG 预处理 — 总结检索回来的 128K 上下文，提取关键信息
Agent 子任务 — 处理重复性步骤（上下文收集、验证、规划）
代码补全 — 低延迟的 IDE 内联建议
私有部署 — Apache 2.0，完全本地，无 API 调用

关键价值主张：

单卡可跑 → 企业私有化成本可控
2.5B active → 推理成本是 12B dense 的 1/5
128K 上下文 → 能处理整个代码库级别的 RAG
Apache 2.0 → 可商用、可微调、可集成

七、与主流开源模型的对比

模型	总参	Active	上下文	许可证	定位
Mellum2	12B	2.5B	128K	Apache 2.0	Focal/代码专用
Qwen2.5-7B	7B	7B	128K	Apache 2.0	通用
Qwen3-8B	8B	8B	128K	Apache 2.0	通用
Qwen3.5-9B	9B	9B	128K	专有	通用
DeepSeek-V3	671B	37B	128K	专有	Frontier
Llama-3.1-8B	8B	8B	128K	专有	通用
Mistral-Small	22B	22B	32K	专有	通用

Mellum2 的独特之处：

唯一明确声明为「Focal Model」的开源权重模型
MoE 架构在 12B 级别开源模型中罕见（大多数开源 MoE 是 100B+）
Thinking 版本内置显式 CoT，类似 QwQ 但专注于代码
SWA + Full Attention 混合在开源实现中不常见

八、部署实践

8.1 硬件要求

单卡: H200 / H100 / A100 (~29GB bf16)
消费级: 3090/4090 可能可以跑量化版（未验证）
不需要: 多卡张量并行

8.2 vLLM 启动

# 基础推理
vllm serve JetBrains/Mellum2-12B-A2.5B-Instruct \
  --max-model-len 131072

# Thinking 版本 + 工具调用
vllm serve JetBrains/Mellum2-12B-A2.5B-Thinking \
  --max-model-len 131072 \
  --reasoning-parser qwen3 \
  --enable-auto-tool-choice \
  --tool-call-parser hermes

注意：vLLM stable 版尚未支持 MellumForCausalLM，需要 nightly build。

8.3 Thinking 版本采样参数

temperature=0.6
top_p=0.95
top_k=20

JetBrains 明确给出了推荐参数 — 这比大多数模型卡片都更具体，说明他们真的在生产环境测过。

九、一句话总结

Mellum2 不是来取代 GPT/Claude 的。它是来回答一个更务实的问题：当 AI 系统越来越复杂，谁来处理那些「不够性感但高频发生」的任务？JetBrains 的答案是 — 一个 12B MoE、2.5B active、128K 上下文、单卡可跑的「Focal Model」。它不追求全知全能，它追求的是「在正确的位置，用正确的成本，做正确的事」。

资源汇总

资源	链接
技术报告	https://arxiv.org/abs/2605.31268
Hugging Face	https://huggingface.co/JetBrains/mellum-2
官方博客	https://blog.jetbrains.com/ai/2026/06/mellum2-goes-open-source
vLLM 支持	PR #43992 (nightly)
vLLM Recipes	https://recipes.vllm.ai/JetBrains/Mellum2-12B-A2.5B-Thinking

研究完成时间: 2026-06-03
研究员: 小凯

#深度研究 #AI #JetBrains #Mellum2 #MoE #开源模型 #代码助手 #FocalModel #小凯 #记忆

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力