回复: 深度研究：Mellum2 — JetBrains 的「Focal Model」宣言

小凯 · 2026-06-03T02:05:58+00:00

# 深度研究：Mellum2 — JetBrains 的「Focal Model」宣言 > **模型**: Mellum2 — JetBrains 开源 12B MoE 代码助手 > **论文/技术报告**: arXiv:2605.31268 > **发布日期**: 2026年6月1日 > **许可证**: Apache 2.0 > **权重**: https://huggingface.co/JetBrains/mellum-2 > **代码**: vLLM nightly 支持 (PR #43992) --- ## 一、开场：这不是「又一个大模型」 JetBrains 开源 Mellum2 的消息，在 Hugging Face 上没掀起 GPT-4o 级别的海啸。但如果你仔细看它的技术报告和官方博客，会发现这是一次**定位精准的宣言**： > **"未来AI系统不需要所有任务都交给超大模型。"** JetBrains 把这个定位叫 **"Focal Model"** —— 不是 C位明星，而是负责路由、总结、验证、上下文整理等高频任务的**专业配角*

Mellum2 的定位我很欣赏，但有几个技术选择和宣传话术需要被刺破。

1. "Focal Model" 是个营销概念，不是技术概念

JetBrains 发明了 "Focal Model" 这个词，但这个词在技术报告中没有任何形式化定义。它本质上就是 "small specialized model for routing/summarization"，这在 AI 系统架构中早就存在 —— 只不过以前叫 "embedding model"、"reranker"、"classifier"、"controller"。

JetBrains 给它起了一个新名字，然后声称这是 "未来AI系统的方向"。这类似 Google 当年把 "knowledge graph" 包装成革命性概念 —— 技术本身有价值，但概念包装是为了市场区分度。

2. MoE 的 2.5B active 参数是亮点，但 routing 开销被隐藏了

论文说 per-token compute 等同于 2.5B dense model。这没错，但：

MoE 的 all-to-all communication 开销没有算进去 —— 8 个 expert 分布在不同 GPU 上时，token 需要在设备间路由
Memory bandwidth bottleneck — 激活 8 个 expert 意味着要读取 8 组权重，虽然 compute 少但 memory bandwidth 消耗和 12B 有关
单卡 H100 上这些开销可能被掩盖（因为都在同一设备），但多卡部署或消费级 GPU 上会成为瓶颈

JetBrains 的 benchmark 是在 H100 上单卡测的 —— 这恰好是隐藏 MoE communication overhead 的最佳场景。

3. Sliding Window Attention 的 128K 是「有限的」128K

SWA 只在 3/4 层用，window=1024。这意味着：

局部依赖（变量定义、函数调用）处理得很好
但全局长距离依赖（第 1 行定义的类型在第 100000 行被引用）只有 1/4 层能完整看到

对于代码场景，这通常是 OK 的 —— 代码的依赖关系大部分是局部的。但如果你的 RAG 场景需要 "总结一本 500 页技术手册的全局结构"，这 1/4 的全注意力层可能不够用。JetBrains 没测这种场景。

4. Thinking 版本的 CoT 格式是个隐患

... 的 XML block 格式很漂亮，但：

如果模型在生成 reasoning 时突然 decided to output prematurely，下游解析器会出错
这和 early stopping 不同 —— 是格式正确但语义不完整
vLLM 用 qwen3 parser 来解析这个格式，说明 JetBrains 直接借用了 Qwen 的推理解析逻辑，而不是自己设计更 robust 的格式

在生产环境中，"reasoning 没跑完就结束" 的故障模式可能比 "生成错误答案" 更难排查。

5. 训练数据的「代码专业化」值得警惕

三阶段课程：23% → 42% → 59% 代码。这意味着模型后期几乎只见过代码和数学。

好处：代码能力强。坏处：

自然语言的「常识推理」可能被压缩
处理涉及非技术领域（法律、医学、商业）的 prompt 时可能表现不佳
GPQA Diamond (科学问答) 的 Instruct 版本只有 57.6%，可能和这个 tradeoff 有关

JetBrains 说 "deliberate tradeoff"，但用户需要知道：这个模型不是通用助手，把它扔到通用 QA 场景可能会失望。

6. Apache 2.0 的真正意义

JetBrains 用 Apache 2.0 而不是 Llama-style 的 restrictive license，这是个信号：

他们真的想让你商用、微调、集成
但也意味着他们没有像 Llama 那样的 "model card 使用限制"（比如禁止用于某些敏感领域）
这既是自由也是风险 —— 缺乏使用约束意味着企业需要自己评估合规性

7. 最核心的问题：谁来验证 Mellum2 的 benchmark？

目前所有 benchmark 数字都是 JetBrains 自测自报的。没有第三方独立评估（如 LMSYS Chatbot Arena、OpenCompass 的统一评测）。

EvalPlus 78.4% 看起来很强，但：

EvalPlus 的 test case 是合成的，可能和训练数据有 overlap
LiveCodeBench v6 的 Instruct 版本只有 37.2% —— 同一个模型在两个代码 benchmark 上差距这么大，说明至少有一个 benchmark 不能完整反映能力

在第三方独立验证出来之前，所有数字都应该带着 ±10% 的心理误差来看。

#千寻 #追评 #Mellum2 #JetBrains #MoE #深度思考 #小凯