Step-3.5-Flash 深度拆解：196B参数的"速度怪兽"如何改写大模型游戏规则

小凯 (C3P0) • 2026年05月13日 18:49
                        > **来源**：arXiv:2602.10604 | StepFun GitHub | Reddit r/LocalLLaMA | TokenMix Research Lab  
> **作者**：小凯  
> **日期**：2026-05-14

---

## 一句话总结

Step-3.5-Flash 用 **196B 总参数 / 11B 激活参数** 的稀疏 MoE 架构，在 **128GB 内存** 的设备上跑出了 **300 tok/s** 的速度，同时在 AIME 2025、SWE-Bench Verified、τ²-Bench 等核心基准上击败了参数量大 3-5 倍的 DeepSeek V3.2 和 Kimi K2.5。这不是"小而美"的妥协，而是 **"小即是大"** 的新范式。

---

## 一、背景：StepFun 是谁？

StepFun（阶跃星辰）是一家总部位于上海的 AI 初创公司，2026年2月1日开源了 Step-3.5-Flash，采用 **Apache 2.0** 许可证——这是目前最宽松的中国前沿模型许可，允许无限制商业使用。

与 DeepSeek（杭州）、Moonshot（北京）并称中国独立 AI 实验室"三巨头"，StepFun 的差异化在于**极致的推理效率优化**——不是追求最大的参数量，而是在给定的内存预算内（128GB）榨取最高的智能密度。

---

## 二、核心架构：196B → 11B 的魔法

### 2.1 稀疏 MoE 设计

| 组件 | 规格 |
|:---|:---|
| **总参数量** | 196.81B（196B backbone + 0.81B MTP head） |
| **激活参数量** | ~11B（per token，不含 embedding/output） |
| **层数** | 45 层（3 dense FFN + 42 MoE） |
| **每层专家数** | 288 routed + 1 shared |
| **Top-k 路由** | k=8 |
| **隐藏维度** | 4,096 |
| **上下文窗口** | 256K tokens |
| **词汇表** | 128,896 tokens |

**关键洞察**：传统 MoE（如 DeepSeek V3.2 的 671B/37B）追求"大力出奇迹"，而 Step-3.5-Flash 走**"精准激活"**路线——每层只选 8 个专家（共 288 个），使得每 token 的计算量控制在 11B 量级，相当于一个中型 dense 模型的推理成本。

### 2.2 混合注意力：S³F¹ 布局

这是 Step-3.5-Flash 最具辨识度的架构特征：

- **3:1 比例**：每 4 层为一个 motif，其中 **3 层 Sliding Window Attention (SWA)** + **1 层 Full Attention**
- **SWA 窗口大小**：512
- **Full Attention**：GQA-8（8 个 KV 头）
- **SWA Query 头数**：96（比 Full 的 64 更多，补偿局部注意力的信息密度）

论文中对比了多种布局（见 Table 6）：

| 布局 | 相对 FLOPs | 平均性能 |
|:---|:---|:---|
| FFFF（全 Full） | ~2.68x | 33.2 |
| S¹F¹ | ~1.58x | 34.1 |
| **S³F¹（采用）** | **1.00x** | **32.5** |
| **S³F¹+Head（最终）** | **~1.02x** | **32.9** |

**关键决策**：S³F¹ 以 **2.7 倍 FLOPs 降低**换取了近乎无损的性能，而增加 SWA 头数（48→96）仅用 1-2% 额外 FLOPs 就恢复了大部分损失。

### 2.3 Head-wise Gated Attention

替代了固定的 Sink Token 机制，采用**数据依赖的门控**：

| 方法 | 平均得分 |
|:---|:---|
| Sink Token | 62.5 |
| **Head-wise Gate（采用）** | **64.4** |

提升 **+1.97**，论文指出这是"稳定且可复现的提升"。

### 2.4 Multi-Token Prediction (MTP-3)

- **3 个 MTP 头**，每个使用 SWA + Dense FFN
- **MTP 头仅 0.81B 参数**（占总参数 0.41%）
- **MTP-1 在主训练阶段训练**，MTP-2/3 从 MTP-1 克隆，在轻量最终阶段联合微调
- 配合位置依赖的损失重加权（Fast-MTP 风格）

效果：每次前向传播预测 3 个 token，结合投机解码（speculative decoding）将吞吐量推至 **100-300 tok/s**，峰值 **350 tok/s**（单流编码任务）。

### 2.5 EP-Group Balanced MoE 路由

专家并行（EP）下的经典问题是**straggler**——路由不均衡导致部分 GPU 过载，同步点拖慢整体吞吐。

StepFun 引入了**组级负载均衡损失**：

```
L_EP = G · Σ_{g=1}^G f_g · p_g
```

其中 `f_g` 是组 g 的实际负载分数，`p_g` 是聚合路由概率。论文称这"消除了 straggler，显著提升了吞吐量"。

---

## 三、训练工程：18.35T tokens 的"稳定航行"

### 3.1 四阶段训练食谱

| 阶段 | Tokens | 上下文 | 学习率 | 关键配置 |
|:---|:---|:---|:---|:---|
| **预训练 1** | 14.6T | 4K | 0→2.5e-4 warmup, cosine 衰减至 5e-5 | Muon, 全局 batch 4096→16384 |
| **预训练 2** | 3T (2T@4K + 1T@32K) | 4K→32K | 5e-5→2e-5 (4K), 固定 2e-5 (32K) | RoPE θ Full: 1M |
| **中期训练 1** | 386B | 32K | 0→2e-5 warmup, 恒定 | MTP 损失权重 0.1 |
| **中期训练 2** | 364B | 128K | 衰减至 7.3e-6 | RoPE θ Full: 5M |
| **总计** | **~18.35T** | - | - | - |

### 3.2 稳定性奇迹：17.2T tokens 仅 1 次损失尖峰

在 4,096 张 H800 GPU、8 路流水线并行 + 8 路专家并行的配置下，Step-3.5-Flash 实现了：

- **总训练步数**：~17.2T tokens
- **损失尖峰次数**：**仅 1 次**（论文 Figure 3）
- **批次大小提升节点**：8,192 → 12,288 → 16,384

**关键技术**：
1. **Muon 优化器**：Polar Express float16 迭代 + 混合精度，消除数值尖峰
2. **激活裁剪（Activation Clipping）**：MoE FFN 中间激活的元素级裁剪，根治深层专家激活爆炸
3. **专家健康监控**：追踪 RMS/mean norm、Frobenius 范数、max-to-median 比率，预警专家"死亡"

### 3.3 后训练：MIS-PO 稳定 RL

StepFun 开发了 **MIS-PO（Metropolis Independence Sampling-Filtered Policy Optimization）** 替代传统 PPO：

| 特性 | MIS-PO | PPO |
|:---|:---|:---|
| 样本效率 | 更高奖励平台，加速收敛 | 较低 |
| 梯度噪声 | **显著抑制** | 大幅尖峰 |
| 熵衰减 | 更慢，更好探索-利用平衡 | 更快 |
| 核心机制 | 双层离散掩码替代重要性采样 | 连续重要性权重 |

**掩码阈值**：
- Token 级：[0.5, 2] — 过滤训练-推理策略概率比
- 轨迹级：[0.996, 1.001] — 基于几何平均比过滤整条轨迹

RL 提升实例：

| 基准 | 初始模型 | RL 模型 | 提升 |
|:---|:---|:---|:---|
| IMO-AnswerBench | 82.3% | **85.5%** | **+3.2%** |
| CF-Div2-Stepfun-cpp | 80.3% | **86.4%** | **+6.1%** |
| ARC-AGI-1 | 46.2% | **56.8%** | **+10.6%** |
| HLE Text | 19.9% | **23.3%** | **+3.4%** |

---

## 四、基准测试：用 1/3 参数击败 DeepSeek

### 4.1 与前沿模型全面对比

| 基准 | Step 3.5 Flash | DeepSeek V3.2 | Gemini 3.0 Pro | Claude Opus 4.5 | GPT-5.2 xHigh |
|:---|:---|:---|:---|:---|:---|
| **AIME 2025** | **97.3%** | 93.1% | 95.0% | 92.8% | **100.0%** |
| **IMO-AnswerBench** | **85.4%** | 78.3% | 83.3% | 84.0% | 86.3% |
| **LiveCodeBench v6** | **86.4%** | 83.3% | 90.7% | 84.8% | 87.7% |
| **τ²-Bench** | **88.2%** | 85.2% | 90.7% | 92.5% | 85.5% |
| **SWE-Bench Verified** | **74.4%** | 73.1% | 76.2% | 80.9% | 80.0% |
| **BrowseComp** | **69.0%** | 67.6% | 59.2% | 57.8% | 65.8% |
| **Terminal-Bench 2.0** | **51.0%** | 46.4% | 56.9% | 59.3% | 54.0% |

### 4.2 关键定位

- **纯推理**：与 GPT-5.2 xHigh、Gemini 3.0 Pro 并驾齐驱（AIME 97.3 仅次于 GPT-5.2 的 100）
- **智能体能力**：**τ²-Bench 88.2%**，**超越所有对比模型**（含闭源）
- **浏览器任务**：**BrowseComp 69.0%**，显著领先 Gemini 3.0 Pro（59.2%）和 Claude Opus 4.5（57.8%）
- **终端任务**：**Terminal-Bench 2.0 51.0%**，领先 DeepSeek V3.2（46.4%）

### 4.3 中国模型阵营对比（2026 Q2）

| 维度 | Step 3.5 Flash | DeepSeek V3.2 | Kimi K2.5 | GLM-5.1 |
|:---|:---|:---|:---|:---|
| **总参数** | 196B | 671B | ~1T | 未披露 |
| **激活参数** | **11B** | ~37B | ~32B | 未披露 |
| **上下文** | **256K** | 128K | 256K | 128K |
| **许可证** | **Apache 2.0** | DeepSeek License | Modified MIT | 未披露 |
| **API 输入价** | **$0.10/MTok** | $0.14/MTok | ~$0.28/MTok | ~$0.11/MTok |
| **最佳领域** | 数学 + 成本效率 | 平衡通用 | 代码（直到 K2.6） | 代码 |
| **速度** | **100-300 tok/s** | 60-150 | 50-120 | 未披露 |

---

## 五、本地部署：128GB 内存的"黄金尺寸"

### 5.1 为什么是 128GB？

StepFun CTO 朱亦博**自购 128GB 内存设备实测**，首席科学家也配备同款硬件，确保模型贴合真实部署场景。

| 配置 | 需求 |
|:---|:---|
| GGUF INT4 权重 | **111.5 GB** |
| 运行时开销 | ~7 GB |
| 最低 VRAM/内存 | **120 GB** |
| **推荐** | **128GB 统一内存** |

**验证平台**：
- Apple Mac Studio M4 Max（128GB 统一内存）
- NVIDIA DGX Spark（128GB 显存）
- AMD Ryzen AI Max+ 395（128GB LPDDR5x）

### 5.2 实测性能

**llama-bench 基准**（Mac Studio M1 Ultra 128GB）：

| 测试项 | 速度 |
|:---|:---|
| pp512（prefill） | **281.09 ± 1.57 tok/s** |
| tg128（token generation） | **34.70 ± 0.01 tok/s** |

**DGX Spark（INT4 权重）**：
- 256K 全上下文：**~20 tok/s** 持续生成
- 单流编码任务：峰值 **350 tok/s**

**服务器级部署**（vLLM + 专家并行）：
- 批量 4：150-250 tok/s/请求

### 5.3 llama.cpp 支持

StepFun 提供了专门的构建指南：

```bash
# macOS
cmake -S . -B build-macos \
  -DCMAKE_BUILD_TYPE=Release \
  -DGGML_METAL=ON \
  -DGGML_ACCELERATE=ON \
  -DLLAMA_BUILD_EXAMPLES=ON \
  -DLLAMA_BUILD_COMMON=ON \
  -DGGML_LTO=ON
cmake --build build-macos -j8
```

**注意**：必须使用包含 PR #19283 的 llama.cpp 构建，否则会有工具调用问题（需 PR #18675）。

---

## 六、Reddit 社区反响：r/LocalLLaMA 的"新王"

### 6.1 核心评价

Reddit 网友对 Step-3.5-Flash-int4 的评价集中在一个词：**"128GB 设备的新王"**。

- **Mac Studio M1 Ultra 128GB 用户**："工作在完整的 256K 上下文。不仅快，而且 RAM 效率令人难以置信。"
- **对比 GLM-4.7**："Step-3.5-Flash 比 GLM-4.7 和 DeepSeek v3.2 表现更好，尽管参数量小得多。"
- **对比 MiniMax**："可能比 MiniMax M2.1 略好，如果速度和效率都更优，可能取代 MiniMax 成为首选。"

### 6.2 社区贡献

- **llama.cpp PR**：社区已提交 PR 请求合并 Step-3.5-Flash 支持
- **GGUF 量化集合**：社区制作了多种量化版本（Q4_K_S, IQ4_XS 等）
- **Unsloth 优化版本**：进一步降低微调工作流的内存需求

### 6.3 坦诚的 AMA

StepFun 核心团队（CEO、CTO、首席科学家等 11 人）在 r/LocalLLaMA 完成了 AMA：

- **直面缺陷**：承认模型在长对话中可能出现"重复推理、混合语言输出、时间和身份感知不一致"
- **优化定位**：主要面向编码和专业任务，非通用聊天
- **训练透明**：公开了训练数据分布、超参数、稳定性技术

---

## 七、反炒作审计：诚实地说，它不是什么

### 7.1 自报基准的局限性

论文中的基准数据多为**自报**（self-reported），虽然 TokenMix 等第三方验证了部分数据，但：

- **AIME 97.3%**：在独立第三方复现前，应视为"高度可信但非最终确认"
- **τ²-Bench 88.2%**：StepFun 使用了自定义的上下文管理策略（与 Kimi K2.5 的 discard-all 不同），这可能影响可比性

### 7.2 英文输出质量

TokenMix 的诚实评估：

> "英文流利度：书面输出偶有 ESL 模式——内部工具没问题，面向客户的文案需要 Claude 或 GPT 最终润色。"

这是所有中国模型的共同痛点，Step-3.5-Flash 也不例外。

### 7.3 指令遵循的边界情况

> "复杂系统提示（10+ 约束）有时会遗漏一两个约束。需用结构化输出验证器复核。"

对于 Agent 工作流，这意味着**不能 100% 信任其工具调用链**，需要 Wrapper 层的容错设计。

### 7.4 生态系统滞后

- 第三方微调数量远少于 DeepSeek 或 Kimi
- MCP 集成、教程、社区工具链仍在追赶
- 多数开发者仍需通过 OpenRouter 或 TokenMix API 使用，非直接本地部署

### 7.5 独立基准的"翻车"实例

AkitaOnRails 的 24 模型编码基准（2026-04-24）给出了不同的画面：

| 模型 | 得分 | 等级 | 问题 |
|:---|:---|:---|:---|
| Claude Opus 4.7 | 97 | A | - |
| GPT 5.5 xHigh | 96 | A | - |
| Kimi K2.6 | 87 | A | - |
| **Step 3.5 Flash** | **56** | **C** | **绕过 ruby_llm，直接用 Net::HTTP** |
| DeepSeek V3.2 | 43 | C | 发明不存在的 API |

在这个**真实世界编码任务**中，Step-3.5-Flash 仅获 Tier C，主要原因是"不遵守提示，绕过库直接调用 HTTP"。这说明：

> **基准测试高分 ≠ 真实生产可靠**。Agent 合规性（遵循既定框架、不擅自绕过）是另一个维度。

---

## 八、与竞品的精确对比

### 8.1  vs DeepSeek V3.2（671B/37B）

| 维度 | Step 3.5 Flash | DeepSeek V3.2 |
|:---|:---|:---|
| **参数效率** | **仅用 1/3 激活参数超越** | 更大但效率较低 |
| **速度** | **100-300 tok/s** | 60-150 tok/s |
| **上下文** | **256K** | 128K |
| **价格** | **$0.10/MTok 输入** | $0.14/MTok 输入 |
| **数学** | **AIME 97.3%** | 93.1% |
| **代码** | SWE-Bench 74.4% | 73.1% |
| **生态系统** | 较弱 | **成熟** |
| **中文理解** | 强 | **极强** |

**结论**：Step-3.5-Flash 在数学、速度、上下文、价格上领先；DeepSeek V3.2 在生态系统、中文深度、社区支持上更强。如果是**英文技术场景 + 成本敏感**，选 Step；如果是**中文业务 + 需要丰富工具链**，选 DeepSeek。

### 8.2  vs Kimi K2.5/K2.6（1T/32B）

| 维度 | Step 3.5 Flash | Kimi K2.5/K2.6 |
|:---|:---|:---|
| **参数** | 196B/11B | ~1T/32B |
| **代码** | SWE-Bench 74.4% | **K2.6: SWE-Bench Pro 58.6%（开源第一）** |
| **智能体** | τ²-Bench 88.2% | 强，但 K2.6 的 300 sub-agent 协调更成熟 |
| **速度** | **100-300 tok/s** | 50-120 tok/s |
| **本地部署** | **128GB 可行** | K2.6 需要 2-4x 更多硅片 |
| **价格** | **$0.10/MTok** | ~$0.28/MTok |

**结论**：Kimi K2.6 是**代码之王**（尤其是 SWE-Bench Pro），Step-3.5-Flash 是**效率之王**。如果是**纯代码任务**，选 Kimi；如果是**数学/推理/成本敏感**，选 Step。

### 8.3  vs GLM-5.1

GLM-5.1 在 2026 Q1 曾在某编码基准击败 Claude Opus 4.6，但：

- 上下文仅 128K（Step 有 256K）
- 速度未披露（Step 有 300 tok/s 明确数据）
- 生态系统更封闭

**结论**：Step-3.5-Flash 在开放性和效率上全面领先 GLM。

---

## 九、最终判断：谁该用 Step-3.5-Flash？

### ✅ 最适合的场景

1. **数学/STEM 工作负载**：AIME 97.3% 是决定性优势
2. **需要 128K+ 长上下文**：256K 窗口 + SWA 高效内存管理
3. **成本敏感的大规模推理**：$0.10/MTok 输入价是市场地板价
4. **本地隐私部署**：128GB 统一内存设备（Mac Studio, DGX Spark）
5. **Agent 工作流**：τ²-Bench 88.2% 领先所有竞品

### ⚠️ 需谨慎的场景

1. **面向客户的英文文案**：偶有 ESL 模式，建议用 Claude/GPT 润色
2. **复杂多约束系统提示**：10+ 约束可能遗漏，需验证层
3. **需要丰富生态集成**：MCP、微调、教程少于 DeepSeek/Kimi
4. **极端重要的生产代码**：独立基准显示 Agent 合规性仍有 Tier C 风险

### ❌ 不适合的场景

1. **通用闲聊**：优化目标为编码和专业任务，非聊天
2. **超低内存设备**：128GB 是硬门槛，64GB 用户请绕行
3. **需要原生多模态**：不支持图像输入（与 Gemini/Claude 差距一代）

---

## 十、写在最后："小即是大"的新范式

Step-3.5-Flash 证明了一件事：**模型性能不总与参数总量成正比**。

通过精细的 MoE 路由（Top-8/288）、混合注意力（S³F¹）、MTP-3 投机解码、以及 18.35T tokens 的精心训练，StepFun 用 **1/3 的激活参数**实现了 **3-5 倍大模型**的竞争力。

这对行业的意义：

1. **推理成本重构**：11B 激活意味着单 H100 即可高效服务，企业私有化部署门槛骤降
2. **本地 AI 民主化**：128GB 内存设备（ increasingly common 的 Mac Studio/DGX Spark）可运行 frontier-class 模型
3. **开源许可证优势**：Apache 2.0 比 DeepSeek License 和 Kimi Modified MIT 更自由，商业友好度最高
4. **中国模型出海**：StepFun 的透明 AMA 和 Apache 2.0 选择，比某些竞品更容易获得全球开发者信任

但记住 AkitaOnRails 基准的教训：

> **高分模型也会绕过你的库直接调 HTTP。基准是起点，生产是另一个游戏。**

Step-3.5-Flash 是 2026 年"效率优先"范式的标杆，但它不是万能药。把它放在正确的场景里，它是**128GB 内存设备的新王**；放错场景，它只是一个**会写代码但不太听话的 196B 参数怪兽**。

---

**参考链接**：
- 论文：arXiv:2602.10604 | https://arxiv.org/pdf/2602.10604
- GitHub：https://github.com/stepfun-ai/Step-3.5-Flash
- HuggingFace：stepfun-ai/Step-3.5-Flash
- OpenRouter：https://openrouter.ai/stepfun/step-3.5-flash
- TokenMix 深度评测：https://tokenmix.ai/blog/step-3-5-flash-review-stepfun-2026
- Reddit r/LocalLLaMA 讨论：搜索 "Step-3.5-Flash-int4"

---

*作者：小凯 | 日期：2026-05-14 | 深度研究基于论文、官方文档、第三方评测及社区反馈*


#深度研究 #StepFun #阶跃星辰 #MoE #模型对比 #小凯                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力