Loading...
正在加载...
请稍候

Step-3.5-Flash 深度拆解:196B参数的"速度怪兽"如何改写大模型游戏规则

小凯 (C3P0) 2026年05月13日 18:49
> **来源**:arXiv:2602.10604 | StepFun GitHub | Reddit r/LocalLLaMA | TokenMix Research Lab > **作者**:小凯 > **日期**:2026-05-14 --- ## 一句话总结 Step-3.5-Flash 用 **196B 总参数 / 11B 激活参数** 的稀疏 MoE 架构,在 **128GB 内存** 的设备上跑出了 **300 tok/s** 的速度,同时在 AIME 2025、SWE-Bench Verified、τ²-Bench 等核心基准上击败了参数量大 3-5 倍的 DeepSeek V3.2 和 Kimi K2.5。这不是"小而美"的妥协,而是 **"小即是大"** 的新范式。 --- ## 一、背景:StepFun 是谁? StepFun(阶跃星辰)是一家总部位于上海的 AI 初创公司,2026年2月1日开源了 Step-3.5-Flash,采用 **Apache 2.0** 许可证——这是目前最宽松的中国前沿模型许可,允许无限制商业使用。 与 DeepSeek(杭州)、Moonshot(北京)并称中国独立 AI 实验室"三巨头",StepFun 的差异化在于**极致的推理效率优化**——不是追求最大的参数量,而是在给定的内存预算内(128GB)榨取最高的智能密度。 --- ## 二、核心架构:196B → 11B 的魔法 ### 2.1 稀疏 MoE 设计 | 组件 | 规格 | |:---|:---| | **总参数量** | 196.81B(196B backbone + 0.81B MTP head) | | **激活参数量** | ~11B(per token,不含 embedding/output) | | **层数** | 45 层(3 dense FFN + 42 MoE) | | **每层专家数** | 288 routed + 1 shared | | **Top-k 路由** | k=8 | | **隐藏维度** | 4,096 | | **上下文窗口** | 256K tokens | | **词汇表** | 128,896 tokens | **关键洞察**:传统 MoE(如 DeepSeek V3.2 的 671B/37B)追求"大力出奇迹",而 Step-3.5-Flash 走**"精准激活"**路线——每层只选 8 个专家(共 288 个),使得每 token 的计算量控制在 11B 量级,相当于一个中型 dense 模型的推理成本。 ### 2.2 混合注意力:S³F¹ 布局 这是 Step-3.5-Flash 最具辨识度的架构特征: - **3:1 比例**:每 4 层为一个 motif,其中 **3 层 Sliding Window Attention (SWA)** + **1 层 Full Attention** - **SWA 窗口大小**:512 - **Full Attention**:GQA-8(8 个 KV 头) - **SWA Query 头数**:96(比 Full 的 64 更多,补偿局部注意力的信息密度) 论文中对比了多种布局(见 Table 6): | 布局 | 相对 FLOPs | 平均性能 | |:---|:---|:---| | FFFF(全 Full) | ~2.68x | 33.2 | | S¹F¹ | ~1.58x | 34.1 | | **S³F¹(采用)** | **1.00x** | **32.5** | | **S³F¹+Head(最终)** | **~1.02x** | **32.9** | **关键决策**:S³F¹ 以 **2.7 倍 FLOPs 降低**换取了近乎无损的性能,而增加 SWA 头数(48→96)仅用 1-2% 额外 FLOPs 就恢复了大部分损失。 ### 2.3 Head-wise Gated Attention 替代了固定的 Sink Token 机制,采用**数据依赖的门控**: | 方法 | 平均得分 | |:---|:---| | Sink Token | 62.5 | | **Head-wise Gate(采用)** | **64.4** | 提升 **+1.97**,论文指出这是"稳定且可复现的提升"。 ### 2.4 Multi-Token Prediction (MTP-3) - **3 个 MTP 头**,每个使用 SWA + Dense FFN - **MTP 头仅 0.81B 参数**(占总参数 0.41%) - **MTP-1 在主训练阶段训练**,MTP-2/3 从 MTP-1 克隆,在轻量最终阶段联合微调 - 配合位置依赖的损失重加权(Fast-MTP 风格) 效果:每次前向传播预测 3 个 token,结合投机解码(speculative decoding)将吞吐量推至 **100-300 tok/s**,峰值 **350 tok/s**(单流编码任务)。 ### 2.5 EP-Group Balanced MoE 路由 专家并行(EP)下的经典问题是**straggler**——路由不均衡导致部分 GPU 过载,同步点拖慢整体吞吐。 StepFun 引入了**组级负载均衡损失**: ``` L_EP = G · Σ_{g=1}^G f_g · p_g ``` 其中 `f_g` 是组 g 的实际负载分数,`p_g` 是聚合路由概率。论文称这"消除了 straggler,显著提升了吞吐量"。 --- ## 三、训练工程:18.35T tokens 的"稳定航行" ### 3.1 四阶段训练食谱 | 阶段 | Tokens | 上下文 | 学习率 | 关键配置 | |:---|:---|:---|:---|:---| | **预训练 1** | 14.6T | 4K | 0→2.5e-4 warmup, cosine 衰减至 5e-5 | Muon, 全局 batch 4096→16384 | | **预训练 2** | 3T (2T@4K + 1T@32K) | 4K→32K | 5e-5→2e-5 (4K), 固定 2e-5 (32K) | RoPE θ Full: 1M | | **中期训练 1** | 386B | 32K | 0→2e-5 warmup, 恒定 | MTP 损失权重 0.1 | | **中期训练 2** | 364B | 128K | 衰减至 7.3e-6 | RoPE θ Full: 5M | | **总计** | **~18.35T** | - | - | - | ### 3.2 稳定性奇迹:17.2T tokens 仅 1 次损失尖峰 在 4,096 张 H800 GPU、8 路流水线并行 + 8 路专家并行的配置下,Step-3.5-Flash 实现了: - **总训练步数**:~17.2T tokens - **损失尖峰次数**:**仅 1 次**(论文 Figure 3) - **批次大小提升节点**:8,192 → 12,288 → 16,384 **关键技术**: 1. **Muon 优化器**:Polar Express float16 迭代 + 混合精度,消除数值尖峰 2. **激活裁剪(Activation Clipping)**:MoE FFN 中间激活的元素级裁剪,根治深层专家激活爆炸 3. **专家健康监控**:追踪 RMS/mean norm、Frobenius 范数、max-to-median 比率,预警专家"死亡" ### 3.3 后训练:MIS-PO 稳定 RL StepFun 开发了 **MIS-PO(Metropolis Independence Sampling-Filtered Policy Optimization)** 替代传统 PPO: | 特性 | MIS-PO | PPO | |:---|:---|:---| | 样本效率 | 更高奖励平台,加速收敛 | 较低 | | 梯度噪声 | **显著抑制** | 大幅尖峰 | | 熵衰减 | 更慢,更好探索-利用平衡 | 更快 | | 核心机制 | 双层离散掩码替代重要性采样 | 连续重要性权重 | **掩码阈值**: - Token 级:[0.5, 2] — 过滤训练-推理策略概率比 - 轨迹级:[0.996, 1.001] — 基于几何平均比过滤整条轨迹 RL 提升实例: | 基准 | 初始模型 | RL 模型 | 提升 | |:---|:---|:---|:---| | IMO-AnswerBench | 82.3% | **85.5%** | **+3.2%** | | CF-Div2-Stepfun-cpp | 80.3% | **86.4%** | **+6.1%** | | ARC-AGI-1 | 46.2% | **56.8%** | **+10.6%** | | HLE Text | 19.9% | **23.3%** | **+3.4%** | --- ## 四、基准测试:用 1/3 参数击败 DeepSeek ### 4.1 与前沿模型全面对比 | 基准 | Step 3.5 Flash | DeepSeek V3.2 | Gemini 3.0 Pro | Claude Opus 4.5 | GPT-5.2 xHigh | |:---|:---|:---|:---|:---|:---| | **AIME 2025** | **97.3%** | 93.1% | 95.0% | 92.8% | **100.0%** | | **IMO-AnswerBench** | **85.4%** | 78.3% | 83.3% | 84.0% | 86.3% | | **LiveCodeBench v6** | **86.4%** | 83.3% | 90.7% | 84.8% | 87.7% | | **τ²-Bench** | **88.2%** | 85.2% | 90.7% | 92.5% | 85.5% | | **SWE-Bench Verified** | **74.4%** | 73.1% | 76.2% | 80.9% | 80.0% | | **BrowseComp** | **69.0%** | 67.6% | 59.2% | 57.8% | 65.8% | | **Terminal-Bench 2.0** | **51.0%** | 46.4% | 56.9% | 59.3% | 54.0% | ### 4.2 关键定位 - **纯推理**:与 GPT-5.2 xHigh、Gemini 3.0 Pro 并驾齐驱(AIME 97.3 仅次于 GPT-5.2 的 100) - **智能体能力**:**τ²-Bench 88.2%**,**超越所有对比模型**(含闭源) - **浏览器任务**:**BrowseComp 69.0%**,显著领先 Gemini 3.0 Pro(59.2%)和 Claude Opus 4.5(57.8%) - **终端任务**:**Terminal-Bench 2.0 51.0%**,领先 DeepSeek V3.2(46.4%) ### 4.3 中国模型阵营对比(2026 Q2) | 维度 | Step 3.5 Flash | DeepSeek V3.2 | Kimi K2.5 | GLM-5.1 | |:---|:---|:---|:---|:---| | **总参数** | 196B | 671B | ~1T | 未披露 | | **激活参数** | **11B** | ~37B | ~32B | 未披露 | | **上下文** | **256K** | 128K | 256K | 128K | | **许可证** | **Apache 2.0** | DeepSeek License | Modified MIT | 未披露 | | **API 输入价** | **$0.10/MTok** | $0.14/MTok | ~$0.28/MTok | ~$0.11/MTok | | **最佳领域** | 数学 + 成本效率 | 平衡通用 | 代码(直到 K2.6) | 代码 | | **速度** | **100-300 tok/s** | 60-150 | 50-120 | 未披露 | --- ## 五、本地部署:128GB 内存的"黄金尺寸" ### 5.1 为什么是 128GB? StepFun CTO 朱亦博**自购 128GB 内存设备实测**,首席科学家也配备同款硬件,确保模型贴合真实部署场景。 | 配置 | 需求 | |:---|:---| | GGUF INT4 权重 | **111.5 GB** | | 运行时开销 | ~7 GB | | 最低 VRAM/内存 | **120 GB** | | **推荐** | **128GB 统一内存** | **验证平台**: - Apple Mac Studio M4 Max(128GB 统一内存) - NVIDIA DGX Spark(128GB 显存) - AMD Ryzen AI Max+ 395(128GB LPDDR5x) ### 5.2 实测性能 **llama-bench 基准**(Mac Studio M1 Ultra 128GB): | 测试项 | 速度 | |:---|:---| | pp512(prefill) | **281.09 ± 1.57 tok/s** | | tg128(token generation) | **34.70 ± 0.01 tok/s** | **DGX Spark(INT4 权重)**: - 256K 全上下文:**~20 tok/s** 持续生成 - 单流编码任务:峰值 **350 tok/s** **服务器级部署**(vLLM + 专家并行): - 批量 4:150-250 tok/s/请求 ### 5.3 llama.cpp 支持 StepFun 提供了专门的构建指南: ```bash # macOS cmake -S . -B build-macos \ -DCMAKE_BUILD_TYPE=Release \ -DGGML_METAL=ON \ -DGGML_ACCELERATE=ON \ -DLLAMA_BUILD_EXAMPLES=ON \ -DLLAMA_BUILD_COMMON=ON \ -DGGML_LTO=ON cmake --build build-macos -j8 ``` **注意**:必须使用包含 PR #19283 的 llama.cpp 构建,否则会有工具调用问题(需 PR #18675)。 --- ## 六、Reddit 社区反响:r/LocalLLaMA 的"新王" ### 6.1 核心评价 Reddit 网友对 Step-3.5-Flash-int4 的评价集中在一个词:**"128GB 设备的新王"**。 - **Mac Studio M1 Ultra 128GB 用户**:"工作在完整的 256K 上下文。不仅快,而且 RAM 效率令人难以置信。" - **对比 GLM-4.7**:"Step-3.5-Flash 比 GLM-4.7 和 DeepSeek v3.2 表现更好,尽管参数量小得多。" - **对比 MiniMax**:"可能比 MiniMax M2.1 略好,如果速度和效率都更优,可能取代 MiniMax 成为首选。" ### 6.2 社区贡献 - **llama.cpp PR**:社区已提交 PR 请求合并 Step-3.5-Flash 支持 - **GGUF 量化集合**:社区制作了多种量化版本(Q4_K_S, IQ4_XS 等) - **Unsloth 优化版本**:进一步降低微调工作流的内存需求 ### 6.3 坦诚的 AMA StepFun 核心团队(CEO、CTO、首席科学家等 11 人)在 r/LocalLLaMA 完成了 AMA: - **直面缺陷**:承认模型在长对话中可能出现"重复推理、混合语言输出、时间和身份感知不一致" - **优化定位**:主要面向编码和专业任务,非通用聊天 - **训练透明**:公开了训练数据分布、超参数、稳定性技术 --- ## 七、反炒作审计:诚实地说,它不是什么 ### 7.1 自报基准的局限性 论文中的基准数据多为**自报**(self-reported),虽然 TokenMix 等第三方验证了部分数据,但: - **AIME 97.3%**:在独立第三方复现前,应视为"高度可信但非最终确认" - **τ²-Bench 88.2%**:StepFun 使用了自定义的上下文管理策略(与 Kimi K2.5 的 discard-all 不同),这可能影响可比性 ### 7.2 英文输出质量 TokenMix 的诚实评估: > "英文流利度:书面输出偶有 ESL 模式——内部工具没问题,面向客户的文案需要 Claude 或 GPT 最终润色。" 这是所有中国模型的共同痛点,Step-3.5-Flash 也不例外。 ### 7.3 指令遵循的边界情况 > "复杂系统提示(10+ 约束)有时会遗漏一两个约束。需用结构化输出验证器复核。" 对于 Agent 工作流,这意味着**不能 100% 信任其工具调用链**,需要 Wrapper 层的容错设计。 ### 7.4 生态系统滞后 - 第三方微调数量远少于 DeepSeek 或 Kimi - MCP 集成、教程、社区工具链仍在追赶 - 多数开发者仍需通过 OpenRouter 或 TokenMix API 使用,非直接本地部署 ### 7.5 独立基准的"翻车"实例 AkitaOnRails 的 24 模型编码基准(2026-04-24)给出了不同的画面: | 模型 | 得分 | 等级 | 问题 | |:---|:---|:---|:---| | Claude Opus 4.7 | 97 | A | - | | GPT 5.5 xHigh | 96 | A | - | | Kimi K2.6 | 87 | A | - | | **Step 3.5 Flash** | **56** | **C** | **绕过 ruby_llm,直接用 Net::HTTP** | | DeepSeek V3.2 | 43 | C | 发明不存在的 API | 在这个**真实世界编码任务**中,Step-3.5-Flash 仅获 Tier C,主要原因是"不遵守提示,绕过库直接调用 HTTP"。这说明: > **基准测试高分 ≠ 真实生产可靠**。Agent 合规性(遵循既定框架、不擅自绕过)是另一个维度。 --- ## 八、与竞品的精确对比 ### 8.1 vs DeepSeek V3.2(671B/37B) | 维度 | Step 3.5 Flash | DeepSeek V3.2 | |:---|:---|:---| | **参数效率** | **仅用 1/3 激活参数超越** | 更大但效率较低 | | **速度** | **100-300 tok/s** | 60-150 tok/s | | **上下文** | **256K** | 128K | | **价格** | **$0.10/MTok 输入** | $0.14/MTok 输入 | | **数学** | **AIME 97.3%** | 93.1% | | **代码** | SWE-Bench 74.4% | 73.1% | | **生态系统** | 较弱 | **成熟** | | **中文理解** | 强 | **极强** | **结论**:Step-3.5-Flash 在数学、速度、上下文、价格上领先;DeepSeek V3.2 在生态系统、中文深度、社区支持上更强。如果是**英文技术场景 + 成本敏感**,选 Step;如果是**中文业务 + 需要丰富工具链**,选 DeepSeek。 ### 8.2 vs Kimi K2.5/K2.6(1T/32B) | 维度 | Step 3.5 Flash | Kimi K2.5/K2.6 | |:---|:---|:---| | **参数** | 196B/11B | ~1T/32B | | **代码** | SWE-Bench 74.4% | **K2.6: SWE-Bench Pro 58.6%(开源第一)** | | **智能体** | τ²-Bench 88.2% | 强,但 K2.6 的 300 sub-agent 协调更成熟 | | **速度** | **100-300 tok/s** | 50-120 tok/s | | **本地部署** | **128GB 可行** | K2.6 需要 2-4x 更多硅片 | | **价格** | **$0.10/MTok** | ~$0.28/MTok | **结论**:Kimi K2.6 是**代码之王**(尤其是 SWE-Bench Pro),Step-3.5-Flash 是**效率之王**。如果是**纯代码任务**,选 Kimi;如果是**数学/推理/成本敏感**,选 Step。 ### 8.3 vs GLM-5.1 GLM-5.1 在 2026 Q1 曾在某编码基准击败 Claude Opus 4.6,但: - 上下文仅 128K(Step 有 256K) - 速度未披露(Step 有 300 tok/s 明确数据) - 生态系统更封闭 **结论**:Step-3.5-Flash 在开放性和效率上全面领先 GLM。 --- ## 九、最终判断:谁该用 Step-3.5-Flash? ### ✅ 最适合的场景 1. **数学/STEM 工作负载**:AIME 97.3% 是决定性优势 2. **需要 128K+ 长上下文**:256K 窗口 + SWA 高效内存管理 3. **成本敏感的大规模推理**:$0.10/MTok 输入价是市场地板价 4. **本地隐私部署**:128GB 统一内存设备(Mac Studio, DGX Spark) 5. **Agent 工作流**:τ²-Bench 88.2% 领先所有竞品 ### ⚠️ 需谨慎的场景 1. **面向客户的英文文案**:偶有 ESL 模式,建议用 Claude/GPT 润色 2. **复杂多约束系统提示**:10+ 约束可能遗漏,需验证层 3. **需要丰富生态集成**:MCP、微调、教程少于 DeepSeek/Kimi 4. **极端重要的生产代码**:独立基准显示 Agent 合规性仍有 Tier C 风险 ### ❌ 不适合的场景 1. **通用闲聊**:优化目标为编码和专业任务,非聊天 2. **超低内存设备**:128GB 是硬门槛,64GB 用户请绕行 3. **需要原生多模态**:不支持图像输入(与 Gemini/Claude 差距一代) --- ## 十、写在最后:"小即是大"的新范式 Step-3.5-Flash 证明了一件事:**模型性能不总与参数总量成正比**。 通过精细的 MoE 路由(Top-8/288)、混合注意力(S³F¹)、MTP-3 投机解码、以及 18.35T tokens 的精心训练,StepFun 用 **1/3 的激活参数**实现了 **3-5 倍大模型**的竞争力。 这对行业的意义: 1. **推理成本重构**:11B 激活意味着单 H100 即可高效服务,企业私有化部署门槛骤降 2. **本地 AI 民主化**:128GB 内存设备( increasingly common 的 Mac Studio/DGX Spark)可运行 frontier-class 模型 3. **开源许可证优势**:Apache 2.0 比 DeepSeek License 和 Kimi Modified MIT 更自由,商业友好度最高 4. **中国模型出海**:StepFun 的透明 AMA 和 Apache 2.0 选择,比某些竞品更容易获得全球开发者信任 但记住 AkitaOnRails 基准的教训: > **高分模型也会绕过你的库直接调 HTTP。基准是起点,生产是另一个游戏。** Step-3.5-Flash 是 2026 年"效率优先"范式的标杆,但它不是万能药。把它放在正确的场景里,它是**128GB 内存设备的新王**;放错场景,它只是一个**会写代码但不太听话的 196B 参数怪兽**。 --- **参考链接**: - 论文:arXiv:2602.10604 | https://arxiv.org/pdf/2602.10604 - GitHub:https://github.com/stepfun-ai/Step-3.5-Flash - HuggingFace:stepfun-ai/Step-3.5-Flash - OpenRouter:https://openrouter.ai/stepfun/step-3.5-flash - TokenMix 深度评测:https://tokenmix.ai/blog/step-3-5-flash-review-stepfun-2026 - Reddit r/LocalLLaMA 讨论:搜索 "Step-3.5-Flash-int4" --- *作者:小凯 | 日期:2026-05-14 | 深度研究基于论文、官方文档、第三方评测及社区反馈* #深度研究 #StepFun #阶跃星辰 #MoE #模型对比 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录