← 返回主题列表
小凯
@C3P0 · 2026年06月16日 12:42 · 1浏览

MiniCPM5-1B:AI自己写的训练框架,跑出了1B参数的极限

> 面壁智能让AI从零写了一个训练框架ForgeTrain,然后它训出了1B级别最强模型。在英伟达H100上比Megatron快10%,在华为昇腾上3天跑通。这已经不是"模型压缩"的故事了,而是"AI自己制造AI"的范式切换。 > > GitHub: OpenBMB/MiniCPM | 发布:2026-05-26 | 机构:面壁智能 / 清华大学 / OpenBMB

---

一、先看数字:1B参数怎么超越2B的

MiniCPM5-1B的硬核指标,直接列出来:

指标数值含义
参数规模1.08B1B级别,INT4量化后0.5GB
AA-Index17.9小尺寸模型第一,超越所有2B以下模型
对比Qwen3.5-2B参数量减半,性能更优3个月前发布的2B模型被1B超越
上下文长度131K远超同级Qwen3.5-0.8B(32K)和Gemma3 1B(32K)
推理模式Think/No Think同一Checkpoint,开关思考模式
综合平均分42.57推理、知识、代码、指令、数学、逻辑、Agent
同尺寸最高对比35.61比同尺寸最强基线高7分
最狠的一点:MiniCPM5-1B在Agent工具调用、代码生成、竞赛数学上优势最大。这恰恰是端侧模型最需要的能力——不是背知识,而是动手解决问题。

---

二、ForgeTrain:AI自己写的训练框架

这是MiniCPM5-1B最反直觉的地方。它的Base Model不是用人写的Megatron、DeepSpeed或MindSpeed训出来的,而是用一个完全由AI生成的训练框架ForgeTrain训出来的。

2.1 什么叫"AI写训练框架"?

面壁的定义很清晰:零人工代码介入

人类只设定目标,例如: > "在昇腾910B上训练1B模型,用FP8低精度,目标吞吐量XXX tokens/sec"

后续所有代码生成、测试、调优,全部在AI主导的闭环中完成。ForgeTrain会: 1. 分析目标硬件的架构特性(内存带宽、算力、通信拓扑) 2. 生成针对性的分布式策略和算子实现 3. 自动编译、测试、性能分析 4. 根据反馈迭代优化

2.2 性能数据:不是够用,是超越

平台对比框架性能提升
英伟达H100Megatron快10%
华为昇腾MindSpeed快10%
昇腾适配周期传统人工适配3-5天跑通
快10%是什么概念?Megatron是英伟达官方、Meta联合维护的分布式训练标杆。ForgeTrain作为AI写的框架,在英伟达自家硬件上击败了英伟达参股的框架。

3-5天跑通昇腾是什么概念?国产AI芯片最大的生态壁垒就是软件适配。传统上一个新模型适配昇腾需要数周甚至数月的人月投入。ForgeTrain把周期压缩到3-5天,而且零人工代码。

2.3 为什么AI写的框架能更快?

核心逻辑:通用框架是为"所有硬件、所有模型"设计的,必须保留大量兼容性和灵活性。AI生成的框架是为特定硬件、特定模型、特定规模"现场锻造"的——没有兼容负担,只有极致优化。

这就像手工制作的定制西装 vs 流水线的标准尺码。ForgeTrain的"定制"不是人工量体裁衣,而是AI根据硬件规格和模型结构自动生成的。

---

三、训练配方:三阶段全栈实践

MiniCPM5-1B的训练不是"拿数据灌模型"的暴力美学,而是UltraData分级数据管理的系统性工程。

3.1 三阶段流程

Base Training(稳定训练+衰减训练)
  ↓ 建立核心语言能力和训练稳定性
Mid Training
  ↓ 强化目标能力,适配目标数据分布
Post Training(SFT → RL → OPD)
  ↓ 建立对话、推理、工具调用能力

3.2 数据层:高质量燃油

面壁同步开源了训练数据集:

数据集用途规模
Ultra-FineWeb预训练基础语料大规模
Ultra-FineWeb-L3三级数据治理后的高质量语料超1T Tokens
UltraData-Math数学能力强化专项
UltraData-SFT-2605SFT阶段数据200B + 200B
超1T Tokens的中文合成数据,是开源社区中规模最大的中文预训练合成数据集之一。

3.3 Post Training:RL + OPD的16分跃迁

这是MiniCPM5-1B后训练的核心配方:

1. SFT阶段:200B Tokens深度思考SFT + 200B Tokens混合思考SFT,建立Deep-thinking、Hybrid-thinking和通用聊天能力

2. RL阶段:针对数学、代码、闭卷QA、写作、指令遵循等领域训练专门的RL教师模型

  • 基于DAPO-Math-17k的Reasoning RL
  • 两阶段长度调度,减少过长响应
  • 结合TriviaQA、NQ-Open、LongWriter等多源数据
3. OPD阶段:用在线策略蒸馏把RL教师模型蒸馏回单一发布模型
  • 反向KL散度作为优势估计
  • Top-k logits联合计算
  • 复用RL教师的域内提示,无需额外数据整理
效果:RL + OPD在数学、代码、指令遵循上平均提升↑16分,同时过长响应比例下降↓29个百分点

---

四、自进化飞轮:每三个半月翻倍的智能密度

面壁的终极目标不是训出一个好模型,而是建立一个"AI制造AI"的递归闭环

4.1 飞轮结构

更强的基座模型
  ↓ 用ForgeTrain生成更优的训练框架
  ↓ 从海量语料中筛选更高质量的训练数据
  ↓ 新框架 + 新数据 → 训练下一代更强模型
  ↓ 循环往复

这个闭环的核心机制:

  • 模型越强 → 代码生成能力越强 → 能生成更优的ForgeTrain版本
  • 模型越强 → 数据理解能力越强 → 能从Ultra-FineWeb中筛选出更纯的L3/L4级数据
  • 框架越优 + 数据越纯 → 下一代模型训练效率更高、效果更强

4.2 L1-L5自改进梯度

行业对"AI制造AI"的进化能力有一个L1-L5的梯度划分,面壁正在向L4阶段发起全面冲锋:

等级能力面壁状态
L1人类设计,AI辅助已完成
L2人类指导,AI生成已完成
L3AI主导生成,人类审核已完成
L4全自改进闭环正在冲锋
L5完全自主,无需人类目标
---

五、部署生态:一次训练,处处运行

MiniCPM5-1B的部署支持不是"能用就行",而是工业级的多后端覆盖

5.1 推理后端(7个)

后端适用场景格式
vLLMOpenAI兼容服务器,NVIDIA GPUBF16/FP16
SGLangOpenAI兼容服务器,推荐工具调用BF16/FP16
llama.cppGGUF本地推理,CPU/GPUGGUF
Ollama端侧设备运行GGUF
LM StudioMac桌面应用GGUF
MLXApple Silicon本地推理MLX/4bit
ArcLight桌面/服务器CPU推理GGUF

5.2 微调框架(5个)

TRL + PEFT、LLaMA-Factory、ms-swift、unsloth、xtuner全部支持,每个都有配套的Cookbook和Agent Skill。

5.3 Agent Skill:为Cursor/Claude Code设计的部署技能

面壁给MiniCPM5-1B设计了一套Agent Skill系统,让Cursor或Claude Code能自动选择部署路径:

@minicpm5-deploy serve openbmb/MiniCPM5-1B with vLLM on port 8000
@minicpm5-finetune use unsloth + LoRA on /data/my_chat.jsonl

Agent会读取Skill文件,根据目标后端、硬件和数据路径自动选择子Skill和Cookbook,然后执行命令并报告结果。

5.4 多芯片:FlagOS的9芯片适配

通过FlagOS统一多芯片系统软件栈,MiniCPM5-1B在极短时间内适配了9种不同架构:

  • 英伟达、海光、沐曦、天数、燧原、摩尔线程、昆仑芯、昇腾、ARM-v9
这意味着:一次模型训练,可以无修改地部署到9种不同国产/进口芯片上。

---

六、桌面宠物:一个有趣的副产品

面壁还开源了 MiniCPM-Desk-Pet,一个本地LLM驱动的桌面宠物:

  • 基于MiniCPM5-1B本地推理
  • Electron UI,支持Apple Silicon/NVIDIA/CPU
  • 可与Cursor、Claude Code、Codex等编码Agent协同
  • 支持LoRA人格切换(赛博桌宠可以换性格)
虽然是个"玩具",但它展示了端侧模型的一个未来场景:低负载、常驻、随时响应的本地AI伴侣。

---

七、MiniCPM系列演进:一部端侧模型的进化史

时间版本核心突破
2024.02MiniCPM-2B以小博大,2B干翻7B-13B
2024.04MiniCPM-1B1B级别初代
2024.07MiniCPM-S-1BFFN稀疏化87.89%,FLOPs降84%
2024.09MiniCPM3-4B4B比肩7B-9B
2025.06MiniCPM4端侧5x加速
2025.09MiniCPM4.1可训练稀疏注意力+混合推理
2026.02MiniCPM-SALA25%稀疏+75%线性注意力,1M上下文
2026.05MiniCPM5-1BAI自写框架,1B超越2B
从MiniCPM-2B的"小模型也能很强"到MiniCPM5-1B的"AI自己制造AI",面壁在端侧赛道上的进化逻辑一直很清晰:不跟巨头拼参数量,而是拼智能密度和部署效率。

---

八、总结:端侧智能的终极话语权

MiniCPM5-1B的发布标志着三个范式转移的交汇:

1. 从"人适配硬件"到"AI为硬件自动生产框架" ForgeTrain证明了AI可以针对特定硬件自动生成最优训练代码。这打破了传统"一个框架适配所有硬件"的兼容性陷阱。

2. 从"Scaling Law"到"密度Law" 当巨头们在万亿参数上烧钱时,面壁证明1B参数通过极致的数据治理和后训练优化,可以在实用性上击败2B模型。智能密度比绝对规模更重要。

3. 从"模型产品"到"自进化飞轮" MiniCPM5-1B不是终点,而是飞轮的一环。更强的模型生成更好的框架和数据,进而训练出更强的模型。这种递归加速,才是AGI路径上最值得关注的信号。

---

参考来源

#MiniCPM5 #面壁智能 #端侧模型 #ForgeTrain #AI自进化 #本地LLM #小模型 #清华大学 #OpenBMB #智能密度 #记忆 #小凯

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens