MiniCPM5-1B：AI自己写的训练框架，跑出了1B参数的极限

> 面壁智能让AI从零写了一个训练框架ForgeTrain，然后它训出了1B级别最强模型。在英伟达H100上比Megatron快10%，在华为昇腾上3天跑通。这已经不是"模型压缩"的故事了，而是"AI自己制造AI"的范式切换。 > > GitHub: OpenBMB/MiniCPM | 发布：2026-05-26 | 机构：面壁智能 / 清华大学 / OpenBMB

---

一、先看数字：1B参数怎么超越2B的

MiniCPM5-1B的硬核指标，直接列出来：

指标	数值	含义
参数规模	1.08B	1B级别，INT4量化后0.5GB
AA-Index	17.9	小尺寸模型第一，超越所有2B以下模型
对比Qwen3.5-2B	参数量减半，性能更优	3个月前发布的2B模型被1B超越
上下文长度	131K	远超同级Qwen3.5-0.8B（32K）和Gemma3 1B（32K）
推理模式	Think/No Think	同一Checkpoint，开关思考模式
综合平均分	42.57	推理、知识、代码、指令、数学、逻辑、Agent
同尺寸最高对比	35.61	比同尺寸最强基线高7分

最狠的一点：MiniCPM5-1B在Agent工具调用、代码生成、竞赛数学上优势最大。这恰恰是端侧模型最需要的能力——不是背知识，而是动手解决问题。

---

二、ForgeTrain：AI自己写的训练框架

这是MiniCPM5-1B最反直觉的地方。它的Base Model不是用人写的Megatron、DeepSpeed或MindSpeed训出来的，而是用一个完全由AI生成的训练框架ForgeTrain训出来的。

2.1 什么叫"AI写训练框架"？

面壁的定义很清晰：零人工代码介入。

人类只设定目标，例如： > "在昇腾910B上训练1B模型，用FP8低精度，目标吞吐量XXX tokens/sec"

后续所有代码生成、测试、调优，全部在AI主导的闭环中完成。ForgeTrain会： 1. 分析目标硬件的架构特性（内存带宽、算力、通信拓扑） 2. 生成针对性的分布式策略和算子实现 3. 自动编译、测试、性能分析 4. 根据反馈迭代优化

2.2 性能数据：不是够用，是超越

平台	对比框架	性能提升
英伟达H100	Megatron	快10%
华为昇腾	MindSpeed	快10%
昇腾适配周期	传统人工适配	3-5天跑通

快10%是什么概念？Megatron是英伟达官方、Meta联合维护的分布式训练标杆。ForgeTrain作为AI写的框架，在英伟达自家硬件上击败了英伟达参股的框架。

3-5天跑通昇腾是什么概念？国产AI芯片最大的生态壁垒就是软件适配。传统上一个新模型适配昇腾需要数周甚至数月的人月投入。ForgeTrain把周期压缩到3-5天，而且零人工代码。

2.3 为什么AI写的框架能更快？

核心逻辑：通用框架是为"所有硬件、所有模型"设计的，必须保留大量兼容性和灵活性。AI生成的框架是为特定硬件、特定模型、特定规模"现场锻造"的——没有兼容负担，只有极致优化。

这就像手工制作的定制西装 vs 流水线的标准尺码。ForgeTrain的"定制"不是人工量体裁衣，而是AI根据硬件规格和模型结构自动生成的。

---

三、训练配方：三阶段全栈实践

MiniCPM5-1B的训练不是"拿数据灌模型"的暴力美学，而是UltraData分级数据管理的系统性工程。

3.1 三阶段流程

Base Training（稳定训练+衰减训练）
  ↓ 建立核心语言能力和训练稳定性
Mid Training
  ↓ 强化目标能力，适配目标数据分布
Post Training（SFT → RL → OPD）
  ↓ 建立对话、推理、工具调用能力

3.2 数据层：高质量燃油

面壁同步开源了训练数据集：

数据集	用途	规模
Ultra-FineWeb	预训练基础语料	大规模
Ultra-FineWeb-L3	三级数据治理后的高质量语料	超1T Tokens
UltraData-Math	数学能力强化	专项
UltraData-SFT-2605	SFT阶段数据	200B + 200B

超1T Tokens的中文合成数据，是开源社区中规模最大的中文预训练合成数据集之一。

3.3 Post Training：RL + OPD的16分跃迁

这是MiniCPM5-1B后训练的核心配方：

1. SFT阶段：200B Tokens深度思考SFT + 200B Tokens混合思考SFT，建立Deep-thinking、Hybrid-thinking和通用聊天能力

2. RL阶段：针对数学、代码、闭卷QA、写作、指令遵循等领域训练专门的RL教师模型

基于DAPO-Math-17k的Reasoning RL
两阶段长度调度，减少过长响应
结合TriviaQA、NQ-Open、LongWriter等多源数据

3. OPD阶段：用在线策略蒸馏把RL教师模型蒸馏回单一发布模型

反向KL散度作为优势估计
Top-k logits联合计算
复用RL教师的域内提示，无需额外数据整理

效果：RL + OPD在数学、代码、指令遵循上平均提升↑16分，同时过长响应比例下降↓29个百分点。

---

四、自进化飞轮：每三个半月翻倍的智能密度

面壁的终极目标不是训出一个好模型，而是建立一个"AI制造AI"的递归闭环。

4.1 飞轮结构

更强的基座模型
  ↓ 用ForgeTrain生成更优的训练框架
  ↓ 从海量语料中筛选更高质量的训练数据
  ↓ 新框架 + 新数据 → 训练下一代更强模型
  ↓ 循环往复

这个闭环的核心机制：

模型越强 → 代码生成能力越强 → 能生成更优的ForgeTrain版本
模型越强 → 数据理解能力越强 → 能从Ultra-FineWeb中筛选出更纯的L3/L4级数据
框架越优 + 数据越纯 → 下一代模型训练效率更高、效果更强

4.2 L1-L5自改进梯度

行业对"AI制造AI"的进化能力有一个L1-L5的梯度划分，面壁正在向L4阶段发起全面冲锋：

等级	能力	面壁状态
L1	人类设计，AI辅助	已完成
L2	人类指导，AI生成	已完成
L3	AI主导生成，人类审核	已完成
L4	全自改进闭环	正在冲锋
L5	完全自主，无需人类	目标

---

五、部署生态：一次训练，处处运行

MiniCPM5-1B的部署支持不是"能用就行"，而是工业级的多后端覆盖。

5.1 推理后端（7个）

后端	适用场景	格式
vLLM	OpenAI兼容服务器，NVIDIA GPU	BF16/FP16
SGLang	OpenAI兼容服务器，推荐工具调用	BF16/FP16
llama.cpp	GGUF本地推理，CPU/GPU	GGUF
Ollama	端侧设备运行	GGUF
LM Studio	Mac桌面应用	GGUF
MLX	Apple Silicon本地推理	MLX/4bit
ArcLight	桌面/服务器CPU推理	GGUF

5.2 微调框架（5个）

TRL + PEFT、LLaMA-Factory、ms-swift、unsloth、xtuner全部支持，每个都有配套的Cookbook和Agent Skill。

5.3 Agent Skill：为Cursor/Claude Code设计的部署技能

面壁给MiniCPM5-1B设计了一套Agent Skill系统，让Cursor或Claude Code能自动选择部署路径：

@minicpm5-deploy serve openbmb/MiniCPM5-1B with vLLM on port 8000
@minicpm5-finetune use unsloth + LoRA on /data/my_chat.jsonl

Agent会读取Skill文件，根据目标后端、硬件和数据路径自动选择子Skill和Cookbook，然后执行命令并报告结果。

5.4 多芯片：FlagOS的9芯片适配

通过FlagOS统一多芯片系统软件栈，MiniCPM5-1B在极短时间内适配了9种不同架构：

英伟达、海光、沐曦、天数、燧原、摩尔线程、昆仑芯、昇腾、ARM-v9

这意味着：一次模型训练，可以无修改地部署到9种不同国产/进口芯片上。

---

六、桌面宠物：一个有趣的副产品

面壁还开源了 MiniCPM-Desk-Pet，一个本地LLM驱动的桌面宠物：

基于MiniCPM5-1B本地推理
Electron UI，支持Apple Silicon/NVIDIA/CPU
可与Cursor、Claude Code、Codex等编码Agent协同
支持LoRA人格切换（赛博桌宠可以换性格）

虽然是个"玩具"，但它展示了端侧模型的一个未来场景：低负载、常驻、随时响应的本地AI伴侣。

---

七、MiniCPM系列演进：一部端侧模型的进化史

时间	版本	核心突破
2024.02	MiniCPM-2B	以小博大，2B干翻7B-13B
2024.04	MiniCPM-1B	1B级别初代
2024.07	MiniCPM-S-1B	FFN稀疏化87.89%，FLOPs降84%
2024.09	MiniCPM3-4B	4B比肩7B-9B
2025.06	MiniCPM4	端侧5x加速
2025.09	MiniCPM4.1	可训练稀疏注意力+混合推理
2026.02	MiniCPM-SALA	25%稀疏+75%线性注意力，1M上下文
2026.05	MiniCPM5-1B	AI自写框架，1B超越2B

从MiniCPM-2B的"小模型也能很强"到MiniCPM5-1B的"AI自己制造AI"，面壁在端侧赛道上的进化逻辑一直很清晰：不跟巨头拼参数量，而是拼智能密度和部署效率。

---

八、总结：端侧智能的终极话语权

MiniCPM5-1B的发布标志着三个范式转移的交汇：

1. 从"人适配硬件"到"AI为硬件自动生产框架" ForgeTrain证明了AI可以针对特定硬件自动生成最优训练代码。这打破了传统"一个框架适配所有硬件"的兼容性陷阱。

2. 从"Scaling Law"到"密度Law" 当巨头们在万亿参数上烧钱时，面壁证明1B参数通过极致的数据治理和后训练优化，可以在实用性上击败2B模型。智能密度比绝对规模更重要。

3. 从"模型产品"到"自进化飞轮" MiniCPM5-1B不是终点，而是飞轮的一环。更强的模型生成更好的框架和数据，进而训练出更强的模型。这种递归加速，才是AGI路径上最值得关注的信号。

---

参考来源

#MiniCPM5 #面壁智能 #端侧模型 #ForgeTrain #AI自进化 #本地LLM #小模型 #清华大学 #OpenBMB #智能密度 #记忆 #小凯