MiniCPM5-1B:AI自己写的训练框架,跑出了1B参数的极限
> 面壁智能让AI从零写了一个训练框架ForgeTrain,然后它训出了1B级别最强模型。在英伟达H100上比Megatron快10%,在华为昇腾上3天跑通。这已经不是"模型压缩"的故事了,而是"AI自己制造AI"的范式切换。 > > GitHub: OpenBMB/MiniCPM | 发布:2026-05-26 | 机构:面壁智能 / 清华大学 / OpenBMB
---
一、先看数字:1B参数怎么超越2B的
MiniCPM5-1B的硬核指标,直接列出来:
| 指标 | 数值 | 含义 |
|---|---|---|
| 参数规模 | 1.08B | 1B级别,INT4量化后0.5GB |
| AA-Index | 17.9 | 小尺寸模型第一,超越所有2B以下模型 |
| 对比Qwen3.5-2B | 参数量减半,性能更优 | 3个月前发布的2B模型被1B超越 |
| 上下文长度 | 131K | 远超同级Qwen3.5-0.8B(32K)和Gemma3 1B(32K) |
| 推理模式 | Think/No Think | 同一Checkpoint,开关思考模式 |
| 综合平均分 | 42.57 | 推理、知识、代码、指令、数学、逻辑、Agent |
| 同尺寸最高对比 | 35.61 | 比同尺寸最强基线高7分 |
---
二、ForgeTrain:AI自己写的训练框架
这是MiniCPM5-1B最反直觉的地方。它的Base Model不是用人写的Megatron、DeepSpeed或MindSpeed训出来的,而是用一个完全由AI生成的训练框架ForgeTrain训出来的。
2.1 什么叫"AI写训练框架"?
面壁的定义很清晰:零人工代码介入。
人类只设定目标,例如: > "在昇腾910B上训练1B模型,用FP8低精度,目标吞吐量XXX tokens/sec"
后续所有代码生成、测试、调优,全部在AI主导的闭环中完成。ForgeTrain会: 1. 分析目标硬件的架构特性(内存带宽、算力、通信拓扑) 2. 生成针对性的分布式策略和算子实现 3. 自动编译、测试、性能分析 4. 根据反馈迭代优化
2.2 性能数据:不是够用,是超越
| 平台 | 对比框架 | 性能提升 |
|---|---|---|
| 英伟达H100 | Megatron | 快10% |
| 华为昇腾 | MindSpeed | 快10% |
| 昇腾适配周期 | 传统人工适配 | 3-5天跑通 |
3-5天跑通昇腾是什么概念?国产AI芯片最大的生态壁垒就是软件适配。传统上一个新模型适配昇腾需要数周甚至数月的人月投入。ForgeTrain把周期压缩到3-5天,而且零人工代码。
2.3 为什么AI写的框架能更快?
核心逻辑:通用框架是为"所有硬件、所有模型"设计的,必须保留大量兼容性和灵活性。AI生成的框架是为特定硬件、特定模型、特定规模"现场锻造"的——没有兼容负担,只有极致优化。
这就像手工制作的定制西装 vs 流水线的标准尺码。ForgeTrain的"定制"不是人工量体裁衣,而是AI根据硬件规格和模型结构自动生成的。
---
三、训练配方:三阶段全栈实践
MiniCPM5-1B的训练不是"拿数据灌模型"的暴力美学,而是UltraData分级数据管理的系统性工程。
3.1 三阶段流程
Base Training(稳定训练+衰减训练)
↓ 建立核心语言能力和训练稳定性
Mid Training
↓ 强化目标能力,适配目标数据分布
Post Training(SFT → RL → OPD)
↓ 建立对话、推理、工具调用能力
3.2 数据层:高质量燃油
面壁同步开源了训练数据集:
| 数据集 | 用途 | 规模 |
|---|---|---|
| Ultra-FineWeb | 预训练基础语料 | 大规模 |
| Ultra-FineWeb-L3 | 三级数据治理后的高质量语料 | 超1T Tokens |
| UltraData-Math | 数学能力强化 | 专项 |
| UltraData-SFT-2605 | SFT阶段数据 | 200B + 200B |
3.3 Post Training:RL + OPD的16分跃迁
这是MiniCPM5-1B后训练的核心配方:
1. SFT阶段:200B Tokens深度思考SFT + 200B Tokens混合思考SFT,建立Deep-thinking、Hybrid-thinking和通用聊天能力
2. RL阶段:针对数学、代码、闭卷QA、写作、指令遵循等领域训练专门的RL教师模型
- 基于DAPO-Math-17k的Reasoning RL
- 两阶段长度调度,减少过长响应
- 结合TriviaQA、NQ-Open、LongWriter等多源数据
- 反向KL散度作为优势估计
- Top-k logits联合计算
- 复用RL教师的域内提示,无需额外数据整理
---
四、自进化飞轮:每三个半月翻倍的智能密度
面壁的终极目标不是训出一个好模型,而是建立一个"AI制造AI"的递归闭环。
4.1 飞轮结构
更强的基座模型
↓ 用ForgeTrain生成更优的训练框架
↓ 从海量语料中筛选更高质量的训练数据
↓ 新框架 + 新数据 → 训练下一代更强模型
↓ 循环往复
这个闭环的核心机制:
- 模型越强 → 代码生成能力越强 → 能生成更优的ForgeTrain版本
- 模型越强 → 数据理解能力越强 → 能从Ultra-FineWeb中筛选出更纯的L3/L4级数据
- 框架越优 + 数据越纯 → 下一代模型训练效率更高、效果更强
4.2 L1-L5自改进梯度
行业对"AI制造AI"的进化能力有一个L1-L5的梯度划分,面壁正在向L4阶段发起全面冲锋:
| 等级 | 能力 | 面壁状态 |
|---|---|---|
| L1 | 人类设计,AI辅助 | 已完成 |
| L2 | 人类指导,AI生成 | 已完成 |
| L3 | AI主导生成,人类审核 | 已完成 |
| L4 | 全自改进闭环 | 正在冲锋 |
| L5 | 完全自主,无需人类 | 目标 |
五、部署生态:一次训练,处处运行
MiniCPM5-1B的部署支持不是"能用就行",而是工业级的多后端覆盖。
5.1 推理后端(7个)
| 后端 | 适用场景 | 格式 |
|---|---|---|
| vLLM | OpenAI兼容服务器,NVIDIA GPU | BF16/FP16 |
| SGLang | OpenAI兼容服务器,推荐工具调用 | BF16/FP16 |
| llama.cpp | GGUF本地推理,CPU/GPU | GGUF |
| Ollama | 端侧设备运行 | GGUF |
| LM Studio | Mac桌面应用 | GGUF |
| MLX | Apple Silicon本地推理 | MLX/4bit |
| ArcLight | 桌面/服务器CPU推理 | GGUF |
5.2 微调框架(5个)
TRL + PEFT、LLaMA-Factory、ms-swift、unsloth、xtuner全部支持,每个都有配套的Cookbook和Agent Skill。
5.3 Agent Skill:为Cursor/Claude Code设计的部署技能
面壁给MiniCPM5-1B设计了一套Agent Skill系统,让Cursor或Claude Code能自动选择部署路径:
@minicpm5-deploy serve openbmb/MiniCPM5-1B with vLLM on port 8000
@minicpm5-finetune use unsloth + LoRA on /data/my_chat.jsonl
Agent会读取Skill文件,根据目标后端、硬件和数据路径自动选择子Skill和Cookbook,然后执行命令并报告结果。
5.4 多芯片:FlagOS的9芯片适配
通过FlagOS统一多芯片系统软件栈,MiniCPM5-1B在极短时间内适配了9种不同架构:
- 英伟达、海光、沐曦、天数、燧原、摩尔线程、昆仑芯、昇腾、ARM-v9
---
六、桌面宠物:一个有趣的副产品
面壁还开源了 MiniCPM-Desk-Pet,一个本地LLM驱动的桌面宠物:
- 基于MiniCPM5-1B本地推理
- Electron UI,支持Apple Silicon/NVIDIA/CPU
- 可与Cursor、Claude Code、Codex等编码Agent协同
- 支持LoRA人格切换(赛博桌宠可以换性格)
---
七、MiniCPM系列演进:一部端侧模型的进化史
| 时间 | 版本 | 核心突破 |
|---|---|---|
| 2024.02 | MiniCPM-2B | 以小博大,2B干翻7B-13B |
| 2024.04 | MiniCPM-1B | 1B级别初代 |
| 2024.07 | MiniCPM-S-1B | FFN稀疏化87.89%,FLOPs降84% |
| 2024.09 | MiniCPM3-4B | 4B比肩7B-9B |
| 2025.06 | MiniCPM4 | 端侧5x加速 |
| 2025.09 | MiniCPM4.1 | 可训练稀疏注意力+混合推理 |
| 2026.02 | MiniCPM-SALA | 25%稀疏+75%线性注意力,1M上下文 |
| 2026.05 | MiniCPM5-1B | AI自写框架,1B超越2B |
---
八、总结:端侧智能的终极话语权
MiniCPM5-1B的发布标志着三个范式转移的交汇:
1. 从"人适配硬件"到"AI为硬件自动生产框架" ForgeTrain证明了AI可以针对特定硬件自动生成最优训练代码。这打破了传统"一个框架适配所有硬件"的兼容性陷阱。
2. 从"Scaling Law"到"密度Law" 当巨头们在万亿参数上烧钱时,面壁证明1B参数通过极致的数据治理和后训练优化,可以在实用性上击败2B模型。智能密度比绝对规模更重要。
3. 从"模型产品"到"自进化飞轮" MiniCPM5-1B不是终点,而是飞轮的一环。更强的模型生成更好的框架和数据,进而训练出更强的模型。这种递归加速,才是AGI路径上最值得关注的信号。
---
参考来源
#MiniCPM5 #面壁智能 #端侧模型 #ForgeTrain #AI自进化 #本地LLM #小模型 #清华大学 #OpenBMB #智能密度 #记忆 #小凯🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens