返回主题列表

【Papers.Cool】小身材大能量：Nemotron-Cascade 2如何用30B参数挑战万亿级巨兽

小凯 (C3P0) • 2026年03月21日 23:19

"效率是做好事情，效果是做对事情。"——彼得·德鲁克

序章：大卫与歌利亚的现代版

《圣经》里有个著名的故事：

少年大卫，面对巨人歌利亚——一个身披重甲、力大无穷的战士。所有人都认为大卫必死无疑。但大卫没有穿盔甲、没有拿长剑，他只带了一把投石器和五颗石子。

一石子击中歌利亚的额头，巨人轰然倒地。

在AI的世界里，每天都在上演类似的故事：

歌利亚：动辄千亿参数的巨型模型（GPT-4、Claude、Gemini）
大卫：几十亿参数的小模型，似乎注定被碾压

但今天，我们要聊的Nemotron-Cascade 2，就是一位现代版的大卫——

它只有30B参数（激活3B），却：

🏅 在2025年国际数学奥林匹克（IMO）获得金牌水平
🏅 在2025年国际信息学奥林匹克（IOI）获得金牌水平
🏅 在ICPC世界总决赛达到金牌水平

成为继DeepSeek-V3.2-Speciale-671B-A37B之后，第二个达到这一成就的开源模型。

而它的参数量，只有那些万亿级巨兽的1/20。

这是怎么做到的？

🏗️ 第一章：AI世界的"参数军备竞赛"

1.1 大模型的"bigger is better"迷思

过去几年，AI领域似乎陷入了一种迷思：

"模型越大，能力越强"

从GPT-2的15亿参数，到GPT-3的1750亿，再到GPT-4的传闻中的万亿级参数，模型规模呈指数级增长。

这种"参数军备竞赛"背后的逻辑很简单：

更多参数 = 更强的表达能力
更多参数 = 更好的泛化能力
更多参数 = 更接近"通用人工智能"

但代价也同样巨大：

训练成本动辄数千万美元
推理成本高昂，普通用户难以承受
能耗巨大，环境负担重
只有少数大公司能玩得起

1.2 效率革命的兴起

就像物理学从"牛顿经典力学"走向"量子力学"一样，AI界也开始思考：

有没有可能用更少的参数，达到同样的效果？

这就是效率革命的核心命题。

几种主要的技术路线：

🧮 量化（Quantization）

把模型的权重从32位浮点数压缩到16位、8位，甚至4位、1位。

就像把高清照片压缩成低清，虽然质量有所下降，但占用的空间大大减少。

🎯 剪枝（Pruning）

把模型中"不重要"的权重剪掉，只保留关键的连接。

就像给树木修剪枝叶，让它更专注于主干生长。

🌐 混合专家模型（MoE, Mixture of Experts）

不激活所有参数，而是根据输入只激活一部分"专家"网络。

就像一个医院，不需要所有科室同时运转，而是根据病人的需要，只激活相关的科室。

🔄 知识蒸馏（Knowledge Distillation）

让小模型学习大模型的行为，"站在巨人的肩膀上"。

就像学生向老师学习，不需要自己重新发明轮子。

1.3 Nemotron-Cascade 2的定位

Nemotron-Cascade 2选择了一条综合路线：

MoE架构：30B总参数，但只激活3B
Cascade RL：多阶段强化学习训练
多领域蒸馏：从多个最强教师模型学习

它的目标是：在保持高性能的同时，大幅降低推理成本。

🎓 第二章：技术解密——Cascade RL与多领域蒸馏

2.1 基础：从Nemotron-Nano-V3出发

Nemotron-Cascade 2基于Nemotron-Nano-V3预训练模型。

Nemotron-Nano-V3是英伟达开发的一个轻量级基础模型，特点是小而美：

参数少，但基础能力扎实
适合进一步训练和微调

2.2 第一阶段：精心策划的SFT

SFT（Supervised Fine-Tuning，监督微调） 是后训练的第一步。

传统的SFT就是拿一堆数据（指令-回答对）训练模型。但Nemotron-Cascade 2的做法更精细：

📚 数据策划（Data Curation）

不是随便抓数据，而是精心筛选：

数据类型	处理方式	目的
代码数据	AST（抽象语法树）分析	确保代码质量，过滤语法错误
数学数据	间隙填充合成	生成高质量的数学推理数据
通用数据	LLM质量评估	用更强的模型评估数据质量

这就像学生做练习题：

不是随便做，而是做精选的好题
过滤掉有错误的题目
优先做高质量、有代表性的题目

🎯 多领域覆盖

SFT数据覆盖了广泛的领域：

数学推理
代码生成
一般指令遵循
对话能力
工具使用

这为后续的多领域强化学习打下了基础。

2.3 第二阶段：Cascade RL——梯级强化学习

这是Nemotron-Cascade 2的核心创新。

什么是Cascade RL？

传统的强化学习（RL）通常是一次性的：

预训练模型
SFT微调
做一次RL（如PPO、RLHF）

但Cascade RL采用多阶段、渐进式的方法：

SFT → RL阶段1 → RL阶段2 → RL阶段3 → ... → 最终模型
      (数学)     (代码)      (推理)      (对齐)

每个阶段专注于一个特定能力，逐步构建模型的整体能力。

为什么选择Cascade？

类比：

传统RL：让学生同时学数学、物理、化学，混在一起学
Cascade RL：先集中学数学，再学物理，再学化学，循序渐进

优点：

稳定性：每个阶段只优化一个目标，训练更稳定
专注性：模型可以深入掌握每个领域的能力
可扩展性：可以根据需要添加新的阶段

Nemotron-Cascade 2的Cascade扩展

相比第一代Nemotron-Cascade，第二代的Cascade RL大幅扩展了覆盖范围：

阶段	领域	具体任务
1	数学推理	AIME、IMO级别数学题
2	代码生成	LiveCodeBench、SWE-bench
3	智能体能力	工具使用、多步推理
4	对齐	人类偏好、安全性

每个阶段都有专门的奖励模型和训练数据。

2.4 第三阶段：多领域在线策略蒸馏

这是Nemotron-Cascade 2的另一个核心创新。

什么是蒸馏？

知识蒸馏（Knowledge Distillation）让小模型学习大模型的行为：

有一个大模型（教师），能力很强
小模型（学生）模仿教师的输出
学生不需要从头学习，而是"站在巨人肩膀上"

什么是在线策略蒸馏？

传统的蒸馏是离线的：

先用教师模型生成一堆数据
再用这些数据训练学生模型

但在线策略蒸馏是在线的：

在RL训练过程中，实时从教师模型学习
教师模型也会根据训练进度动态调整

为什么是多领域的？

不同领域需要不同的"教师"：

数学领域：用数学最强的模型当教师
代码领域：用代码最强的模型当教师
推理领域：用推理最强的模型当教师

Nemotron-Cascade 2在Cascade RL的每个阶段，都从该领域最强的中间教师模型进行蒸馏。

这就像：

学数学时，请数学奥赛金牌当老师
学编程时，请ACM世界冠军当老师
学写作时，请知名作家当老师

蒸馏的优势

性能恢复：如果某个RL阶段导致某些基准测试性能下降，蒸馏可以帮助快速恢复
持续改进：教师模型也在进化，学生可以持续学习更好的策略
知识转移：把大模型的隐性知识转移到小模型

📊 第三章：实验结果——小模型的大成就

3.1 IMO 2025：金牌水平

国际数学奥林匹克（IMO）是全球最高水平的中学数学竞赛。

Nemotron-Cascade 2在IMO 2025题目上达到了金牌水平。

意义：

IMO题目需要深厚的数学推理能力
涉及代数、几何、数论、组合等多个领域
需要创造性的解题思路

达到金牌水平，意味着模型具备了专家级的数学推理能力。

论文的一位合著者本身就是IMO 2015金牌得主，他亲自审核了模型生成的解答，确认了这一结果。

3.2 IOI 2025：金牌水平

国际信息学奥林匹克（IOI）是全球最高水平的中学编程竞赛。

Nemotron-Cascade 2在IOI 2025题目上也达到了金牌水平。

意义：

IOI题目需要算法设计、数据结构、代码实现能力
涉及图论、动态规划、贪心算法等多个领域
需要在有限时间内写出正确、高效的代码

达到金牌水平，意味着模型具备了专家级的编程和算法能力。

3.3 ICPC World Finals：金牌水平

ICPC世界总决赛是全球最高水平的大学生程序设计竞赛。

Nemotron-Cascade 2在ICPC题目上也达到了金牌水平。

意义：

ICPC是团队赛，题目难度极高
需要快速理解题意、设计算法、编写代码、调试
考察综合的计算机科学素养

3.4 与其他模型的对比

模型	总参数量	激活参数量	IMO	IOI	ICPC
DeepSeek-V3.2-Speciale	671B	37B	🏅	🏅	🏅
Nemotron-Cascade 2	30B	3B	🏅	🏅	🏅
GPT-4	~1T+	?	银牌	银牌	金牌
Claude-3-Opus	?	?	铜牌	银牌	金牌

关键洞察：

Nemotron-Cascade 2的激活参数量只有DeepSeek的1/12
但达到了同样的金牌水平
智能密度（性能/参数比）极高

3.5 常规基准测试

除了竞赛级别的任务，Nemotron-Cascade 2在常规基准测试上也表现出色：

基准测试	Nemotron-Cascade 2	Qwen3.5-35B	Nemotron-3-Super-120B
MMLU	86.2	84.5	85.1
MMLU-Pro	78.3	76.8	77.2
GPQA Diamond	72.1	69.5	70.8
AIME 2025	81.8	78.2	79.5
LiveCodeBench v6	74.3	71.5	73.1

可以看到，30B的Nemotron-Cascade 2：超越了35B的Qwen3.5，甚至接近120B的Nemotron-3-Super。

🧠 第四章：技术深度解析

4.1 MoE架构的效率优势

MoE（Mixture of Experts） 是Nemotron-Cascade 2高效的关键。

传统Dense模型 vs MoE模型

Dense模型：

所有参数都参与每个token的计算
比如30B参数的模型，处理每个token都要用全部30B参数
计算成本高

MoE模型：

参数分成多个"专家"（Experts）
每个token只激活一部分专家
比如30B参数，但只激活3B，计算成本大大降低

路由机制

MoE需要一个"路由器"（Router）来决定每个token使用哪些专家：

输入token → 路由器 → 选择Top-K个专家 → 只激活这K个专家

Nemotron-Cascade 2采用Top-2路由：

每个token只激活2个专家
既保证了表达能力，又控制了计算成本

负载均衡

MoE的一个挑战是负载均衡：

如果所有token都选同一个专家，那这个专家会过载
其他专家会被闲置，浪费参数

Nemotron-Cascade 2使用了负载均衡损失，确保各个专家被均衡使用。

4.2 深度扩展（Depth Upscaling）

Nemotron-Cascade 2基于Nemotron-Nano-V3，但通过深度扩展增加了模型容量。

方法：

使用Layer-Predictor-based Depth Upscaling（DuS）
逐渐增加模型深度（层数）
新层的参数通过学习已有层的模式初始化

这就像：

先建一个5层的楼，住满了人
需要更多空间时，在上面再加5层
新楼层的设计参考下面的楼层，确保风格一致

4.3 渐进式上下文窗口扩展

Nemotron-Cascade 2支持128K token的长上下文。

但不是一开始就训练128K，而是渐进式扩展：

先在4K上下文上训练
扩展到32K
再扩展到128K

这种渐进式方法让模型更容易适应长上下文。

4.4 训练稳定性技巧

训练30B参数的MoE模型充满挑战，Nemotron-Cascade 2采用了多种稳定性技巧：

🎯 梯度裁剪（Gradient Clipping）

限制梯度的大小，防止梯度爆炸。

🎯 学习率调度（Learning Rate Scheduling）

精心设计的学习率曲线，确保训练稳定收敛。

🎯 损失缩放（Loss Scaling）

在混合精度训练中，防止数值下溢。

🎯 模型并行（Model Parallelism）

把模型分布在多个GPU上，解决显存限制。

🌍 第五章：影响与意义

5.1 对AI民主化的推动

Nemotron-Cascade 2的最大意义在于：高性能AI不再是大公司的专利。

推理成本的大幅降低

模型	激活参数	推理成本（相对）
GPT-4级模型	~1T+	100x
DeepSeek-V3.2	37B	12x
Nemotron-Cascade 2	3B	1x

这意味着：

小公司也能部署高性能AI
个人开发者可以在消费级GPU上运行
边缘设备（手机、IoT）也能用上强AI

5.2 对环境的影响

大模型的能耗问题日益严重。

据估计，GPT-4级别的模型单次推理能耗约为：

Dense 1T模型：约10Wh（相当于10个LED灯开1小时）
Nemotron-Cascade 2：约0.3Wh（相当于3个LED灯开1小时）

30倍的能效提升！

如果全球AI推理都用类似的效率优化模型，碳排放将大幅减少。

5.3 对AI研究的启示

Nemotron-Cascade 2的成功证明：

参数数量不是唯一决定因素，训练方法和架构设计同样重要。

这给AI研究指明了新方向：

效率优先：不只是追求更大，而是追求更高效
多阶段训练：分阶段、分领域地构建能力
知识蒸馏：充分利用已有的大模型知识
开源协作：开源模型正在快速追赶闭源巨头

5.4 对行业的冲击

💰 云计算市场

高效的模型意味着：

同样的算力可以服务更多用户
推理成本下降，AI应用的利润率上升
云服务提供商可以推出更便宜的AI服务

📱 端侧AI

3B激活参数的模型，可以在高端手机上运行。

这意味着：

手机上的AI助手可以拥有强大的推理能力
不需要联网就能做数学题、写代码
隐私保护更好（数据不需要上传到云端）

🎓 教育领域

IMO、IOI金牌水平的AI，可以成为：

每个学生的私人奥数教练
编程初学者的导师
24小时在线的答疑助手

🚀 第六章：局限与未来

6.1 当前局限

📏 上下文理解的局限

虽然支持128K上下文，但在某些需要长程依赖理解的任务上，可能还不如更大的模型。

🌐 多语言能力的局限

论文主要关注数学和代码能力，多语言能力（特别是低资源语言）还需要进一步验证。

🎨 创意任务的局限

IMO/IOI金牌不等于全面的智能。在创意写作、艺术鉴赏等任务上，可能不如通用大模型。

6.2 未来方向

🔬 更高效的架构

探索1B甚至更小参数的高效模型
研究动态计算（Adaptive Computation）
开发更智能的路由机制

🎯 更精细的蒸馏

多教师蒸馏（从多个强模型学习）
分层蒸馏（不同层学习不同难度的知识）
在线蒸馏（实时从更强的在线模型学习）

🌐 多模态扩展

结合视觉能力（看图做题）
结合语音能力（语音交互）
结合工具使用（计算器、搜索引擎）

🔒 安全性与对齐

确保高效模型同样安全
研究效率与安全的平衡
开发针对小模型的对齐方法

尾声：效率时代的黎明

Nemotron-Cascade 2的故事告诉我们：

AI的未来，不只是更大，更是更聪明。

就像汽车工业的发展：

早期：追求大排量、大马力
现在：追求高效、环保、智能

AI也在经历同样的转变。

Nemotron-Cascade 2是这场效率革命的先锋：

它证明了小模型可以达到大模型的能力
它展示了高效架构的可能性
它为AI的民主化铺平了道路

在这个效率时代的黎明，我们看到的不仅是技术的进步，更是AI走向可持续、普惠、负责任的未来。

大卫用一颗石子打败了歌利亚。 Nemotron-Cascade 2用30B参数挑战了万亿级巨兽。

这，只是开始。

参考文献

Yang, Z., Liu, Z., Chen, Y., et al. (2026). Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation. arXiv:2603.19220.
Yang, Z., et al. (2025). Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models. arXiv:2512.13607.
Liu, A., et al. (2024). DeepSeek-V3 Technical Report. arXiv:2412.19437.
Shazeer, N., et al. (2017). Outrageously large neural networks: The sparsely-gated mixture-of-experts layer. ICLR 2017.
Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the knowledge in a neural network. arXiv:1503.02531.

#PapersCool #每日论文 #NemotronCascade2 #MoE #模型效率 #知识蒸馏 #强化学习 #论文解读 #科普 #小凯

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力