小身材大能量：一个"迷你"AI如何击败 giants

> *——解读 Nemotron-Cascade 2：用30亿激活参数征服数学奥赛的秘密*

---

🏆 序章：当"轻量级"选手站上重量级擂台

2025年的夏天，国际数学奥林匹克（IMO）赛场上发生了一件令人震惊的事。

不是某个天才少年打破了历史最高分，而是一个AI模型——Nemotron-Cascade 2——拿下了金牌水平的表现。

如果你不了解IMO，让我简单介绍一下：这是全世界最负盛名的中学生数学竞赛，题目难度之高，连许多职业数学家都会感到头疼。每年能拿到金牌的，都是各国最顶尖的数学天才。

但这不是最惊人的部分。

最惊人的是，这个AI模型只有30亿激活参数。相比之下，目前业界顶尖的模型动辄数百亿、甚至上千亿参数。DeepSeekV3.2-Speciale，另一个在IMO上拿到金牌的模型，有6710亿参数，其中370亿是激活的。

换句话说，Nemotron-Cascade 2用不到对方十分之一的"脑容量"，达成了同样的成就。

这就像是一个轻量级拳击手，打败了重量级冠军。

它是怎么做到的？

---

🧠 第一章：参数战争——越大越好吗？

1.1 AI的"脑容量"迷思

在AI领域，有一个根深蒂固的观念：模型越大，能力越强。

这听起来很合理，对吧？一个有一万亿参数的模型，肯定比只有十亿参数的模型"聪明"。

确实，在一定范围内，这个说法是对的。OpenAI的GPT-4、Google的Gemini Ultra、Anthropic的Claude——这些最强大的模型，都有惊人的参数量。

但问题也随之而来：

成本：训练和运行大模型需要巨额资金
速度：大模型推理慢，用户体验差
门槛：普通开发者甚至大公司都用不起最大的模型
环保：训练大模型的碳排放堪比一个小城市

于是，一个关键问题浮出水面：我们能不能用更少的参数，达到同样的智能水平？

1.2 智能密度：新的竞争维度

Nemotron-Cascade 2的研究团队提出了一个有趣的概念："智能密度"（Intelligence Density）。

这个概念可以这样理解：

不是看你总共有多少参数
而是看每单位参数能产生多少智能

这就像比较汽车的燃油效率：不是看谁的油箱大，而是看谁能用一升油跑得更远。

Nemotron-Cascade 2的智能密度是惊人的。它只有30亿激活参数（总参数300亿，但每次只激活10%），却能在：

IMO 2025获得金牌水平（35分）
IOI 2025（国际信息学奥林匹克）获得金牌水平（439.28分）
ICPC 2025全球总决赛解决10/12个问题（金牌水平）

这是继DeepSeekV3.2之后，第二个在三大顶级竞赛中都达到金牌水平的开放权重模型——但参数量只有对方的1/20。

---

🔬 第二章：MoE——不是每个神经元都需要工作

2.1 混合专家模型：分而治之的智慧

Nemotron-Cascade 2的第一个秘密武器，是一种叫做MoE（Mixture of Experts，混合专家）的架构。

想象一下医院。医院里有各种各样的专家：心脏科医生、神经外科医生、皮肤科专家……当病人来看病时，不需要所有医生都来看他，而是根据病情，由最相关的专家来诊治。

MoE的原理类似。

在传统的"密集"模型中，每个输入都要经过所有参数。这就像每次看病都要全院医生会诊——效率低下。

但在MoE模型中，参数被分成很多组，每组称为一个"专家"。对于一个特定的输入，模型只需要激活一小部分最相关的专家。

Nemotron-Cascade 2有300亿总参数，但每次只激活30亿——约10%。这就像是一家有100位专家的大医院，每次只需要10位专家会诊。

2.2 路由机制：AI的"分诊台"

那么问题来了：模型怎么知道哪些专家该被激活？

答案是路由机制。

可以把路由想象成医院的前台分诊系统。病人来了，前台根据症状描述，判断应该找哪个科室的专家。

在MoE模型中，每层都有一个"路由器"网络。它先看输入的内容，然后决定激活哪些专家，以及给每个专家分配多大的"权重"。

这个机制的好处是：

效率高：只有相关参数被激活，计算量大大减少
容量大：总参数可以很大，每个专家可以专门学习特定的知识
可扩展性：可以不断增加专家数量，而不会线性增加推理成本

2.3 为什么MoE很难训练？

MoE听起来很美好，但实际训练起来却充满挑战。

第一个挑战是负载均衡。如果路由器总是选择同样的几个专家，其他专家就"失业"了，模型容量就被浪费了。因此需要特殊的训练技巧来确保所有专家都能被充分利用。

第二个挑战是训练稳定性。MoE模型更容易出现训练不稳定的情况，需要仔细调整超参数。

第三个挑战是内存访问。虽然计算量减少了，但你需要把所有专家的参数都加载到内存里。这就好比虽然每次只需要10位专家，但你得把所有100位专家都"养"在医院里待命。

Nemotron-Cascade 2成功克服了这些挑战，让MoE架构在顶级推理任务上大放异彩。

---

🎢 第三章：Cascade RL——循序渐进的修炼之路

3.1 什么是强化学习？

要理解Cascade RL，我们首先需要理解什么是强化学习（Reinforcement Learning，RL）。

想象你在训练一只狗。你不会告诉它具体的动作步骤，而是让它自己尝试。做对了给奖励（零食），做错了给惩罚（或者说"不"）。久而久之，狗就学会了什么该做，什么不该做。

AI的强化学习类似。模型生成回答，然后得到一个"奖励信号"来判断这个回答好不好。好的回答会强化，不好的回答会被抑制。

传统的监督学习（Supervised Learning）像是跟着教科书学——有标准答案，模型只需要模仿。但强化学习更像是实战演练——没有标准答案，模型需要自己探索什么策略最有效。

3.2 Cascade RL：从简单到复杂的阶梯训练

Cascade RL是Nemotron-Cascade 2的第二个秘密武器。

核心思想很简单：循序渐进，分阶段训练。

想象你正在学习一项复杂的技能，比如弹钢琴。你不会一开始就挑战最难的曲子，而是从简单的音阶开始，逐步增加难度。

Cascade RL的训练流程是这样的：

第一阶段：监督微调（SFT）

用高质量的人工标注数据，给模型一个良好的基础
包括数学、编程、科学、工具使用、对话等多种任务
这个阶段像是"上课"，让模型先学会基础知识

第二阶段：指令遵循强化学习（IF-RL）

训练模型严格遵循用户的指令
学会理解复杂的要求并按要求执行

第三阶段：多领域强化学习（Multi-domain RL）

涵盖STEM领域的选择题、智能体工具调用、结构化输出等
扩展模型的能力范围

第四阶段：数学强化学习（Math RL）

专门针对数学推理进行深度训练
使用可验证的奖励（比如答案是否正确）

第五阶段：编程强化学习（Code RL）

专门针对编程能力进行训练
通过代码执行结果来验证答案

第六阶段：软件工程强化学习（SWE RL）

最高阶的训练，针对复杂的软件工程任务
比如修复GitHub上的真实bug

3.3 为什么Cascade RL有效？

你可能会问：为什么要这么麻烦分阶段训练？不能一次性把所有数据混在一起训练吗？

这就是Cascade RL的精妙之处。

第一，避免灾难性遗忘。在传统的多任务训练中，模型学会了新任务，可能会"忘记"旧任务。但在Cascade RL中，每个阶段的训练都建立在前一阶段的基础上，之前的知识被巩固而不是被遗忘。

第二，更精细的优化。不同任务有不同的特点：数学题可以快速验证对错，编程题需要时间执行，软件工程任务可能需要与外部环境交互。分阶段训练允许为每个阶段量身定制最优的训练策略。

第三，渐进式难度。就像游戏里的关卡设计，从简单到复杂的递进让模型能够稳定进步，不会因为一下子面对太难的任务而"崩溃"。

---

🎓 第四章：多领域在线蒸馏——老师带学生的智慧传承

4.1 知识蒸馏：让小模型学大模型的智慧

Nemotron-Cascade 2的第三个秘密武器是多领域在线蒸馏（Multi-Domain On-Policy Distillation，MOPD）。

知识蒸馏这个概念，最早由Hinton等人在2015年提出。基本思想是：用一个强大的"老师模型"来指导"学生模型"的学习。

举个例子：

老师模型看到一张猫的图片，可能会输出："这是猫的概率是0.95，是狗的概率是0.03，是兔子的概率是0.02"
传统的训练只会告诉学生："这是猫"
但知识蒸馏会让学生学习老师的"软标签"——不仅仅是正确答案，还有答案的置信度分布

这种方式传递的信息更多。学生不仅知道什么是正确答案，还能了解到哪些选项是"差不多对的"，哪些是完全错误的。

4.2 多领域蒸馏：每个领域都有专门的"老师"

传统的知识蒸馏通常只有一个老师。但在Nemotron-Cascade 2的Cascade RL过程中，每个阶段都会产生不同的"中间模型"——在数学阶段训练出来的模型擅长数学，在编程阶段训练出来的模型擅长编程。

MOPD的创新在于：它会蒸馏不同阶段产生的最佳模型的知识。

具体来说： 1. 在数学RL阶段，模型在数学上变得很强，但可能在其他领域有所下降 2. 在编程RL阶段，模型在编程上变得很强，但数学能力可能有所回落 3. MOPD会从之前的"最强数学模型"和"最强编程模型"中蒸馏知识，恢复那些可能丢失的能力

这就像是让一位运动员同时接受多个专项教练的指导：体能教练教耐力，技术教练教技巧，战术教练教策略。最后把这些专长整合在一起，形成一个全面的运动员。

4.3 在线策略蒸馏：边练边学

"On-Policy"（在线策略）是MOPD的另一个关键点。

传统的蒸馏通常是"离线"的——先训练好老师模型，然后再用来指导学生模型。但MOPD是在Cascade RL的过程中进行蒸馏，老师模型和学生模型都在不断进化。

这有几个好处：

及时修复：如果模型在某个阶段某些能力下降了，蒸馏可以及时恢复
动态调整：老师模型也在不断改进，能给学生提供最新、最好的知识
稳定性：防止训练过程中的剧烈波动，让学习更加平稳

---

📊 第五章：惊人的成绩单

5.1 数学推理：金牌水平

在IMO 2025上，Nemotron-Cascade 2拿下了35分——这是金牌级别的成绩。

IMO的题目有多难？举个例子：

考试分两天，每天4.5小时
每天3道题，共6道题
每题满分7分，总分42分
金牌通常需要28-35分左右

这不仅是解常规数学题的能力，更是创造性数学思维的表现。AI不仅要会算，还要能构造证明、发现模式、进行高层次的抽象思考。

在AIME 2025（美国数学邀请赛）上，Nemotron-Cascade 2更是达到了92.4%的准确率，使用工具辅助时高达98.6%。

5.2 编程竞赛：金牌水平

在IOI 2025（国际信息学奥林匹克）上，Nemotron-Cascade 2拿下了439.28分——同样是金牌水平。

IOI是面向高中生的世界顶级编程竞赛，题目要求选手在有限时间内编写程序解决复杂的算法问题。

在ICPC 2025世界总决赛上，Nemotron-Cascade 2解决了10/12个问题——也是金牌水平。

ICPC是世界最负盛名的大学生编程竞赛，能在这样的比赛中拿到金牌，说明模型的算法能力和代码实现能力都达到了顶尖水平。

在LiveCodeBench v6（一个编程能力基准测试）上，Nemotron-Cascade 2达到了87.2分，使用工具时88.4分。

5.3 其他能力：全面而均衡

除了数学和编程，Nemotron-Cascade 2在其他方面也表现出色：

对齐与指令遵循：

ArenaHard v2：83.5分
IFBench：82.9分

长上下文：

NIAH@1M (RULER Subset)：99.0分
支持100万token的上下文窗口

智能体能力：

SWE Verified (OpenHands)：50.2分
TerminalBench 2.0：21.1%

多语言能力：

支持多种语言的推理和理解

---

🚀 第六章：技术民主化——小模型的时代来临？

6.1 为什么小模型很重要？

Nemotron-Cascade 2的成功，不仅仅是技术上的突破，更可能预示着AI发展范式的转变。

成本民主化

大模型虽然强大，但运行成本极高。GPT-4级别的模型，每次调用的成本可能高达几美分。对于需要大量调用的应用来说，这是一个巨大的负担。

Nemotron-Cascade 2由于只有30亿激活参数，运行成本大大降低。这使得更多中小企业、研究机构、甚至个人开发者都能用得起高质量的AI推理能力。

本地化部署

30亿参数的模型，经过量化后可以在消费级GPU（如RTX 4090或RTX 5090）上流畅运行。这意味着：

不需要依赖云API
数据可以留在本地，保护隐私
即使在网络不好的环境下也能使用

环境友好

训练和运行大模型的碳排放是一个日益严重的环境问题。小模型的能效比高得多，对环境的影响也更小。

6.2 竞争格局的变化

Nemotron-Cascade 2的发布，也标志着NVIDIA正式加入开源大模型的竞争。

长期以来，开源模型的领导者主要是中国公司（如阿里巴巴的Qwen、DeepSeek）和欧洲公司（如Mistral）。美国科技巨头虽然训练了最强大的模型，但很少开源。

NVIDIA作为GPU霸主，开源这样一个高性能模型，有几个可能的考量：

推动硬件销售：高性能的开源模型能带动对NVIDIA GPU的需求
建立生态：让更多的开发者和企业使用基于NVIDIA技术的模型
制衡竞争对手：与中国开源模型的竞争

无论动机如何，这对整个AI社区都是好事。更多的开源模型意味着更多的选择、更快的创新、更低的门槛。

6.3 未来展望：效率革命

Nemotron-Cascade 2代表了一种新的AI发展方向：效率优先。

过去几年，AI领域一直在追求"更大就是更好"。但这种模式已经遇到了瓶颈：

数据快用完了
计算成本太高
推理延迟影响用户体验
环境影响不可持续

未来的竞争焦点，可能会从"谁有最大的模型"转向"谁能用最少的资源达到最好的效果"。这包括：

架构创新：如MoE、状态空间模型等
训练方法创新：如Cascade RL、蒸馏技术
推理优化：如量化、投机解码、缓存策略
专用硬件：为AI推理优化的芯片

Nemotron-Cascade 2证明了：小模型也能有大智慧。这可能只是效率革命的开始。

---

📝 尾声：智能的本质是什么？

在写这篇文章的过程中，我一直在思考一个问题：智能的本质是什么？

是拥有巨大的记忆库，能够背诵海量的知识吗？是能够进行复杂的计算，每秒处理数万亿次运算吗？还是能够像人类一样，用有限的资源解决复杂的问题？

Nemotron-Cascade 2给我的启示是：真正的智能，可能不在于你有多少资源，而在于你如何使用这些资源。

一个30亿参数的模型，通过精巧的架构设计和训练方法，可以击败拥有数百亿参数的巨人。这就像人类大脑虽然只有约860亿个神经元，却能完成目前任何AI都无法企及的许多任务。

也许，我们离真正的通用人工智能（AGI）还有很长的路要走。但Nemotron-Cascade 2这样的突破告诉我们：我们不需要等待超级计算机变得更大、更强。通过更聪明的方法，我们现在就能做出令人惊叹的事情。

小身材，大能量。这不仅是对一个AI模型的描述，也许也是对未来AI发展方向的预言。

---

📚 参考文献

1. Yang, Z., Liu, Z., Chen, Y., Dai, W., Wang, B., Lin, S.-C., Lee, C., Chen, Y., Jiang, D., He, J., Pi, R., Lam, G., Lee, N., Bukharin, A., Shoeybi, M., Catanzaro, B., & Ping, W. (2026). Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation. arXiv:2603.19220.

2. Chen, Y., et al. (2025). Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models. arXiv:2512.13607.

3. Shazeer, N., et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. In International Conference on Learning Representations (ICLR).

4. Guo, D., et al. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948.

5. Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the Knowledge in a Neural Network. arXiv:1503.02531.

---

*本文是对Nemotron-Cascade 2论文的科普解读，采用费曼学习法风格撰写，力求用通俗易懂的语言解释复杂的AI技术概念。如有不准确之处，请以原论文为准。*

#论文解读 #科普 #arXiv #Nemotron #NVIDIA #MoE #CascadeRL #推理模型 #小凯