Nemotron 3 Super：英伟达的效率革命，首个LatentMoE+NVFP4开源巨模型深度解析

引言：效率与精度的新范式

英伟达（NVIDIA）近日发布了Nemotron 3 Super，一款1200亿参数（120B）的混合专家（Mixture-of-Experts, MoE）模型，仅激活120亿参数（12B）即可运行【8†source】。这不仅是参数规模的简单堆叠，而是首个将效率与准确率通过架构创新深度融合的“缝合怪”式强者。Nemotron 3 Super在保证顶尖精度的同时，实现了前所未有的推理效率，标志着开源大模型进入“效率优先”的新阶段【4†source】。本文将深度解析其技术报告，揭开其如何在效率与精度之间玩出花来的奥秘。

架构概览：混合Mamba-Transformer MoE设计

Nemotron 3 Super的架构是其效率与精度兼得的核心。它采用了混合Mamba-Transformer MoE的设计，将三种计算层交替组合，各司其职【3†source】：

Mamba-2层：承担主要的序列处理任务。Mamba属于状态空间模型（SSM），具有线性时间复杂度，使模型在处理长序列时内存占用和计算开销更低【3†source】。这意味着即使上下文窗口扩展到100万Token，模型依然能保持可管理的内存足迹，而不至于因“上下文爆炸”而崩溃【3†source】。

Transformer注意力层：在关键深度处穿插，用于保证精确的全局关联检索能力【3†source】。纯SSM模型在需要从海量信息中精准定位“针”时可能力不从心，而注意力机制确保了即使“针”隐藏在信息的“大海”中，模型也能高保真地检索到【3†source】。这保证了模型在长上下文中对细节的把握，不会因为序列增长而丢失关键信息。

MoE层：通过混合专家机制大幅扩展模型的有效参数量，却无需付出稠密模型那样高昂的计算代价【3†source】。每次推理时，只有一小部分专家被激活，从而保持低延迟和高吞吐，这对于需要同时运行多个代理（多agent）的场景至关重要【3†source】。Nemotron 3 Super拥有512个专家，采用Top-22的路由策略【7†source】，通过稀疏激活，模型在保持12B参数激活量的同时，获得了120B参数模型的知识容量。

这种混合架构的设计哲学是：用Mamba保证效率，用注意力保证精度，用MoE保证容量。三者协同，使得模型既能在长上下文中高效运行，又能对复杂问题进行精确推理，同时拥有远超激活参数规模的知识储备。

创新点一：LatentMoE——压缩潜空间，四倍专家并行

标准MoE架构的一个瓶颈在于：路由层直接将完整维度的Token送入专家，随着模型规模增长，路由层成为计算开销的瓶颈，限制了可部署专家的数量【3†source】。Nemotron 3 Super引入了LatentMoE架构，通过在路由决策前将Token嵌入投影到一个低秩潜空间，在压缩后的维度上进行专家计算，然后再投影回原始模型维度【3†source】。

这一创新带来了巨大的效率提升：更多专家，同等成本。由于Token在进入专家前被压缩，模型可以用与原先激活一个专家相同的计算开销，同时激活四个专家【3†source】！这相当于在推理成本几乎不变的情况下，将专家数量扩大了4倍，极大地提高了模型的 specialize 能力。更细粒度的专家也意味着模型可以更精细地针对不同任务（例如，将Python语法专家与SQL逻辑专家区分开来）进行路由，只在需要时激活相应专家，从而在保证精度的同时避免了不必要的计算【3†source】。

简而言之，LatentMoE通过压缩Token维度这一巧妙的“潜空间”操作，巧妙地突破了MoE架构的扩展瓶颈，实现了四倍专家并行，为模型注入了更强的专业能力和更高的推理效率。

创新点二：多Token预测（MTP）——一次看多步，推理加速与质量兼得

传统自回归语言模型每次前向传播只能预测下一个Token，这被称为单Token预测。这种逐步预测的方式虽然简单，但目光短浅：模型在生成每个Token时，并未显式地考虑更远的未来，可能导致推理链路的不稳定。而Nemotron 3 Super采用了多Token预测（MTP），在每个位置同时预测多个未来Token【3†source】。

MTP带来了两方面的收益：

更强的推理能力：预测多个未来Token迫使模型在训练时内部化更长远的关系和逻辑依赖【3†source】。模型不能再只靠“猜测下一个词”蒙混过关，而必须学会预见连贯的序列。这在需要链式思考（Chain-of-Thought）的任务中表现尤为明显——模型生成的每一步都必须与前一步逻辑一致，从而显著提升了推理的稳健性和准确度【3†source】。

内置的推理加速：由于MTP在一次前向传播中就预测了多个Token，它可以作为原生的推测解码（Speculative Decoding）机制【3†source】。模型自己生成的多Token预测相当于草稿，可以并行验证，从而大幅减少生成长序列所需的实际前向传播次数【3†source】。在结构化生成任务（如代码生成、工具调用）中，MTP可实现最高3倍的端到端加速【3†source】。这意味着，对于需要生成大量Token的复杂任务，Nemotron 3 Super不仅能“想得更远”，还能“走得更快”。

值得一提的是，Nemotron 3 Super的MTP采用了一种共享权重的多头设计，所有预测头的权重共享【3†source】。这不仅将参数开销降至最低，还确保了不同预测步长的一致性，避免了独立训练多个预测头可能带来的发散和不一致问题【3†source】。共享权重也让更长的草稿预测更加可靠，这是独立训练多头方案通常难以做到的【3†source】。

创新点三：原生NVFP4预训练——4-bit精度下的稳定训练与超凡效率

大型模型通常在训练时使用高精度（如BF16）以确保稳定，训练完成后再进行量化压缩，这不可避免地会带来精度损失。Nemotron 3 Super则大胆采用了原生NVFP4预训练，即在预训练阶段就将大部分浮点乘加运算运行在NVFP4这种4-bit浮点格式下【3†source】。NVFP4是英伟达Blackwell架构优化的4-bit浮点格式，相比FP8可以在保持精度的同时进一步减少内存占用并加速推理【3†source】。

直接在低精度下训练模型，意味着模型从第一个梯度更新开始就在4-bit算术的约束下学习，从而在数学上更稳定，训练出的模型在4-bit下依然保持高精度【3†source】。Nemotron 3 Super的实验证明了这一点：尽管预训练主要在NVFP4下进行，其最终模型在精度上与BF16模型几乎相当，却在推理速度和内存占用上获得了巨大收益【3†source】。在Blackwell GPU上，NVFP4模型相比FP8模型可实现4倍的推理加速，同时精度几乎无损【3†source】。

这种先低精度训练，后无需量化的范式，颠覆了传统“高精度训练+后量化”的思路。它带来的直接好处是：模型部署时无需额外的量化步骤，直接以NVFP4格式即可高效运行，显著降低了推理成本。对于需要长时间、大规模运行的自主代理系统而言，这种原生4-bit训练的模型能以更少的硬件资源提供同等甚至更好的性能，是极具吸引力的特性。

预训练数据与规模：25万亿Token的巨额训练

Nemotron 3 Super的预训练规模同样令人瞩目。它在25万亿（25T）Token的超大数据集上进行了预训练【1†source】。这比许多同类模型（例如GPT-OSS-120B使用15T Token）都要庞大，为模型提供了极其丰富的知识储备。预训练分为两个阶段：第一阶段占80%（20T Token），侧重于多样性和广泛覆盖；第二阶段占20%（5T Token），聚焦于高质量数据和基准准确率【1†source】。这种两阶段策略确保模型既有广度又有深度，在通用知识上打下坚实基础的同时，在关键能力上精益求精。

值得注意的是，Nemotron 3 Super的预训练数据不仅包括海量文本，还特别引入了多种合成数据，以强化模型在特定领域的能力【1†source】。例如，模型使用了合成生成的代码概念、算法、形式逻辑、经济学等数据【1†source】。这些合成数据经过精心设计和去污染处理，确保模型在相关基准上的提升是真实的能力提升，而非对训练集的简单记忆【1†source】。例如，通过合成算法数据，模型在HumanEval、MBPP等代码基准上获得了1-2个百分点的提升【1†source】；通过合成经济学和形式逻辑数据，模型在这些领域的问题解决能力也得到增强【1†source】。这种有针对性的数据策略，使得Nemotron 3 Super在通用智能和专项技能上都取得了优异表现。

后训练：SFT与多环境强化学习的加持

预训练只是基础，Nemotron 3 Super的后训练同样功不可没。模型在预训练后经历了监督微调（SFT）和大规模多环境强化学习（RL）两个阶段的精细打磨【3†source】。

在SFT阶段，模型学习了人类撰写的对话、指令遵循等数据，以掌握基本的对话和遵从指令的能力。随后进入RL阶段，这是Nemotron 3 Super后训练的重头戏。模型在21种不同的环境配置下进行了强化学习训练【3†source】！这些环境覆盖了从多步工具使用、软件工程到终端操作等广泛场景【3†source】。通过与环境的交互，模型学会了如何自主地规划、使用工具、调试代码等复杂技能，而不仅仅是根据指令给出答案。这种多环境RL训练的规模和多样性在开源模型中前所未有，它使得Nemotron 3 Super在代理式推理（Agentic Reasoning）方面表现出色【3†source】。

为了支持如此大规模的RL训练，英伟达开发了NVIDIA NeMo Gym和NVIDIA NeMo RL框架，并进行了超过120万次环境交互（rollout）【3†source】。这种训练方式极大地增强了模型的自主性和鲁棒性，使其在面对真实世界中复杂、多步骤的任务时，能够游刃有余地规划和执行。

性能评估：精度与效率的双重验证

Nemotron 3 Super在各类基准上的表现证明了其“缝合怪”架构的价值：在精度上，它达到了同类开源模型的顶尖水平；在效率上，它更是实现了飞跃式的提升。

精度方面，在通用知识基准MMLU-Pro上，Nemotron 3 Super得分83.73【5†source】，略低于Qwen3.5-122B的86.70，但高于GPT-OSS-120B的81.00【19†source】。在科学推理基准GPQA上，Nemotron 3 Super得分82.7【3†source】，在同类开源模型中名列前茅。在数学竞赛级别难题基准AIME25上，它更是取得了90.21的高分【19†source】，展示了卓越的数学推理能力。此外，在SWE-Bench Verified软件开发基准上，Nemotron 3 Super得分60.47【9†source】，显著优于GPT-OSS-120B的41.9%【3†source】，表明其在软件工程任务上的强大能力。在Artificial Analysis的综合智能指数中，Nemotron 3 Super的得分也领先于GLM-4.5-Air-Base和Ling-flash-Base-2.0等同类基础模型【1†source】。总体而言，Nemotron 3 Super在通用智能、推理、编码、长上下文等各类评测中都取得了与最先进模型相当的精度，甚至在某些代理任务上更胜一筹。

图1：Nemotron 3 Super 与 GPT-OSS-120B 在关键基准上的性能对比

效率方面，Nemotron 3 Super的优势更加惊人。在8K输入/64K输出的设定下，Nemotron 3 Super的推理吞吐量比GPT-OSS-120B高出2.2倍，比Qwen3.5-122B高出7.5倍【1†source】！这意味着，在处理长上下文、生成大量输出的场景（如自主代理需要反复发送长历史和工具输出时），Nemotron 3 Super可以以远超竞品的速度完成任务，而不牺牲准确性【1†source】。这种效率提升主要归功于其混合Mamba-Transformer MoE架构：Mamba层和稀疏MoE使得模型在长序列上更高效，而LatentMoE和MTP进一步加速了推理。在实际部署中，这使得Nemotron 3 Super能够在多代理并行、长时运行的场景下依然保持低延迟和高吞吐，而不像传统大型模型那样因为“思考税”和“上下文爆炸”而变得迟缓和昂贵【3†source】。

图2：Nemotron 3 Super 与竞品推理吞吐量倍率对比 (以其自身为基准 1x)

开放性与影响：开源巨模型的新标杆

Nemotron 3 Super的发布不仅在技术上有突破，其开放性也树立了新标杆。英伟达不仅开放了模型的权重，还开放了预训练和后训练的完整数据集和训练配方【3†source】。这包括超过10万亿Token的预训练数据、15种RL训练环境以及完整的评估和微调方案【3†source】。开发者可以基于这些开放资源，在自己的基础设施上定制、优化和部署Nemotron 3 Super，而无需依赖黑盒API【3†source】。

这种开放策略对行业的影响是深远的。首先，它降低了前沿AI技术的门槛，使得学术研究和企业创新都能基于最先进的模型进行探索。其次，开放数据和配方有助于社区共同改进模型，例如通过社区贡献的新数据或改进的训练策略来进一步提升模型性能。最后，对于注重数据隐私和安全的企业而言，能够私有化部署和微调这样一款顶尖模型，意味着他们可以在不牺牲性能的前提下，获得对模型的完全控制权，这在金融、医疗等敏感领域尤为重要。

结论：效率优先，开源巨模型新篇章

Nemotron 3 Super的推出，标志着大模型的发展进入了一个新的阶段：效率优先。它通过LatentMoE、MTP、NVFP4等创新，证明了模型规模的增长并不必然带来同等比例的效率下降，通过架构和训练范式的革新，我们可以在更少的计算下获得更强的能力。这对于推动AI技术的实际应用至关重要——只有当模型能够在成本可控的情况下持续运行，我们才能真正构建出可靠的自主代理系统。

作为开源社区的新成员，Nemotron 3 Super不仅提供了当前最强性能的开放模型之一，更提供了一条清晰的技术路线：混合架构、稀疏激活、低精度训练、多任务强化学习。这为后续的研究和开发指明了方向。可以预见，未来的大模型将不再仅仅追求参数规模的天文数字，而是会更加关注每FLOP的智能产出和每参数的知识效率。Nemotron 3 Super正是这一潮流的开端，它以“缝合怪”的身姿，将效率与精度融为一体，开启了开源大模型的新篇章。【4†source】【1†source】

Nemotron 3 Super：英伟达的效率革命，首个LatentMoE+NVFP4开源巨模型深度解析

Nemotron 3 Super：英伟达的效率革命，首个LatentMoE+NVFP4开源巨模型深度解析

引言：效率与精度的新范式

架构概览：混合Mamba-Transformer MoE设计

创新点一：LatentMoE——压缩潜空间，四倍专家并行

创新点二：多Token预测（MTP）——一次看多步，推理加速与质量兼得

创新点三：原生NVFP4预训练——4-bit精度下的稳定训练与超凡效率

预训练数据与规模：25万亿Token的巨额训练

后训练：SFT与多环境强化学习的加持

性能评估：精度与效率的双重验证

开放性与影响：开源巨模型的新标杆

结论：效率优先，开源巨模型新篇章

🌟 智谱 GLM-5 已上线