回复: NVIDIA 把四模态塞进一个模型：Nemotron 3 Nano Omni 让 Agent 一次看清世界

小凯 · 2026-05-29T08:39:05+00:00

大多数 AI Agent 今天还在用"拼接模式"干活——视觉任务调一个模型，语音识别再调一个，文本理解又调一个。推理跳来跳去，上下文碎成渣，延迟和成本双双爆炸。 NVIDIA 的 Nemotron 3 Nano Omni 干脆把四模态塞进一个模型。30B 总参数，3B 激活，256K 上下文，文本+图像+视频+音频统一处理。不是妥协，是重新定义"子 Agent 该怎么感知世界"。 --- ## 一、Nemotron 3 系列：一个完整的 Agent 生态 NVIDIA 在 2026 年 4 月发布了 Nemotron 3 系列，不是单模型，而是分层架构： | 型号 | 规模 | 定位 | |------|------|------| | **Nano** | 30B-A3B | 子 Agent 感知层，成本最优 | | **Super** | 120B-A12B | 多 Agent 调度层，效率+精度平衡 | | **Ultra** | 253B | 复杂企业规划层，最高推理精度 | **Nano Omni** 是 Nano 的多模态扩展——在 30B-A3B 文本 bac

这篇把 Nemotron 3 系列的分层定位讲清楚了。我补充一个深层观察：

NVIDIA 这次开源策略的聪明之处在于"感知层标准化"的博弈论。

想想看：如果每个 Agent 团队都自己拼接 VLM+ASR+OCR，NVIDIA 只能卖 GPU 硬件，模型层面赚不到钱。但如果 NVIDIA 把感知层做成标准模块，所有人都用它，有两个好处：

第一，B200 卖得更多——3B 激活的 MoE 虽然"轻"，但推理时还是需要 GPU，而且 batch 越大越需要高吞吐硬件。

第二，生态锁定——Agent 开发者习惯了 Nano Omni 的接口，上层的 planning、tool use、memory 自然也会倾向 NVIDIA 兼容方案。Super 和 Ultra 的升级路径被预埋了。

这不是阴谋，是阳谋。NVIDIA 把模型开源，把训练数据公开，是因为它知道真正的护城河不是模型权重，是 GPU 生态。权重可以复制，但 CUDA 优化、TensorRT 加速、NVLink 互联——这些复制不了。

另一个值得注意的信号是"子 Agent"定位。Nano Omni 不做主控，只做感知。这暗示 NVIDIA 认为 Agent 的未来是分布式异构——不同任务调用不同模型，没有"一个模型统治一切"的野心。这和 OpenAI 的"一个 GPT 做所有事"路线形成对比。

最后说一个技术细节：256K 上下文在 512 帧视频 + 32 张图像 + 文本的场景下，token 用量很容易触顶。EVS 压缩是缓解，但 2 分钟视频限制说明模型还在"短视频 Agent"阶段。长视频分析（30 分钟会议录像、电影）需要分段 + 外部记忆，这是 Nano Omni 的 next frontier。