大多数 AI Agent 今天还在用"拼接模式"干活——视觉任务调一个模型,语音识别再调一个,文本理解又调一个。推理跳来跳去,上下文碎成渣,延迟和成本双双爆炸。
NVIDIA 的 Nemotron 3 Nano Omni 干脆把四模态塞进一个模型。30B 总参数,3B 激活,256K 上下文,文本+图像+视频+音频统一处理。不是妥协,是重新定义"子 Agent 该怎么感知世界"。
一、Nemotron 3 系列:一个完整的 Agent 生态
NVIDIA 在 2026 年 4 月发布了 Nemotron 3 系列,不是单模型,而是分层架构:
| 型号 | 规模 | 定位 |
|---|---|---|
| Nano | 30B-A3B | 子 Agent 感知层,成本最优 |
| Super | 120B-A12B | 多 Agent 调度层,效率+精度平衡 |
| Ultra | 253B | 复杂企业规划层,最高推理精度 |
Nano Omni 是 Nano 的多模态扩展——在 30B-A3B 文本 backbone 上,接入 C-RADIOv4-H 视觉编码器和 Parakeet-TDT 音频编码器,把"能读能写"升级为"能看能听能说"。
三种模型可以组合使用:Nano Omni 负责实时感知屏幕和音视频,Super 负责高频执行和工具调用,Ultra 负责复杂规划——一个完整的 Agent 流水线,全部用 NVIDIA 自家开放模型搭建。
二、架构拆解:为什么 3B 激活能干 30B 的事
Nemotron 3 Nano Omni 的核心是 Hybrid Mamba-Transformer MoE:
- Mamba 层:处理长序列的内存和计算效率
- Transformer 层:精确推理和复杂模式识别
- MoE 路由:每个任务只激活 3B 参数(总 30B),按需调用专家
结果:内存和计算效率提升 4 倍,吞吐量是 Nemotron 2 Nano 的 4 倍。
视觉处理:三层压缩策略
不是简单 resize,而是分级处理:
- C-RADIOv4-H:高分辨率图像编码器,支持原生 1920×1080 输入,OCR 精度不丢
- 动态分辨率:保留原始宽高比,不强行 tile(替代了上一代 tile-based 方案)
- Conv3D 时间压缩:视频帧之间的运动用 3D 卷积提取,时间 token 减少 2 倍
音频处理:不只是转录
基于 NVIDIA Parakeet-TDT-0.6B-v2 编码器,训练数据超越简单转录——包含音乐理解、环境音识别、说话人分离。不是"语音转文字",而是"音频理解"。
视频采样策略
用户最初注意到的那条规格——1080p 视频 1 FPS / 128 帧,720p 视频 2 FPS / 256 帧——背后是 Efficient Video Sampling (EVS):
- 高分辨率视频:低帧率采样,控制 token 数量
- 低分辨率视频:高帧率采样,保留时间细节
- 最长支持 2 分钟视频(即 128 秒 × 1 FPS = 128 帧)
这不是硬限制,是工程权衡——在保证视觉信息密度的同时,不把 LLM 的上下文窗口撑爆。
三、性能数据:不是"开源里不错",是"全模态领先"
文档智能
| 基准 | Nemotron 3 Nano Omni | Qwen3-Omni | Qwen3.5-Omni |
|---|---|---|---|
| OCRBench-V2 | 领先 | — | — |
| MMLongBench-Doc | 领先 | — | — |
| ChartQA | 领先 | — | — |
在真实文档理解场景(PDF、表格、图表、截图混合输入)中,Nano Omni 的跨模态对齐让它能同时理解视觉结构和文字内容——不是先 OCR 再 LLM,而是一次性统一推理。
音视频理解
| 基准 | Nemotron 3 Nano Omni | Qwen3-Omni | Qwen3.5-Omni |
|---|---|---|---|
| DailyOmni (30/60秒片段) | 74.5 | 71.9 | 73.6 |
| WorldSense (长视频) | 55.2 | 54.0 | — |
| VoiceBench | 领先 | — | — |
DailyOmni 测试跨模态一致性:画面里发生了什么、同时音频里说了什么、两者是否矛盾。WorldSense 测试长距离依赖:2 分钟视频里第 10 秒的事件和第 80 秒的结论是否关联。
Agentic GUI 使用
| 基准 | 表现 |
|---|---|
| ScreenSpot | 领先 |
| ScreenSpot-Pro | 领先 |
| OSWorld | H Company 集成验证,显著提升 |
H Company 的 computer use agent 直接用 Nano Omni 处理 1920×1080 屏幕录制——全高清原生分辨率,不是 downscale 后的模糊图。这意味着 Agent 能看清按钮上的文字、图标细节、弹窗边缘——GUI 导航的精度上限被拉高了一个量级。
效率指标
NVIDIA 自家 MediaPerf 基准(真实媒体数据、生产任务、质量+成本+吞吐量综合评估):
- 最高吞吐量:所有任务类别
- 最低推理成本:视频级 tagging
- 9 倍吞吐量:相比同等交互性的其他开源全能模型
实测(单 B200 GPU + vLLM nightly):
- 32 张 1024×1536 图像的多文档工作负载
- 512 帧 512×512 的长视频工作负载
- 256K 上下文,一次性处理
四、为什么"全能"比"专用链"更适合 Agent
当前大多数 Agent 架构是"拼接式":
屏幕截图 → 视觉模型(VLM) → 文本描述 → LLM → 决策
音频输入 → ASR 模型 → 文本转录 → LLM → 决策
PDF 文档 → OCR 模型 → 文本提取 → LLM → 推理
问题:
- 延迟叠加:每个 hop 都是一次推理,5 个模型串起来,总延迟是加法
- 上下文断裂:VLM 的描述和 ASR 的转录是各自生成的,LLM 看到的已经是"二手信息"
- 成本倍增:每个模型独立加载,VRAM 和算力重复消耗
- 错误累积:VLM 漏看一个图标 → ASR 错转一个词 → LLM 基于错误信息做错误决策
Nano Omni 的"全能"不是把所有专家塞进一个黑盒,而是共享感知层:
屏幕+音频+文档 → [统一编码器] → [共享上下文] → [MoE 路由] → 决策
视觉、音频、文本的 token 在同一个上下文窗口里对齐,LLM backbone 直接推理跨模态关系。第 1000 个 token 可能是"屏幕截图里按钮的颜色",第 1001 个是"同时音频里说的指令",LLM 能看到它们的关联——不需要中间翻译层。
五、开源策略:NVIDIA 这次真开
Nemotron 3 Nano Omni 的开放程度在巨头中少见:
- 权重:BF16、FP8、FP4 三种精度全放
- 训练数据:"large portion" 公开(NVIDIA 原话)
- 训练代码:完整 recipe 公开
- 部署框架:vLLM、SGLang、Ollama、llama.cpp 全兼容
- 商业授权:无附加限制,可商用
这不是"给社区看看",是"让社区帮我跑"。NVIDIA 的逻辑很清楚:模型用的人越多,发现的 edge case 越多,反馈回来,下一代更强。而且 NVIDIA 卖的是 GPU——模型越流行,B200 卖得越好。
六、局限与边界
第一,30B-A3B 不是通用大模型。 3B 激活参数决定了它在纯文本任务上不如 dense 70B 模型。定位明确:子 Agent 感知层,不是主控大脑。复杂规划请用 Ultra 253B。
第二,音频理解有盲区。 Music Flamingo 和 Parakeet 的音频训练偏向语音和音乐,环境音(如警报、机械声)的识别精度未在基准中充分验证。
第三,2 分钟视频限制是硬约束。 对长视频分析(电影、会议录像)需要分段处理,段间一致性靠外部 orchestration,不是模型原生能力。
第四,256K 上下文在实际多模态场景中可能不够。 512 帧 512×512 视频 + 32 张 1024×1536 图像 + 文本 prompt,token 总量很容易逼近上限。EVS 压缩是缓解,但不是无限扩展。
第五,开源模型没有内置安全护栏。 商业部署需要自己加 safety layer,NVIDIA NIM 微服务版本可能包含这部分,但自托管版本没有。
七、一个判断:Agent 的"感知层"正在被标准化
Nemotron 3 Nano Omni 代表了一个趋势:Agent 的多模态感知正在从"DIY 拼接"走向"标准化模块"。
以前每个 Agent 团队要自己选 VLM、ASR、OCR,然后写对齐层。现在 NVIDIA 提供了一个"即插即用"的感知子 Agent——你负责写逻辑,它负责看世界。
这降低了 Agent 开发门槛,但也带来一个问题:如果所有人都用同一套感知层,Agent 的差异化在哪里?答案可能是:感知层标准化,让创新向上层移动——planning、tool use、memory、orchestration 成为新的竞争点。
另一个值得关注的信号:NVIDIA 把 MoE 的激活参数压到 3B,意味着边缘部署成为可能。6GB 内存跑不了 30B dense,但 3B 激活的 MoE 在优化后可以。如果 Nano Omni 能跑到消费级 GPU 甚至高性能手机," everywhere agent"就不是口号了。
八、一句话总结
NVIDIA Nemotron 3 Nano Omni 不是"又一个多模态模型",而是Agent 感知层的标准化尝试。30B-A3B 的 Hybrid MoE 把文本、图像、视频、音频统一进一个共享上下文,4 倍效率、9 倍吞吐量、256K 长上下文,文档智能和音视频理解全模态领先。完全开源(权重+数据+代码),兼容主流推理框架,定位明确为子 Agent 感知节点。
如果你在做 computer use agent、文档智能、音视频分析——这是目前最值得试的全能感知底座。
项目信息
- Hugging Face: https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16
- 技术报告: https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Omni-report.pdf
- arXiv: https://arxiv.org/html/2604.24954v1
- 官方博客: https://developer.nvidia.com/blog/nvidia-nemotron-3-nano-omni-powers-multimodal-agent-reasoning-in-a-single-efficient-open-model/
- 公司: NVIDIA(https://developer.nvidia.com/nemotron)
- 许可证: 开源可商用
- 系列成员: Nano Omni (30B-A3B) / Super (120B-A12B) / Ultra (253B)
#NVIDIA #Nemotron3 #MultimodalAI #Agent #MoE #ComputerUse #OmniModal #OpenSource
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。