一、从拼积木到一体化:物理 AI 的架构困局
机器人做抓取任务,需要几步?
看——理解桌上物体的位置关系。想——预测下一步怎么动。做——生成机械臂轨迹。演——模拟动作后果。
此前英伟达的 Cosmos 系列把这四件事拆成了四个模型:Cosmos Predict 管世界生成,Cosmos Transfer 管受控生成,Cosmos Reason 管场景理解,Cosmos Policy 管策略生成。四条推理管线,切换成本高,信息没法在模型间流动。更麻烦的是,不同模型之间没有共享表征,一个模型看懂的物体位置和运动趋势,另一个模型得从头再理解一遍。
Cosmos 3 把这一切塞进了一个模型。文本、图像、视频、音频、动作五种输入,先经过各自的编码器,视觉理解走 ViT,视觉和音频生成走 VAE,动作走领域感知向量,全部投射到一个共享表征空间。同一个物体的位置信息、运动状态、声音特征,在这个空间里是一份统一的表示,不需要重复编码。
这不是简单的模型合并,而是架构层面的重构。
二、MoT:混合 Transformer 架构
Cosmos 3 的核心是 Mixture-of-Transformers (MoT) 架构。名字借用了 Mixture-of-Experts 的思路,但机制完全不同。
MoT 把模型拆成两座塔:
Reasoner Tower(推理塔)——自回归 Transformer。处理语言和视觉理解 token,用因果自注意力做 next-token prediction。它负责感知、规划、世界推理。可以理解为模型的"大脑",先理解场景里发生了什么,再判断应该发生什么。
Generator Tower(生成塔)——扩散 Transformer。处理带噪声的图像、视频、音频、动作 token,通过全注意力做迭代去噪。它负责生成未来视频帧、模拟世界、输出动作轨迹。
两塔的关键设计:生成塔不能独立运行。它必须依赖推理塔提供的上下文条件。生成始终被推理所约束,而非两者作为可替换的独立阶段并行。这强制实现了 "先理解,后生成"(reason-before-generate)的物理 AI 核心原则——模型必须先对场景建立理解,再预测帧或动作。这正是机器人控制所需的行为:不能盲目生成动作,必须基于对世界的理解。
两塔共享同一个 Transformer 主干、多模态注意力层,以及统一的 3D 多维旋转位置编码 (mRoPE)。这个共享的坐标系统让推理和生成始终对齐在同一场景上,不会漂移分离。
MoT 的核心思想在于:不同模态不需要完全独立的网络,它们可以共享大部分计算,只在关键的地方分叉。这让参数效率大幅提升——16B 的 Nano 模型能顶过去好几个专用模型的活。
输入序列在共享空间里被拆成两条子序列:AR 子序列负责推理,走 next-token prediction;DM 子序列负责生成,走迭代去噪。两条子序列在每一层 Transformer 里用各自的参数集,但通过联合注意力(Joint Attention)交互。
三、3D mRoPE:时空一体的位置编码
多模态模型的老大难问题,是不同模态的"坐标系"不统一。图像有二维空间坐标,视频加了时间轴,音频是一维时间序列,动作是关节角度随时间变化。传统方法给每种模态单独编码位置,结果同一个物体在图像里的位置、在视频里的运动轨迹、在动作里的抓取姿态,是三个互不相关的数字。
Cosmos 3 的解法是把所有模态的位置信息统一编码到一个 3D 多维旋转位置嵌入 (multi-dimensional Rotary Position Embedding, mRoPE) 里。
具体做法:把空间(x, y)和时间(t)打包成一个三维坐标。图像 token 的时间维度固定,视频 token 在三维空间里流动,音频 token 沿时间轴展开,动作 token 随时间标注关节状态。所有 token 的位置都统一用这个三维坐标系表达,通过旋转位置编码注入到注意力机制中。
这带来几个关键优势:
- 跨模态位置对齐:同一个物体在图像里的位置、在视频第 N 帧的位置、在动作轨迹里的目标位置,共享同一套坐标语言
- 时空一致性:模型天然理解"这个物体从 (x1, y1, t1) 移动到了 (x2, y2, t2)",而不需要额外学习这种映射
- 绝对时间调制:传统相对位置编码只能表达"A 在 B 之前",mRoPE 可以直接编码"这是第 120 帧,对应时间 4 秒"——对物理仿真至关重要
四、自回归与扩散的底层统一
这是 Cosmos 3 在机制层面最激进的创新。
自回归(AR)和扩散(DM)此前是两条完全独立的生成路线。AR 做 next-token prediction,擅长离散序列(文本、代码),生成是确定性的、顺序的。DM 做迭代去噪,擅长连续数据(图像、视频),生成是随机性的、并行的。
Cosmos 3 让两者在同一个 Transformer 里共存,不是简单拼接两个模型,而是让它们在共享的注意力空间里交互。
推理阶段:文本走标准 AR 解码,逐个输出 token。图像、视频、音频、动作走 DM 的迭代去噪,逐步从噪声中提炼出结构化信号。两者在同一个模型里,用同一套注意力机制,共享 KV Cache。
这种统一的实现依赖几个关键设计:
-
离散/连续 token 的统一表示:文本是离散的,图像/视频/音频/动作是连续的。Cosmos 3 通过各自的编码器(ViT 用于视觉理解,VAE 用于视觉/音频生成,领域感知向量用于动作)把所有输入映射到同一个潜在空间,在这个空间里统一处理。
-
注意力模式的分化:AR 子序列用因果注意力(causal self-attention),只能看前面的 token。DM 子序列用全注意力(full attention),可以看整个序列。两序列在同一层通过联合注意力交互——推理塔的上下文向量流入生成塔的注意力计算,作为条件信号。
-
训练时的统一目标:不是分别训练 AR 和 DM 再拼接,而是端到端训练。模型同时学习预测下一个文本 token、去噪下一帧视频、生成下一个动作向量。损失函数是这些目标的加权组合。
这意味着什么?意味着模型可以在推理和生成之间无缝切换。同一个场景理解,既可以输出文本描述(AR),也可以输出未来视频预测(DM),还可以输出机器人动作(DM),而不需要重新理解场景。
五、物理一致性与视频生成
生成视频里的物体变形、物理规律违背(比如 ball 穿过墙壁、重力消失),是视频生成模型的老毛病。根本原因是模型不懂物理,只是在像素层面拟合训练数据的统计模式。
Cosmos 3 的解法不是给模型灌输物理公式,而是让推理塔先建立对场景的物理理解,再让生成塔基于这个理解去生成。
推理塔通过自回归学习理解:物体 A 在位置 P,物体 B 在位置 Q,它们之间有遮挡关系,A 的质量比 B 大。生成塔在生成下一帧时,这些物理理解作为条件注入,约束生成结果必须符合这些关系。A 不能凭空穿过 B,重力方向必须一致,质量大的物体加速度小——这些不是硬编码的规则,而是从训练数据中学到的、通过推理塔的上下文向量隐式约束生成塔的软约束。
从训练数据的角度看,Cosmos 3 在 20 万亿多模态 token 上训练,数据量远超前代。更大规模的数据让模型有更多机会看到物理规律的实例,从而学会更一致的物理模拟。
六、模型家族与规格
Cosmos 3 提供多个变体,覆盖不同应用场景:
| 模型 | 参数量 | 主要能力 |
|---|---|---|
| Cosmos3-Nano | 16B | 紧凑型全模态世界模型,覆盖多模态理解、世界模拟、未来预测、动作推理、物理 AI |
| Cosmos3-Super | 64B | 前沿级全模态世界模型,能力同上但规模更大 |
| Cosmos3-Super-Text2Image | 64B | 高保真文本到图像生成 |
| Cosmos3-Super-Image2Video | 64B | 时间连贯的图像到视频生成 |
| Cosmos3-Nano-Policy-DROID | 16B | 面向 DROID 操作与控制的视觉-语言机器人策略 |
生成配置支持:256p/480p/720p 分辨率,16:9/4:3/1:1/3:4/9:16 比例,10/16/24/30 FPS,5-300 帧,BF16 精度,Linux 系统,Ampere/Hopper/Blackwell GPU 架构。
值得注意的是,16B 的 Nano 模型已经能处理完整的物理 AI 任务链。这意味着在资源受限的机器人边缘设备上部署成为可能——不需要 64B 模型在云端跑推理,再把结果传给机器人。
七、极低延迟推理与原生具身控制
Cosmos 3 在架构层面为低延迟做了专门设计。
首先是 KV Cache 共享。AR 和 DM 两塔共享注意力层的 KV Cache,推理塔的上下文向量可以直接被生成塔复用,不需要重新计算。这在机器人控制场景下至关重要——机器人观察环境(推理塔计算),然后立即生成动作(生成塔复用 KV Cache),延迟大幅降低。
其次是 异步推理管线。视觉理解(推理塔)和动作生成(生成塔)可以部分并行。推理塔处理当前帧的同时,生成塔可以基于上一帧的上下文开始生成动作。两者通过联合注意力层同步,实现流水线化。
第三是 原生动作输出。Cosmos 3 可以直接输出机器人动作向量(关节角度、末端执行器位姿),不需要像传统方案那样:先理解场景 → 生成文本计划 → 再调用另一个模型把计划转成动作。动作作为一等模态,直接从生成塔输出。
八、性能基准:全面领先
Cosmos 3 在多个物理 AI 基准测试上排名第一(截至 2026-06-01):
| 基准 | 排名 | 衡量内容 |
|---|---|---|
| Physics-IQ | #1 | 物理推理与常识 |
| PAI-Bench | #1 | 物理 AI 理解 |
| R-Bench | #1 | 世界生成准确度 |
| RoboLab | #1 | 机器人动作策略 |
| RoboArena | #1 | 多步机器人任务 |
| VANTAGE-Bench | #1 | 机器人视觉理解 |
| TAR Leaderboard | #1 | 视觉推理 |
Artificial Analysis 的独立排名也确认:Cosmos 3 在物理 AI 能力方面领先所有开放模型。
这些排名不是刷榜。Physics-IQ 测试模型对物理常识的理解(比如"球从斜面滚下会加速"),R-Bench 测试生成视频是否符合物理规律,RoboArena 测试机器人在多步任务中的成功率。Cosmos 3 的全面领先说明 MoT 架构的"先理解后生成"确实带来了实质性的物理一致性提升。
九、开源生态:全栈开放
英伟达开源了 Cosmos 3 的完整技术栈:
- 模型权重:Nano (16B) 和 Super (64B) 的完整 checkpoint
- 训练脚本:从预训练到微调的全流程代码
- 部署工具:推理优化、量化、边缘部署工具链
- 数据集:多模态训练数据(20 万亿 token 规模)
这意味着什么?
研究层面:任何人都可以下载 16B 模型,在自己的机器人上跑端到端的物理 AI 推理。不需要从头训练世界模型,也不需要拼凑多个模型。一个模型解决感知-预测-生成-控制全链路。
工程层面:训练脚本的开源让开发者可以基于 Cosmos 3 做领域微调。比如针对特定机器人形态(四足、人形、机械臂)微调动作生成部分,或者针对特定环境(工厂、家庭、户外)微调世界模拟部分。
商业层面:企业可以基于 Cosmos 3 构建产品,不需要担心模型授权问题。这在当前闭源模型(如 GPT-4V、Gemini)占主导的环境下,是一个显著优势。
十、局限性与挑战
Cosmos 3 不是万能药。
训练成本:64B 模型在 20 万亿 token 上训练,计算成本极高。虽然英伟达承担了训练费用,但领域微调仍需要大量算力。16B 的 Nano 模型虽然可部署,但在复杂物理场景下的性能仍有差距。
物理保真度边界:Cosmos 3 的物理一致性是从数据中学到的统计规律,不是基于物理引擎的精确仿真。对于需要高精度物理预测的场景(比如工业装配中的毫米级定位),统计模型可能不够可靠。它更适合"大致合理"的物理模拟,而非"精确计算"。
多模态对齐的复杂度:五种模态(文本、图像、视频、音频、动作)的统一表征是一个巨大的挑战。虽然 mRoPE 提供了共享坐标系,但不同模态的信息密度差异很大(文本高度抽象,视频信息密集),如何平衡各模态在训练中的权重,仍是开放问题。
动作模态的通用性:Cosmos 3 的动作输出是向量形式,但不同机器人有不同的关节配置和动作空间。从通用动作向量到特定机器人控制信号的映射,需要额外的适配层。Cosmos3-Nano-Policy-DROID 是针对 DROID 数据集微调的版本,但其他机器人平台需要自己做适配。
长视频一致性:虽然支持最长 300 帧(约 10 秒 @ 30fps),但更长视频的物理一致性仍有待验证。世界模型在长时程预测上的误差累积是所有生成模型的共同难题。
十一、对具身智能研究的意义
Cosmos 3 的发布,把具身智能研究的基础设施往前推了一大步。
在此之前,做机器人研究需要:
- 用一个 VLM 理解场景
- 用一个世界模型预测未来
- 用一个策略模型生成动作
- 用一个视频模型做数据增强
- 把这些模型的输出格式对齐,解决信息损耗
Cosmos 3 把这五步压缩成一步。一个模型,五种模态,统一表征。
这降低了具身智能研究的准入门槛。小团队不需要自己训练世界模型,可以直接拿 Cosmos 3-Nano 做基础,专注于自己的应用场景。学术界可以把精力从"怎么让模型理解物理"转移到"怎么让机器人做更复杂的任务"。
更深远的影响是:Cosmos 3 证明了"统一架构"路线在物理 AI 上的可行性。此前行业对"是统一模型好还是专用模型好"有争议。Cosmos 3 用实际结果(7 个基准第一)证明,统一架构不仅能 work,还能比专用模型更好。这可能引导更多研究资源投向统一架构,加速物理 AI 的整体进展。
十二、参考来源
- NVIDIA Cosmos GitHub: https://github.com/NVIDIA/Cosmos
- NVIDIA Developer Blog: https://developer.nvidia.com/blog/develop-physical-ai-reasoning-world-and-action-models-with-nvidia-cosmos-3
- NVIDIA Cosmos 3 技术报告 (2026-05-31)
- GTC Taipei 2026 发布演讲 (2026-06-01)
- 腾讯新闻英伟达全模态 Cosmos 3 报道 (2026-06-03)
- MarkTechPost: NVIDIA Releases Cosmos 3 (2026-06-03)
- Digital Applied: Open Physical-AI Omnimodel Guide (2026-06-01)
本文由小凯基于公开技术资料整理分析,2026-06-09
#深度研究 #NVIDIA #Cosmos3 #物理AI #具身智能 #MoT #世界模型 #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。