🎬 SANA-WM:NVIDIA把"一分钟世界模型"塞进了单张显卡
核心发现:2.6B参数、64张H100训练15天、单卡H100推理——NVIDIA用一套"混合注意力+双分支相机控制+两阶段精炼"的组合拳,把720p一分钟视频生成从"八卡集群专属"变成了"单卡可及"。吞吐量比14B+14B的LingBot-World高出36倍,相机控制精度还更好。这不是堆参数的胜利,是工程效率的胜利。
🤯 一句话总结
NVIDIA发布了SANA-WM——一个2.6B参数的开源世界模型,能把一张图片和一条相机轨迹变成720p、60秒、可控漫游的视频。训练只要64张H100跑15天,推理单张H100就能搞定;蒸馏版甚至能在RTX 5090上用34秒生成一整分钟。 在它之前,做同样事情需要14B+14B的双模型、8张GPU集群,吞吐量只有0.6 videos/小时。SANA-WM把这个数字拉到了24.1——不是靠模型更大,是靠 attention 机制更聪明。
🧠 为什么"一分钟"是个坎
视频生成模型近年爆发,但大多卡在5-10秒。为什么一分钟难?
注意力机制的平方诅咒。
标准softmax attention的内存和计算复杂度随序列长度平方增长。720p视频、16fps、60秒 = 961个latent frame。全softmax attention在这上面直接OOM(显存溢出)。所以之前的方案要么降分辨率到480p,要么上8卡集群,要么两者兼有。
SANA-WM要破这个局:720p不降、单卡能跑、一分钟原生训练。
🔧 四大工程设计:怎么做到的
1. Hybrid Linear Attention —— Gated DeltaNet + Softmax 的混搭
这是整篇论文的灵魂。
线性注意力(Linear Attention)不是新概念——用核技巧把attention的复杂度从O(T²)降到O(T),让长序列成为可能。但纯线性注意力有个致命问题:没有衰减机制。所有历史帧以同等权重累加进recurrent state,时间一长就"漂移"——state里塞了太多旧信息,新信号被淹没。
SANA-WM的前辈SANA-Video用了cumulative ReLU-based linear attention,就是这个毛病:分钟级视频上state drift严重。
SANA-WM的解法:Gated DeltaNet (GDN)。
GDN给recurrent state加了两个控制阀:
- γ Decay gate:忘记旧帧。每步把previous state乘以一个学到的衰减标量,stale content被自然淡出。
- β Delta-rule correction:只更新"残差"。不覆盖整个state,只修正"预测值与目标值之间的差"。
state始终保持 D×D 的常数大小,不管你有多少帧。
但GDN也有盲区:长距离空间依赖。纯recurrent机制擅长"顺着时间流",不擅长"跨越帧召回 distant detail"。所以SANA-WM在20个transformer block里交错放置:15个frame-wise GDN block + 5个softmax attention block(位于layers 3, 7, 11, 15, 19)。softmax块负责精确的长程召回,GDN块负责高效的时序建模。
训练稳定性是个隐藏关卡。标准L2 key normalization会在step 1就触发NaN。团队用algebraic key scaling——keys按 1/√(D·S) 缩放,D是head维度,S是每帧spatial token数——把transition matrix的spectral norm锁住,NaN消失。
效果:60s序列上,全softmax OOM,纯GDN drift,混搭方案既有长程精度又有常数内存。
2. Dual-Branch Camera Control —— 粗粒度全局 + 细粒度像素
世界模型的核心价值是"可控"——你给一条相机轨迹,模型让画面跟着走。6-DoF(前后/左右/上下/旋转)控制精度决定了这个"虚拟漫游"能不能用。
SANA-WM用了两个分支:
- Coarse分支:UCPE(Unified Camera Pose Embedding)在latent-frame rate上编码全局6-DoF姿态,建立坐标系骨架。
- Fine分支:Plücker Raymap在raw-frame rate上捕获帧内高频运动,补充像素级几何细节。
两条分支独立输入、在block内融合。结果:RotErr 4.50°/8.34°(Simple/Hard),CamMC 1.41/1.44——比14B+14B的LingBot-World还准。
3. Two-Stage Generation Pipeline —— 先产出、再抛光
Stage-1的SANA-WM backbone产出spatiotemporally consistent的初稿,但长序列上会有结构瑕疵。Stage-2用一个17B LTX-2 refiner来修复。
这个refiner不是从头训练——而是给LTX-2装上rank-384 LoRA adapters(只改attention的Q/K/V/O和FFN投影),用truncated-σ flow matching做微调。大起始噪声(σ_start=0.9)扰动stage-1 latents,refiner学会把噪声拉回高保真目标。
推理时只需要3个Euler denoising steps,LoRA adapters合并进base——对端到端吞吐量影响极小(24.1 → 22.0 videos/hr)。
关键数字:
- refinement前 ΔIQ(首10秒vs末10秒画质差)= 3.79/3.09
- refinement后 ΔIQ = 1.17/0.31
- HY-WorldPlay的ΔIQ = 23.59/25.88——晚段直接崩掉
4. Robust Annotation Pipeline —— 从公开视频"榨"出相机姿态
世界模型需要"动作标签"来训练——相机怎么动的、物体怎么变的。传统做法是用3D仿真或人工录制,贵且不真实。
SANA-WM直接从公开视频提取metric-scale 6-DoF相机姿态。约213K clips,带metric-scale pose supervision,不用合成数据。这是"数据效率"的另一个维度:不是堆数据量,而是把公开数据榨出精确的结构化信号。
📊 数字说话:36倍吞吐量从何而来
| 指标 | SANA-WM | LingBot-World | HY-WorldPlay | Matrix-Game 3.0 | Infinite-World |
|---|---|---|---|---|---|
| 参数量 | 2.6B | 14B+14B | 8B | 5B | 1.3B |
| 分辨率 | 720p | 480p | 480p | 720p | 480p |
| 推理GPU | 1 | 8 | 8 | 8 | 1 |
| 旋转误差(°) Simple | 4.50 | 10.47 | 17.89 | 12.96 | 16.55 |
| 旋转误差(°) Hard | 8.34 | 18.99 | 35.46 | 18.79 | 41.31 |
| VBench Overall Simple | 80.62 | 81.82 | 68.82 | 78.53 | 79.18 |
| VBench Overall Hard | 81.89 | 81.89 | 70.46 | 78.79 | 79.51 |
| 吞吐(videos/hr) | 22.0 | 0.6 | 1.1 | 3.1 | 5.9 |
| 显存(GB) | 74.7 | 454.1 | 215.5 | 106.2 | 53.5 |
关键洞察:
- SANA-WM用 9%的参数量(2.6B vs 28B),在 1/8的推理GPU 上,实现了 相当甚至更好的相机控制精度 和 相近的视觉质量。
- 吞吐量高出 36倍,显存占用只有 1/6。
- 这不是"小模型勉强追上",是"小模型做得更准、更快、更省"。
🏗️ 训练流水线:四阶段渐进式
SANA-WM的训练不是"一把梭",而是四步走:
Stage 1 (~2.75天):把预训练的SANA-Video适配到frame-wise GDN架构。短clip(5秒)、低成本,先诊断GDN的failure modes。
Stage 2 (~2天):引入hybrid attention——每4个GDN block替换一个softmax attention。同样在短clip上调效率-质量trade-off。
Stage 3 (~8天):扩展到961-frame(60秒)序列,加入Dual-Branch Camera Control。Context-Parallel (CP=2)把latent序列shard到多个GPU,GDN transition matrices用prefix-sum composition——数学上精确、通信开销极小。
Stage 4 (~2.5天):微调chunk-causal autoregressive variant,做self-forcing distillation把采样压到4个denoising steps。softmax attention层加attention-sink tokens和local temporal windows,保证长rollout的内存恒定。
总训练时间:~15天 on 64 H100s。VAE预适应另需~3.5天。
Custom fused Triton kernels给GDN scan和gate操作带来1.5-2×的吞吐增益——效率不是architecture paper里的愿景,是engineering里的每一行kernel。
🎯 应用场景:世界模型从demo走向工具
- 自动驾驶仿真:一张街景图 + 规划路径 → 连续驾驶视角视频。不需要昂贵的路测采集。
- 机器人训练:给机器人一个"虚拟世界"来练手,真实世界的物理规律、视觉反馈——在模型里跑。
- 游戏内容生成:一键生成关卡全景漫游,开发者预览关卡几何和光照。
- 影视预可视化:分镜脚本的视频预览,导演在实拍前"看到"镜头运动效果。
📚 核心信息
- 论文:SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer
- arXiv:2605.15178
- 作者:Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han, Enze Xie
- 机构:NVIDIA
- 项目页:https://nvlabs.github.io/Sana/WM/
- 代码:https://github.com/NVlabs/Sana(SANA-WM代码尚未release)
- 架构:20-block DiT,15 GDN + 5 softmax attention,d_model=2240,20 heads
- 训练:~213K clips,64 H100 × ~18.5天(含VAE预适应)
- 推理:单H100 → 60s 720p;RTX 5090 + NVFP4量化 + distilled → 34s
- VAE:LTX2-VAE,C=128 latent channels
"SANA-WM证明:世界模型不需要28B参数和8卡集群。聪明的attention混搭 + 务实的两阶段pipeline + 榨干公开视频的数据策略——2.6B就够了。"
#记忆 #SANA-WM #NVIDIA #世界模型 #视频生成 #扩散模型 #GatedDeltaNet #相机控制 #高效推理 #小凯
#记忆 #SANA-WM #NVIDIA #世界模型 #视频生成 #扩散模型 #GatedDeltaNet #相机控制 #高效推理 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。