🎬 VideoMDM深度拆解:不需要动捕棚,单目视频就能训练3D运动扩散模型
论文:VideoMDM: Towards 3D Human Motion Generation From 2D Supervision
作者:Amir Mann, Gal Michael Harari, Merav Keidar, Or Litany(Technion + NVIDIA)
arXiv:https://arxiv.org/abs/2606.13364
项目页:https://videomdm.github.io
代码:暂未开源
---
🔥 一句话总结
传统3D运动扩散模型依赖昂贵的动捕(MoCap)数据,而互联网上充斥着海量单目视频却缺乏3D标注。VideoMDM提出了一套纯2D监督训练框架:用预训练的2D-to-3D提升器当「噪音老师」,扩散模型在3D空间去噪,但所有监督信号都在2D投影域完成。关键突破是一个深度感知重投影损失——论文证明它在期望上等价于直接3D监督,这意味着你不需要动捕棚,只需从健身视频、NBA比赛里提取2D关键点,就能训练出高质量的3D运动生成模型。
---
🎯 问题核心:为什么3D运动生成被「困在动捕棚里」?
生成逼真的3D人体运动是动画、游戏、具身AI的核心需求。扩散模型(如MDM)已经能生成 strikingly realistic 的动作,但它们的训练数据几乎全是动捕(MoCap)——比如 AMASS、HumanML3D 这些在受控工作室环境里采集的14,000段动作序列。
MoCap 数据的问题是:种类单一、场景受限、规模有限。模型学不到真实世界里的人类动作多样性——比如街头篮球的即兴变向、健身房的波比跳、舞蹈中的身体扭曲。而互联网上充斥着大量单目视频,记录着各种环境下、各种身份、各种视角的人类动作。
但问题是:这些视频只有2D画面,没有3D标注。单目3D姿态估计器(如WHAM、MotionBERT)虽然能从2D推测3D,但噪声大、有歧义,不能直接当训练监督用。
VideoMDM 的核心问题就是:如何仅用单目视频的2D关键点,训练一个原生3D运动扩散模型?
---
🧠 核心创新:跨模态扩散 + 深度感知重投影
VideoMDM 借鉴了「A Lesson in Splats」的跨模态扩散思想,但把它从3D高斯溅射迁移到了3D人体运动生成。整体框架是 noisy-teacher 策略:
训练流程
单目视频 → 提取2D关键点 y
↓
预训练2D-to-3D lifter → 生成近似3D姿态 x̃₀(噪音老师)
↓
扩散到高噪声步 t > t* → x_t = √(α_t)x̃₀ + √(1-α_t)ε
↓
扩散模型在3D空间去噪 → 预测 x̂₀
↓
将 x̂₀ 投影回2D → Π_c(x̂₀)
↓
与准确的2D关键点 y 对比 → 计算2D重投影损失
关键洞察:模型在3D空间运算,但监督在2D域完成。这避免了昂贵的3D标注需求,同时让模型真正学习到连贯的3D运动流形——而不是像MAS那种只在推理时把2D提升到3D的「后处理」方法。
深度感知重投影损失:理论等价性
朴素的2D重投影损失有个致命问题:透视投影会除以相机深度 d,导致近处关节的误差被过度放大,远处关节的误差被压缩。这相当于在损失函数里引入了一个隐式的 1/d 权重,不公平。
VideoMDM 的解决方案:乘以深度权重 d 来修正偏差。
定义位置损失:
L_pos = || d ⊙ 1{d>d_min} ⊙ (Π_c(x̂₀) - y) ||²₂
其中 d 是预测关节在相机坐标系中的深度,1{d>d_min} 截断过于靠近相机的关节(防止投影方程失效)。
理论保证(附录A完整证明):在温和假设下(预测深度匹配真实深度、相机方位角均匀分布),这个深度加权2D重投影损失的期望等于标准3D MSE监督:
E_θ[ ||W ⊙ (P(x̂,ψ,θ) - P(x,ψ,θ))||² ] = ||x̂ - x||²₂
权重 W_u = d/Φ, W_v = d/cosψ,其中 Φ = cosψ / √(2 - tan²ψ)。
这个证明是整篇论文的数学基石——它说明2D监督不是「凑合」,而是在期望意义上等价于3D监督。这意味着你不需要动捕棚,只需要足够多的2D视角(视频帧),理论上就能学到同样精确的3D运动。
---
🛠️ 2D适配正则化:让运动自然、平滑、连贯
仅靠重投影损失不够,还需要保证运动的自然性和时序连贯性。VideoMDM 改造了两类标准3D运动正则化器到2D域:
1. 深度加权2D速度损失(L_vel)
L_vel = Σ_f || w^(f) ⊙ ((ŷ₀^(f) - ŷ₀^(f-1)) - (y^(f) - y^(f-1))) ||²₂
其中 w^(f) = d^(f) ⊙ 1{d^(f)>d_min},ŷ₀ = Π_c(x̂₀)。
这强制生成运动的2D速度模式与真实视频一致,保证时序连贯性。实验显示这个损失让运动平滑度提升了5.5倍(Accel 3.16 vs 17.66 m/s²)。
2. 运动表示对齐损失(L_repr)
MDM 使用过度参数化的运动表示:根速度、关节位置、关节旋转、关节速度、足部接触标签。其中旋转、速度、足部接触等通道是冗余的(可以从关节位置推导),但MDM需要同时生成这些通道来保持运动质量。
问题是:没有3D真值来监督这些冗余通道。
VideoMDM 的解决方案:射线投影伪目标。
r' = stop_grad( Γ( P_Π(x̂₀, y) ) )
L_repr = || r̂₀ - r' ||²₂
具体做法:将预测的3D关节位置投影到通过其2D关键点位置相机中心的射线上,得到「2D一致的3D运动」,然后从中计算冗余通道作为伪目标。这提供了一个间接的2D监督信号,帮助模型在生成过程中保持内部一致性。
---
📊 实验验证:三个场景,全面突破
场景一:HumanML3D(合成2D-only版本)
用随机相机投影MoCap数据生成2D姿态,再分别用MotionBERT和MVLift提升到3D作为teacher。
| 方法 | FID ↓ | Diversity ↑ | R-Prec ↑ | MM-Dist ↓ |
|---|---|---|---|---|
| 3D监督 MDM | 0.54 | 9.56 | 0.61 | 2.80 |
| MAS (2D) | 22.06 | 6.24 | 0.38 | 6.42 |
| MDM/MVLift (直接lift) | 1.67 | 8.79 | 0.72 | 3.51 |
| Ours/MVLift (PnP相机) | 1.46 | 9.13 | 0.71 | 2.69 |
| Ours/MVLift (GT相机) | 0.88 | 9.63 | 0.72 | 2.45 |
- Ours/MVLift (GT相机) 的 FID 0.88,距离3D监督上限0.54只差0.34
- 相比直接训练在lifter输出上的MDM(FID 1.67),VideoMDM提升了近2倍
- 这 empirically 支持了损失等价性声明——2D监督确实能学到接近3D监督的质量
场景二:Fit3D(真实健身视频,无3D监督)
Fit3D包含611段真实健身视频,37种动作(如骡子踢、波比跳、拉伸),很多动作在HumanML3D中完全没有对应。训练只用2D关键点(RTMPose提取),3D真值仅用于评估。
作为lifter的3D提升器评估:
| 方法 | MPJPE (mm) | PA-MPJPE | Accel (m/s²) | KID |
|---|---|---|---|---|
| WHAM | 228.47 | 51.12 | 17.66 | 0.063 |
| MVLift | 283.06 | 94.45 | 3.14 | 0.028 |
| Ours/WHAM (PnP) | 185.81 | 74.03 | 3.04 | 0.013 |
| Ours/WHAM | 111.24 | 61.69 | 3.16 | 0.011 |
- MPJPE从WHAM的228mm降到111mm,关节误差减半
- Accel从17.66降到3.16,运动平滑5.5倍
- KID最低(0.011),说明生成的3D运动分布与真实分布最对齐
场景三:NBA数据集(无条件生成)
在NBA篮球数据集上与MAS直接对比:
| 方法 | Human Pref. ↑ | FID ↓ | Precision ↑ | Recall† ↑ |
|---|---|---|---|---|
| MAS | 36.0% | 5.38 | 0.50 | 0.68 |
| Ours/ElePose | 64.0% | 7.18 | 0.94 | 0.89 |
- VideoMDM 在人类偏好中以64%胜率击败MAS
- Precision 0.94 远高于MAS的0.50,说明生成的运动更精确、更贴近真实分布
- 召回率(修正版Recall†)0.89 也高于MAS,说明覆盖真实分布的能力更强
🔬 消融实验:每个组件的作用
在HumanML3D验证集上的消融(PnP相机 + MVLift teacher):
| 变体 | FID | 说明 |
|---|---|---|
| 完整模型 | 1.05 | 基准 |
| 去掉深度加权 | 1.27 | 损失增加21% |
去掉多步去噪(t| 9.85 | 损失暴增9.4倍 | |
| 去掉速度损失L_vel | 1.58 | 损失增加50% |
| 去掉表示对齐L_repr | 5.75 | 损失增加5.5倍 |
| L_repr改用直接3D比较 | 2.72 | 损失增加2.6倍 |
- 多步去噪和L_repr是最关键的组件,缺一不可
- 射线投影(ray projection)相比直接3D比较,FID降低了3倍——说明2D一致伪目标确实是必要的
- 深度加权和速度损失贡献较小但非零
💡 为什么这篇论文值得重视
1. 打破了3D运动生成对MoCap的「成瘾」
MoCap数据规模受限(HumanML3D仅14,616段),且场景单一。VideoMDM证明:只要有足够多带2D关键点的单目视频,就能训练出接近3D监督质量的扩散模型。这打开了用互联网海量视频数据训练3D运动生成的大门——健身视频、体育比赛、舞蹈录像、日常活动,都可以变成训练数据。
2. 理论等价性:2D监督不是「退而求其次」
深度感知重投影损失的期望等价性证明,是这篇论文的数学核心。它不是经验性的「看起来work」,而是有理论保证的「在期望意义上等价于3D监督」。这意味着:
- 不需要随机相机,只需要均匀分布的方位角
- 不需要精确的深度估计,只需要预测深度匹配真实深度
- 理论上是scalable的——数据越多,期望越收敛
3. Noisy-Teacher策略的跨域迁移
「A Lesson in Splats」把noisy-teacher用在3D高斯溅射上,VideoMDM把它迁移到3D人体运动。这个策略的核心逻辑是:用一个弱但可用的信号(lifter的近似3D)当teacher,在高噪声域扩散,在低噪声域用精确的2D监督修正。这种「跨模态扩散」思想可以迁移到更多领域:
- 3D物体生成(从2D图像)
- 3D场景生成(从视频)
- 甚至4D动态场景生成
4. 射线投影:没有3D真值时的监督艺术
L_repr的设计非常精巧——它解决了「没有3D真值怎么监督冗余通道」的问题。通过射线投影生成2D一致的伪目标,既利用了2D关键点的准确性,又保持了3D运动表示的完整性。这是一种「间接监督」的艺术,对于任何缺乏完整标注的多模态生成任务都有参考价值。
---
⚠️ 局限与开放问题
1. 相机参数依赖:最强结果需要GT相机参数。PnP估计在HumanML3D上recover大部分gap,但在Fit3D上仍有较大drop。更好的相机估计器会直接提升性能。 2. Lifter依赖:需要预训练的2D-to-3D lifter作为noisy teacher。在lifter完全失效的域(如非人类运动)无法工作。 3. 遮挡问题:所有评估场景几乎没有遮挡。真实野外视频中的严重遮挡是下一步挑战。 4. 多人和交互:当前只处理单人运动。多人行为、人-物交互等复杂场景尚未验证。
---
📚 参考论文与资源
- VideoMDM: https://arxiv.org/abs/2606.13364
- 项目页: https://videomdm.github.io
- MDM (基线扩散模型): Tevet et al., 2023
- A Lesson in Splats (跨模态扩散): Peng et al., 2025
- WHAM (视频到3D lifter): Shin et al., 2024
- MVLift (2D扩散提升): Li et al., 2025
- MotionBERT (2D到3D监督提升): Zhu et al., 2023
- MAS (多视角 ancestral sampling): Kapon et al., 2024
- Fit3D (健身数据集): Fieraru et al., 2021
#AI #计算机视觉 #生成式AI #扩散模型 #3D人体运动 #单目视频 #2D监督 #3D生成 #运动生成 #论文解读 #深度学习 #计算机图形学
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens