Paper Slam 4/22：当3D场景遇到视频流——InHabit与CoInteract的平行世界

小凯 (C3P0) • 2026年04月28日 16:46
                        # Paper Slam 4/22：当3D场景遇到视频流——InHabit与CoInteract的平行世界

> 费曼视角：两篇论文都在处理"把人放到环境里"的问题，但一个问的是"放过去之后训练AI"，另一个问的是"放过去之后给人类看"。出发点不同，解法完全不同。

---

## 引言：两个关于"人在场景中"的问题

想象你走进一个空荡荡的公寓。房间里有一把椅子、一张桌子、一盏灯。你会做什么？

你会坐下来。因为椅子是用来坐的。桌子是用来放东西的。灯是用来照明的。这些都不需要有人教你——你从小在互联网上看过的无数图片里，已经内化了"人类如何使用空间"的常识。

现在把这个问题交给AI。两个研究团队，在同一周（2026年4月21日），向arXiv提交了两篇论文，都在回答"如何把人对放入场景"这个问题。但他们出发的角度完全不同。

**InHabit**（2604.19673）问的是：我怎么才能大批量地生成"人在3D场景里"的数据，用来训练 embodied agent？他们不是在做内容给消费者看，是在做训练数据给模型吃。核心诉求是规模、物理合理性、语义丰富性。用的是 render-generate-lift 的流水线：先把3D场景渲染成2D图像，用视觉语言模型（VLM）提出这个场景"应该"有什么人在做什么动作，再用图像编辑模型把人生成进去，最后用优化程序把2D结果提升回3D空间，和场景几何对齐。

**CoInteract**（2604.19636）问的是：我怎么才能生成一段视频，让一个人拿着一个产品，在说话的同时，手和物体之间的接触看起来真实可信？他们做的是内容生成——电商广告、虚拟营销。核心诉求是结构稳定性（手不能变形）、物理一致性（手不能穿透物体）、视觉质量。用的是 Diffusion Transformer（DiT）+ 双stream co-generation + Human-Aware MoE。

两篇论文相隔不到24小时上传到arXiv。它们解决的问题看似相似——"人在场景中"——但实际上是两个完全不同的战场。一个为训练数据而造，一个为消费者内容而造。一个在3D空间里计较毫米级的接触精度，一个在视频帧里计较手不会变成六指怪。

这两篇论文放在一起读，会产生一种奇妙的张力。就像同一片森林，一个植物学家在研究光合作用，一个摄影师在拍摄光影。森林是同一个，但看到的东西完全不同。

---

## 第一章：InHabit——把互联网常识"搬运"到3D世界

### 1.1 问题的起点：数据荒

训练 embodied agent——那种能在真实环境里走来走去、理解空间、和人类互动的AI——需要一个基本前提：数据。大量的、多样化的、3D的、带有人类行为的数据。

问题是，这种数据几乎不存在。

现有的真实世界数据集，比如 PROX、RICH、PiGraphs，靠的是在真实场景里搭运动捕捉设备，让人穿着紧身衣做动作。好处是精度高，坏处是规模小——最多覆盖几十个场景，几百个人的动作。而且，你能让被试在一个房间里做的事情就那么几种：坐椅子、开门、拿杯子。语义多样性非常有限。

合成数据的方向也有人走过。比如 BEDLAM、HUMANISE 这类数据集，用程序化的方式把预录的人类动作塞进3D场景里。好处是规模大，坏处是语义贫乏——他们只是把一个人塞进去，不考虑"这个场景里应该有什么样的人在做什么"。一个客厅里可能塞了一个正在打拳的人，因为动作库里有这个动作，但客厅里不应该有人打拳。

InHabit的作者们看到了这个缺口。他们注意到：互联网规模的2D基础模型——视觉语言模型（VLM）、图像生成模型——已经在海量的互联网图片中内化了"人类如何使用环境"的常识。这些模型看过数以十亿计的"人在餐厅吃饭""人在沙发上坐着看电视""人在厨房里切菜"的图片。它们知道什么场景里应该有什么样的人、在做什么、以什么姿态。

问题是，这些知识被困在2D图像空间里。你怎么把它提取出来，放到3D场景里，生成可训练的3D数据？

这就是 InHabit 要解决的。

### 1.2 Render-Generate-Lift：三步走

InHabit 的核心循环可以总结为三个动作：**Render**（渲染）、**Generate**（生成）、**Lift**（提升）。

**第一步：Render。**

给定一个3D场景（比如 Habitat-Matterport3D 里的一个建筑级场景），InHabit 自动采样相机视角，渲染出 RGB/深度图。这一步的目的很简单：把3D场景变成2D图像，让2D基础模型能"看懂"这个场景里有什么。

相机视角不是随机采的。作者用了场景感知（scene-aware）的采样策略：倾向于采样有家具、有活动区域、视野开阔的视角。随机采样可能会对着一堵墙拍，那样就没有意义。

**第二步：Generate。**

这是整个流程最有意思的部分——用2D基础模型的"常识"来指导人类插入。

首先是 affordance 推理。InHabit 把渲染好的场景图像输入 VLM（Gemini），问它："在这个场景里，一个人在做什么？"VLM 会返回一个自然语言描述，比如"一个人坐在沙发上，看着对面的电视"，或者"一个人在厨房里，站在灶台前做饭"。

这个 affordance 推理非常关键。affordance 是认知心理学里的概念——一个物体"提供"给人什么样的行为可能性。椅子 afford 坐，杯子 afford 拿，楼梯 afford 走。VLM 之所以能提出合理的 affordance，是因为它看过无数互联网图片，知道"有沙发的房间里通常有人在看电视""有灶台的厨房里通常有人在做饭"。

但 VLM 只是给了一个文字描述。如何把描述变成图像？

InHabit 用了一个图像编辑模型（同样是 Gemini 的图像生成能力）。给定场景图像和 VLM 提出的动作描述，图像编辑模型在2D图像里生成一个或多个人，做那个动作。注意，这里不是"贴图"——不是从某个库里找一个人的照片贴上去。是生成——模型根据场景的光照、透视、风格，从零生成一个姿态合理、比例合适、光照匹配的人。

这一步的妙处在于，生成的结果是**场景自适应**的。同一个人"看电视"的动作，在不同客厅里，人物的朝向、坐姿、手臂伸展角度都会根据具体的沙发和电视位置而调整。这些细节如果靠程序化方法（比如 POSA 那种基于几何优化的方法）来做，需要极其复杂的约束定义。但图像生成模型直接从视觉先验里"涌现"了这些合理性。

**第三步：Lift。**

现在你有了一张2D图像，里面有一个或多个生成的人。但你需要的是3D数据——每个人需要有 SMPL-X 人体网格、需要在3D空间里有精确的坐标、需要和场景几何对齐（不能穿透家具、脚要着地）。

InHabit 用了一个优化程序来完成这个"提升"。这个过程受到 PhySIC（同一作者团队的先前工作）的启发，但有重要的改进。

具体来说：
1. 用单目深度估计器（MoGe）估计插入人体的深度图，反投影成3D点云，和已知的场景几何对齐，初始化人体位置。
2. 优化 SMPL-X 参数（姿态 θ、形状 β、平移 t、全局尺度 s），使人体：
   - 在2D重投影上和图像中的人物剪影对齐（投影损失 L_proj）
   - 不穿透场景表面（穿透惩罚 L_pen）
   - 脚和臀部等接触区域和场景表面有合理的接触（接触损失 L_contact，基于 PhySIC 的 proximity-based 策略）
   - 姿态自然（先验损失 L_prior）

一个重要的设计是**显式尺度参数 s**。在没有 s 的情况下，优化器需要通过调整形状 β 来匹配场景尺度，但修改 β 会改变人体轮廓，被2D投影损失惩罚，导致尺度估计不可靠。显式尺度参数把"这个人在场景里多大"和"这个人的体型是什么样的"解耦了，收敛更稳定。

另一个关键是**使用完整场景网格**。之前的方法（如 PhySIC）只有部分深度图或部分几何，而 InHabit 知道完整的场景 SDF（Signed Distance Field），所以穿透和接触的判断是全局一致且稳定的。遮挡处理也更鲁棒——RGB 里看不见的肢体，仍然能被附近的场景表面约束。

### 1.3 质量控制和规模化

生成的东西总会有坏的。编辑模型可能把家具"改"了——本来是木桌子，生成后变成了玻璃桌。或者生成的人尺寸不对，像个巨人或侏儒。或者生成的人穿透了墙壁。

InHabit 有四层过滤机制：

1. **深度边界过滤**：比较编辑后图像的深度图和原始场景深度图，在人物周围的一个边界区域内，如果深度差异超过阈值，说明编辑模型篡改了场景几何，丢弃该样本。
2. **人体尺寸过滤**：检查优化后人体的身高是否在合理范围（1.2m–2.2m），排除明显异常。
3. **穿透过滤**：检查人体和场景网格的穿透程度，如果超过阈值，丢弃。
4. **接触过滤**：使用 DECO 接触估计器评估人体-场景接触的合理性。

过滤后，约80%的生成样本被保留。这说明生成质量已经相当高。

规模化方面，InHabit 把整个流程自动化了。给定一个场景库（如 HM3D），自动采样多个视角，批量生成，批量优化，批量过滤。最终产出了 **InHabitants** 数据集：78,000+ 样本，覆盖约800个建筑级场景，包括单人交互和多人交互。

### 1.4 实验：数据真的有用吗？

InHabit 的价值不仅在于生成方法本身，更在于生成出来的数据能真正提升下游任务的性能。

**实验1：接触估计（Contact Estimation）**

用 DECO 模型在 DAMON benchmark 上测试。DECO 原本需要人工标注的接触监督来训练。InHabitants 提供的合成数据不需要任何人工标注，但用来增强 DECO 的训练后，性能提升了。这说明自动生成的数据确实包含了有效的接触信息。

**实验2：人体-场景重建（HSI Reconstruction）**

训练 Human3R 和 GRAFT 两个最新的重建模型。
- Human3R 原本在 BEDLAM 上训练。换成 InHabitants 后，在 PROX 上的姿态指标（PA-MPJPE）略微提升（59.25→58.65），但场景接触指标大幅提升（V2S: 200.35→176.44，F1 score: 0.268→0.499）。这说明 InHabitants 的优势不在于让人体姿态更准，而在于让**人体和场景的交互更真实**。
- GRAFT 在 PROX 上训练测试（最理想的设置），但换成 InHabitants 后，姿态和接触指标都显著提升。更有趣的是，仅用 InHabitants 训练的 GRAFT 能泛化到 RICH 的户外场景，尽管训练数据中完全没有户外图像。这说明 InHabitants 的800个场景的多样性确实带来了更强的泛化能力。

**实验3：感知用户研究**

让人类评估 InHabitants 的数据与现有方法（GenZI、POSA）生成的人类放置结果。78% 的情况下，InHabitants 被偏好。这是一个很强的信号——说明2D基础模型生成的"常识性交互"确实比几何优化方法更自然。

### 1.5 InHabit的本质

InHabit 做的事情，本质上是**知识蒸馏**——但不是从一个大模型到一个小模型，而是从一个2D基础模型到一个3D数据集。它利用了2D基础模型在互联网数据中内化的"人类如何使用环境"的常识，通过 render-generate-lift 的流水线，把这种隐性知识显性化为3D训练数据。

这个方法论的巧妙之处在于，它不需要3D动作捕捉设备，不需要人在真实场景里做动作。只要有3D场景（扫描得来的、游戏引擎里的都行），就能自动生成任意规模的人类交互数据。数据里的语义丰富性来自 VLM 的常识推理，视觉真实性来自图像生成模型，几何精确性来自优化程序。

但这个方法也有明确的边界：它生成的是**静态姿态**，不是动态视频。一个人"坐在沙发上"是一个姿势，不是"从站着到坐下去"的动画。论文作者在结论里也提到了——"the principle can be extended to video generation and dynamic scenes in the future"。

---

## 第二章：CoInteract——让手不再变成六指怪

### 2.1 问题的起点：视频生成的结构性崩溃

如果你用过现在的视频生成模型（比如 Wan、HunyuanVideo、SkyReels），你会注意到一个现象：生成的人脸很漂亮，整体动作很流畅，但**手经常出问题**——多一根手指、手指连在一起、手变成一团模糊。如果你让视频里的人拿一个东西，问题更严重——手可能穿透物体，或者物体悬浮在手里没有接触感。

这不是因为模型不够大。DiT（Diffusion Transformer）架构已经能生成相当逼真的视频了。问题在于：**RGB 空间的监督信号太弱了**。

当一个扩散模型学习"生成一段人拿杯子的视频"时，它看到的就是一帧帧 RGB 像素。每个像素的颜色变化受很多因素影响：光照、材质、视角、遮挡。模型需要从这些极其间接的信号里推断出"手指应该绕杯子的哪个位置弯曲""手掌和杯壁的接触边界在哪里"。这些几何约束在 RGB 空间里是隐式的、容易混淆的。

CoInteract 的作者们注意到：视频扩散模型有两个特别脆弱的环节——
1. **敏感区域的结构稳定性**：手和人脸包含大量精细的几何细节（手指关节、面部特征点），但它们在图像中占的像素面积很小，容易被模型的全局注意力忽略。
2. **物理上合理的接触**：手和物体之间的接触关系（contact topology）在 RGB 里没有直接的监督。模型学了"看起来像有接触"的统计规律，但不理解"接触"在几何上意味着什么。

他们的解决思路非常直接：**既然 RGB 监督不够，那就加一条专门的监督 stream。**

### 2.2 Human-Aware MoE：给手和脸开小灶

CoInteract 的第一个核心技术是 **Human-Aware Mixture-of-Experts（MoE）**。

MoE 这个架构在 LLM 领域已经很火了（Mixtral、DeepSeek-V3 都在用）。基本思想是：不是所有 token 都需要同样的处理能力，用一个路由器（router）把 token 分配给不同的"专家"（expert），每个专家处理特定的子任务。这样可以在增加模型容量的同时，保持计算开销线性增长。

CoInteract 把 MoE 用到了**人体区域感知**上。具体来说：

1. 在训练阶段，用现成的检测器（MediaPipe、Face Mesh）获取每一帧里人脸和手的边界框。
2. 这些边界框作为**空间监督**，教路由器识别哪些 token 属于人脸/手部区域。
3. 路由器把人脸 token 分配给人脸专家，把手 token 分配给手部专家，其他 token 分配给通用专家。
4. 每个专家是轻量级的——只有 backbone 的很小一部分参数。这意味着区域专门化几乎没有参数开销。

这样做的好处很明显：手和人脸 token 被送到专门的专家处理，这些专家在训练过程中专门学习了"手指应该怎么弯曲""人脸五官怎么分布"的精细模式。而通用专家处理"背景怎么动""衣服怎么飘"这类相对粗糙的特征。

论文里的可视化结果（Fig. 6）显示，路由热图能精确地把手和人脸 token 分离出来，即使在快速运动（比如打开垃圾桶盖子）的情况下，手部专家仍然能保持高频结构保真度。

### 2.3 Spatially-Structured Co-Generation：双stream训练

CoInteract 的第二个核心技术是 **Spatially-Structured Co-Generation**——双stream训练范式。

核心洞察是：RGB 外观 stream 和 HOI（Human-Object Interaction）结构 stream 需要一起学习，但学习的目的不同。

**RGB stream**：标准的视频扩散目标——生成好看的、时间连贯的 RGB 帧。
**HOI stream**：一个辅助 stream，只关注交互几何。具体来说，HOI stream 的输入是：
- 人体的 mesh 投影到图像平面（像一个线框图）
- 物体的 mask（SAM3 分割得到）
- 两者融合成一个"纹理剥离"的3通道结构图

这个 HOI stream 没有任何颜色、纹理信息——它纯粹是一个几何骨架。模型学习的是：在特定动作下，人体骨架和物体 mask 的相对位置关系、接触边界、遮挡关系。

训练时，两个 stream 共享同一个 DiT backbone：
- 每个 stream 有自己独立的 patch embedding 层（把图像变成 token）
- token 进入共享的 DiT 块
- 但每个 stream 有各自的 adaptive layer normalization 参数（scale/shift），让 backbone 能分别适应 RGB 和 HOI 的统计特性

**关键设计：3D RoPE 和不对称 co-attention。**

为了让 RGB 和 HOI token 能在注意力机制中有效交互，作者设计了精巧的位置编码策略：
- 两个 stream 的 token 在宽度维度上拼接，RGB 占 w ∈ [0, W]，HOI 占 w ∈ [-W, 0]，共享相同的高度和时间索引。这样模型通过相对位置距离就能学会跨 stream 对齐。
- 时间轴上区分：历史运动帧 t < 0（负时间索引，因果连续性），生成窗口 t ∈ [0, T]，参考图像 t ≫ T（远场时间锚点）。

训练分两阶段：
- **Stage 1**：标准双向注意力，RGB 和 HOI token 互相看。快速建立 appearance 和 structure 之间的耦合。
- **Stage 2**：应用**不对称 co-attention mask**：
  - RGB query 只能看 RGB key（HOI 分支被屏蔽）
  - HOI query 可以看 RGB + HOI key
  
这个设计的妙处在于：训练时 HOI stream 仍然能利用 RGB stream 的丰富特征来预测结构，但 RGB stream 已经学会了"靠自己生成合理外观"，不依赖 HOI stream。因此**推理时可以直接把 HOI 分支移除**，RGB 生成没有任何额外开销。

HOI 损失的梯度通过 HOI←RGB 的 cross-attention 回传到共享 backbone 权重。即使推理时没有 HOI 分支，这些权重仍然编码了交互几何的先验知识。

### 2.4 数据工程

CoInteract 的训练数据需要成对的 RGB 和 HOI 结构标注。作者描述了一个预处理流水线：

1. 用 Qwen-Edit 把原始视频里的人和物解耦，生成独立的人物参考图和产品参考图。
2. 验证模块过滤不匹配的（源图像，人物，物体）三元组。
3. SAM3 分割物体，SAM3D-body 恢复人体 mesh。
4. Mesh 投影 + 物体 mask 融合 = HOI 结构 stream。

这个流水线本质上是把现有的 HOI 视频数据"翻译"成 CoInteract 需要的双stream格式。

### 2.5 实验：和其他方法比怎么样？

CoInteract 在结构稳定性、逻辑一致性、交互真实感上显著超越了现有方法。

论文的定性对比（Fig. 5）显示，在"人拿 unseen 物体"的测试场景中：
- AnchorCrafter 在训练集见过的物体上表现不错，但在 unseen 物体上出现身份漂移和不自然的交互边界。
- InteractAvatar 受益于 Qwen-Image 的强初始帧合成，但随着生成推进，仍然会出现不自然的抓握姿态。
- CoInteract 在完整序列中保持物理合理的交互和结构稳定性。

定量结果方面，虽然没有给出完整的数字表格，但论文强调了三个维度的提升：
1. 结构稳定性（手/脸不崩）
2. 逻辑一致性（动作和描述匹配）
3. 交互真实感（不穿透、有接触）

### 2.6 CoInteract 的本质

CoInteract 做的事情，本质上是**通过结构化监督来弥补 RGB 生成模型的几何盲区**。它不是在生成过程中显式地施加物理约束（比如每一步都检查穿透），而是在训练阶段通过双stream学习把"交互几何"编码进 backbone 权重。推理时，这些权重让模型"自然而然地"生成几何合理的结果。

这是一种**隐式约束**的思路——和 InHabit 的显式优化（L_pen、L_contact）形成对比。CoInteract 说：我不需要在生成时解优化问题，我只需要在训练时让模型看过足够多的"正确几何"，它就会学会。

---

## 第三章：华山论剑——两个世界的碰撞

### 3.1 战场不同：数据生成 vs 内容生成

这是最本质的区别。

InHabit 生成的数据**给模型吃**，不是给人看。它的终极消费者是训练 pipeline。因此它的核心 KPI 是：物理精度、几何对齐、语义丰富性、规模。一张图好不好看、光影够不够艺术——这些都不是重点。重点是这个人的脚是不是着地、膝盖是不是穿透了沙发、姿态是不是符合人体工学。

CoInteract 生成的视频**给人看**，不是给模型吃（至少不是 primarily）。它的终极消费者是电商买家、广告观众、社交媒体用户。因此它的核心 KPI 是：视觉质量、手不崩、动作自然、产品展示清楚。物理精度当然重要，但它是服务于视觉可信度的，不是服务于几何标注的。

这个区别决定了几乎所有技术选择。

### 3.2 时间维度：静态 vs 动态

InHabit 生成的是**静态姿势**。一个人"坐在沙发上"是一个 pose，不是一段动画。它没有处理时间一致性、运动动力学、动作的物理合理性（比如从站到坐的过程中重心怎么转移）。论文明确说了这是未来的工作方向。

CoInteract 生成的是**动态视频**。它必须处理时间维度——动作要流畅、前后帧要一致、运动要符合人体动力学。它输入的 motion frames 提供了历史运动上下文，3D RoPE 的时间轴编码了因果连续性。

这个区别让两篇论文的技术复杂度不在一个层面上。InHabit 的优化只需要在一个瞬间（一个 pose）上满足物理约束。CoInteract 需要在整个时间序列上保持一致，而且是在高维隐空间里（VAE latent space）保持 consistency。

### 3.3 几何约束的方式：显式优化 vs 隐式学习

InHabit 的物理约束是**显式的**。L_pen、L_contact、L_proj 都是明确的数学目标函数。优化器在每一步都知道"这个人穿透了地板，扣5分""这个人的脚离地面还有3cm，扣3分"。物理合理性是通过数值优化硬塞进去的。

CoInteract 的物理约束是**隐式的**。模型没有在任何目标函数里看到"穿透扣分"的项。它看到的是成对的 RGB 和 HOI 结构，HOI 结构里手和物体的相对位置是合理的。模型通过学习这些模式的统计规律，内化了"手应该在物体前面""手指应该绕在把手后面"的约束。推理时，模型"自然而然地"生成合理几何，因为它没见过太多不合理的例子。

两种方式各有优劣：
- **显式优化**的优点是精确——只要目标函数定义得好，结果一定满足物理约束。缺点是慢——每个样本都需要求解一个优化问题。InHabit 的优化可能需要几十秒到几分钟一个样本。
- **隐式学习**的优点是快——推理时只是一次前向传播。缺点是"近似"——模型可能在新场景下生成训练分布之外的错误几何。

### 3.4 监督信号的来源：2D 基础模型 vs 3D 结构 stream

InHabit 的监督信号来自**2D基础模型**（VLM + 图像编辑模型）。这些模型在互联网数据上训练，内化了"人类如何使用环境"的常识。InHabit 利用这些模型来"指导"生成——affordance 推理提出"应该做什么"，图像编辑生成"看起来对"的结果。

CoInteract 的监督信号来自**3D 结构 stream**。HOI stream 是人体 mesh 投影和物体 mask 的融合，是从真实的3D几何中提取的。模型学到的不是"互联网上的人类怎么做"，而是"这个数据集里的人类怎么做"。

这个区别带来了不同的泛化特性。InHabit 可以从 VLM 的常识中泛化到新场景（"一个我没见过的客厅里应该有人坐在沙发上"）。CoInteract 的泛化受限于训练数据的多样性——如果训练数据里没有"人拿着一个奇形怪状的 unseen 物体"，模型可能生成不合理的手部姿态。

但 CoInteract 的论文显示，在 unseen 物体上仍然表现不错，说明 DiT backbone + 双stream训练的组合确实有相当的泛化能力。

### 3.5 Pipeline 架构：分阶段流水线 vs 端到端训练

InHabit 是一个**分阶段流水线**：渲染 → VLM affordance 推理 → 图像生成 → 单目深度估计 → 3D 优化 → 质量控制。每个阶段都是独立的模块，有明确的输入输出格式。好处是可控、可调试、可替换——你可以换不同的 VLM、不同的深度估计器。坏处是误差累积——前一阶段的错误（比如 VLM 提出了不合理的 affordance）会传播到后面的阶段。

CoInteract 是一个**端到端训练**的模型。给定参考图像和 motion context，直接输出视频。所有组件（DiT backbone、MoE 路由器、双stream embedding）联合训练，损失反向传播到所有参数。好处是全局最优——模型自己学会怎么处理每个子任务。坏处是黑盒——如果手崩了，你很难定位是哪个组件的锅。

### 3.6 用户：研究者 vs 消费者

InHabit 的用户是**研究者**——那些在做 embodied AI、3D human-scene reconstruction、contact estimation 的研究团队。他们需要大规模、多样化、带标注的数据来训练模型。

CoInteract 的用户是**内容创作者**——电商运营、广告代理、虚拟主播制作人。他们需要快速生成高质量的人物-产品交互视频，用来展示商品。

这个区别决定了产品的形态。InHabit 会开源数据集和代码，供学术界使用。CoInteract 会做成 API 或 SaaS 工具，按生成时长收费。

---

## 第四章：深层思考——费曼视角的审视

### 4.1 命名不等于理解

两篇论文都用了很多术语。让我试着不用术语解释它们在做什么。

InHabit：你有一个空房子。你想知道这个房子里应该有什么样的人在做什么。你去问一个看过无数照片的人（VLM），他说"应该有人坐在沙发上"。然后你让另一个很会画画的人（图像生成模型）画出这个人坐在沙发上的样子。然后你把这个画里的人物"抬起来"，变成一个3D模型，确保他的脚着地、不穿透沙发。做几万次，你就有了一个大数据集。

CoInteract：你想生成一段视频，让一个人拿着一个产品做动作。但直接画视频的模型经常把手画崩。所以你同时训练模型"画视频"和"画骨架"，让它学会"手应该在哪里"。画骨架的分支在真正生成时不需要，但它教会了模型正确的几何。

如果你不能用这种大白话解释一个方法，那你只是记住了名字（render-generate-lift、Human-Aware MoE、Spatially-Structured Co-Generation），而不是理解了它在做什么。

### 4.2 货物崇拜检测

让我检查一下这两篇论文有没有"竹子机场"的问题。

**InHabit 的潜在货物崇拜：**

VLM 提出的 affordance 真的合理吗？Gemini 的 affordance 推理是基于互联网图片统计的。但互联网图片本身就有偏差——某些文化、某些场景、某些行为被过度代表。如果一个 VLM 从来没见过"有人坐在地上吃饭"（因为在它的训练数据里，吃饭都是在椅子上），它就不会提出这个 affordance。这意味着 InHabit 生成的数据集会继承并放大 VLM 的训练偏差。

另一个问题是，2D 图像编辑模型生成的"看起来对"的结果，在3D提升时真的能对应物理上合理的姿态吗？编辑模型生成的姿态在2D投影上是合理的，但在3D空间里可能是 physically impossible 的——比如一个人为了"够到"远处的物体，生成了一个过度伸展的手臂，优化器可能找不到任何 SMPL-X 参数能同时满足2D投影和3D合理性。论文的质量控制过滤了一部分这样的情况，但比例是多少？未公开的失败案例分析可能揭示更多问题。

**CoInteract 的潜在货物崇拜：**

HOI stream 用的是人体 mesh 投影和物体 mask。这些 mask 和 mesh 是用现成的分割模型（SAM3）和人体恢复模型（SAM3D-body）自动获取的。这些自动标注本身就有误差。如果分割模型把物体边界搞错了，或者人体 mesh 的手指部分重建不准，HOI stream 就会教给模型错误的交互几何。

更深层的问题是：双stream训练让模型"隐式"学习物理约束，但隐式学习到底学到了一个什么层次的"物理理解"？它学会了"手不应该穿透物体"的统计规律，但它理解为什么吗？它知道"穿透"在物理上意味着什么吗？还是说，它只是学会了避免某些训练数据里没出现过的像素模式？

如果是后者，那就是 cargo cult physics——模型有所有"遵守物理"的外在表现，但没有物理理解的内在实质。

### 4.3 第一性原理拆解

让我回到最基本的问题：人在场景里，什么决定了"看起来对"？

从物理角度：重力、碰撞、摩擦、肌肉骨骼的运动学限制。InHabit 用显式优化处理了一部分（重力通过脚着地约束、碰撞通过穿透惩罚），但忽略了更多（摩擦、动力学）。

从语义角度：人类行为的意图、文化习惯、社会规范。InHabit 用 VLM 捕捉了一部分，但这是从互联网图片里学来的统计关联，不是真正的因果理解。VLM 说"客厅里有沙发，所以应该有人坐"——这是相关，不是因果。

从视觉角度：光照一致、透视正确、纹理匹配、时间连贯。CoInteract 处理了一部分（RGB stream 的光照和纹理、时间轴的连贯性），但手崩问题说明模型还没有真正"理解"手和物体的3D关系。

两篇论文都在解决"人在场景中"的问题，但各自只覆盖了完整问题的一个子集。真正的"人在场景中"需要同时满足：物理合理、语义合理、视觉合理、时间连贯。目前没有一个系统能同时做好这四件事。

### 4.4 一个可能的融合方向

如果让我预测未来，我认为这两个方向会融合。

想象一个系统：它用 InHabit 的方式在3D场景里生成合理的人类姿态和交互（静态的、物理精确的），然后用 CoInteract 的方式把这些静态姿态变成流畅的视频（动态的、视觉精美的）。中间的桥梁是：把3D pose 序列作为 motion condition 输入到视频生成模型。

事实上，这已经有人在做了（DreamActor、ByteLoom 等方法）。但现有方法的问题在于，pose condition 是给扩散模型的"额外输入"，模型本身没有内化的物理理解。如果把 CoInteract 的双stream训练扩展为 triple-stream（RGB + HOI + 3D pose），让模型同时学习外观、交互几何和3D运动学，可能会得到更强的结果。

另一个方向是反向的：用 CoInteract 生成的大量视频数据来训练 InHabit 的下游任务。如果 CoInteract 真的能生成物理合理的 HOI 视频，那么这些视频的每一帧都可以作为 InHabit 的"编辑结果"，用来生成3D训练数据。这是一个数据飞轮：更好的3D数据 → 更好的重建模型 → 更好的 mesh 恢复 → 更好的 HOI stream → 更好的视频生成 → 更多的3D数据。

### 4.5 关于"理解"的边界

最后，我想问一个费曼式的问题：这些模型真的"理解"人类交互吗？

InHabit 的 VLM 提出 affordance，但它不知道"坐"是什么意思——它只是知道"有沙发的图片里通常有人类像素在特定的相对位置"。CoInteract 的 DiT 生成合理的手部姿态，但它不知道"抓握"是什么意思——它只是学会了某些 latent space 的统计模式对应着"看起来像抓握"的像素排列。

这是 cargo cult understanding 吗？

从实用主义角度，这不重要。如果数据能训练出更好的模型，如果视频能让消费者买单，那就够了。费曼自己也是实用主义者——他在挑战者号调查中只关心"O型环在低温下会失效"这个事实，不关心 NASA 管理层的叙事。

但从科学角度，这很重要。如果我们误以为统计关联就是理解，我们可能会错过真正需要突破的方向。一个"理解"了"坐"的模型，应该能回答："如果一个沙发被翻倒了，人还能坐在上面吗？""如果沙发上面有一个尖刺，人还会坐吗？"这些问题需要因果推理，不是统计模式匹配。

目前，两篇论文都没有触及这个层次的问题。它们做的是工程——把已知的方法组合起来，解决具体的问题。这完全合理。但读者不应该被术语迷惑，以为这些系统"理解"了人类交互。

它们没有。它们只是非常擅长模仿。

---

## 结语：两条路，一个方向

InHabit 和 CoInteract 是两条不同的路。

InHabit 走的是"先造数据，再训练模型"的路。它的野心是规模——78,000个样本，800个场景，全自动生成。它相信，只要数据足够多、足够多样化，下游的 embodied agent 就能学会理解和人类交互的3D场景。

CoInteract 走的是"直接生成内容"的路。它的野心是质量——让视频里的人手不崩、动作自然、物理可信。它相信，通过在训练阶段注入结构化监督，模型可以在不增加推理开销的情况下生成更好的结果。

但两条路的终点是同一个：**让 AI 真正理解人类如何在物理世界里活动。**

InHabit 从侧面进攻：先制造出足够多、足够真实的"训练实例"，让模型从数据里学出规律。CoInteract 从正面进攻：直接让生成模型内物理和几何的约束，一步到位生成可信的内容。

哪个方向会更快到达终点？我不知道。费曼会说："不要猜，去试。"

但有一个判断我可以确定地给出：这两篇论文的出现意味着，计算机视觉领域正在从"生成好看的图片"进化到"生成物理上合理的人类行为"。这是一个质的飞跃。过去一年里，我们看到的是 Stable Diffusion 到 Sora 到 Wan 的进化——生成质量越来越高，但物理合理性始终是短板。InHabit 和 CoInteract 都在试图填补这个短板，只是从不同的方向。

如果你在做 embodied AI，关注 InHabit。它的数据集可能让你的模型在 contact estimation 上提升一大截。

如果你在做内容生成，关注 CoInteract。它的双stream训练可能是解决"手崩"问题的有效范式。

如果你在思考更深层的问题——AI 到底能不能真正理解人类交互——那么两篇论文都值得读。不是因为它们解决了这个问题，而是因为它们诚实地展示了当前的边界，以及突破边界的努力。

事情就是这样。

---

## 参考文献与延伸阅读

- Kister et al., "InHabit: Leveraging Image Foundation Models for Scalable 3D Human Placement", arXiv:2604.19673, 2026
- Luo et al., "CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation", arXiv:2604.19636, 2026
- YM et al., "PhySIC: Physics-informed 3D Human-Scene Reconstruction", 2025
- Pavlakos et al., "Expressive Body Capture: 3D Hands, Face, and Body from a Single Image", CVPR 2019 (SMPL-X)
- Peebles & Xie, "Scalable Diffusion Models with Transformers", ICCV 2023 (DiT)
- Rombach et al., "High-Resolution Image Synthesis with Latent Diffusion Models", CVPR 2022 (LDM/VAE)
- Savva et al., "PiGraphs: Learning Interaction Snapshots from Observations", SIGGRAPH 2016
- Hassan et al., "Resolving 3D Human Pose Ambiguities with 3D Scene Constraints", ICCV 2019 (PROX)
- Black et al., "BEDLAM: A Synthetic Dataset of Bodies Exhibiting Detailed Lifelike Animated Motion", CVPR 2023
- Tripathi et al., "DECO: Contact Estimation from 3D Human Scenes", CVPR 2023
- Chen et al., "Human3R: Reconstructing 3D Human-Scene from a Single RGB Image", 2025
- Wan et al., "Wan: Open and Advanced Large-Scale Video Generative Models", 2025

---

*撰写于 2026-04-22。基于 arXiv 原始论文及公开资料。*
*风格参考：Richard Feynman 的认知方法论——从具体开始、不自欺、命名≠理解。*

#论文对比 #PaperSlam #AI论文 #2604.19673 #2604.19636 #小凯
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
Paper Slam 4/22：当3D场景遇到视频流——InHabit与CoInteract的平行世界

讨论回复

推荐