# Paper Slam 4/22:当3D场景遇到视频流——InHabit与CoInteract的平行世界
> 费曼视角:两篇论文都在处理"把人放到环境里"的问题,但一个问的是"放过去之后训练AI",另一个问的是"放过去之后给人类看"。出发点不同,解法完全不同。
---
## 引言:两个关于"人在场景中"的问题
想象你走进一个空荡荡的公寓。房间里有一把椅子、一张桌子、一盏灯。你会做什么?
你会坐下来。因为椅子是用来坐的。桌子是用来放东西的。灯是用来照明的。这些都不需要有人教你——你从小在互联网上看过的无数图片里,已经内化了"人类如何使用空间"的常识。
现在把这个问题交给AI。两个研究团队,在同一周(2026年4月21日),向arXiv提交了两篇论文,都在回答"如何把人对放入场景"这个问题。但他们出发的角度完全不同。
**InHabit**(2604.19673)问的是:我怎么才能大批量地生成"人在3D场景里"的数据,用来训练 embodied agent?他们不是在做内容给消费者看,是在做训练数据给模型吃。核心诉求是规模、物理合理性、语义丰富性。用的是 render-generate-lift 的流水线:先把3D场景渲染成2D图像,用视觉语言模型(VLM)提出这个场景"应该"有什么人在做什么动作,再用图像编辑模型把人生成进去,最后用优化程序把2D结果提升回3D空间,和场景几何对齐。
**CoInteract**(2604.19636)问的是:我怎么才能生成一段视频,让一个人拿着一个产品,在说话的同时,手和物体之间的接触看起来真实可信?他们做的是内容生成——电商广告、虚拟营销。核心诉求是结构稳定性(手不能变形)、物理一致性(手不能穿透物体)、视觉质量。用的是 Diffusion Transformer(DiT)+ 双stream co-generation + Human-Aware MoE。
两篇论文相隔不到24小时上传到arXiv。它们解决的问题看似相似——"人在场景中"——但实际上是两个完全不同的战场。一个为训练数据而造,一个为消费者内容而造。一个在3D空间里计较毫米级的接触精度,一个在视频帧里计较手不会变成六指怪。
这两篇论文放在一起读,会产生一种奇妙的张力。就像同一片森林,一个植物学家在研究光合作用,一个摄影师在拍摄光影。森林是同一个,但看到的东西完全不同。
---
## 第一章:InHabit——把互联网常识"搬运"到3D世界
### 1.1 问题的起点:数据荒
训练 embodied agent——那种能在真实环境里走来走去、理解空间、和人类互动的AI——需要一个基本前提:数据。大量的、多样化的、3D的、带有人类行为的数据。
问题是,这种数据几乎不存在。
现有的真实世界数据集,比如 PROX、RICH、PiGraphs,靠的是在真实场景里搭运动捕捉设备,让人穿着紧身衣做动作。好处是精度高,坏处是规模小——最多覆盖几十个场景,几百个人的动作。而且,你能让被试在一个房间里做的事情就那么几种:坐椅子、开门、拿杯子。语义多样性非常有限。
合成数据的方向也有人走过。比如 BEDLAM、HUMANISE 这类数据集,用程序化的方式把预录的人类动作塞进3D场景里。好处是规模大,坏处是语义贫乏——他们只是把一个人塞进去,不考虑"这个场景里应该有什么样的人在做什么"。一个客厅里可能塞了一个正在打拳的人,因为动作库里有这个动作,但客厅里不应该有人打拳。
InHabit的作者们看到了这个缺口。他们注意到:互联网规模的2D基础模型——视觉语言模型(VLM)、图像生成模型——已经在海量的互联网图片中内化了"人类如何使用环境"的常识。这些模型看过数以十亿计的"人在餐厅吃饭""人在沙发上坐着看电视""人在厨房里切菜"的图片。它们知道什么场景里应该有什么样的人、在做什么、以什么姿态。
问题是,这些知识被困在2D图像空间里。你怎么把它提取出来,放到3D场景里,生成可训练的3D数据?
这就是 InHabit 要解决的。
### 1.2 Render-Generate-Lift:三步走
InHabit 的核心循环可以总结为三个动作:**Render**(渲染)、**Generate**(生成)、**Lift**(提升)。
**第一步:Render。**
给定一个3D场景(比如 Habitat-Matterport3D 里的一个建筑级场景),InHabit 自动采样相机视角,渲染出 RGB/深度图。这一步的目的很简单:把3D场景变成2D图像,让2D基础模型能"看懂"这个场景里有什么。
相机视角不是随机采的。作者用了场景感知(scene-aware)的采样策略:倾向于采样有家具、有活动区域、视野开阔的视角。随机采样可能会对着一堵墙拍,那样就没有意义。
**第二步:Generate。**
这是整个流程最有意思的部分——用2D基础模型的"常识"来指导人类插入。
首先是 affordance 推理。InHabit 把渲染好的场景图像输入 VLM(Gemini),问它:"在这个场景里,一个人在做什么?"VLM 会返回一个自然语言描述,比如"一个人坐在沙发上,看着对面的电视",或者"一个人在厨房里,站在灶台前做饭"。
这个 affordance 推理非常关键。affordance 是认知心理学里的概念——一个物体"提供"给人什么样的行为可能性。椅子 afford 坐,杯子 afford 拿,楼梯 afford 走。VLM 之所以能提出合理的 affordance,是因为它看过无数互联网图片,知道"有沙发的房间里通常有人在看电视""有灶台的厨房里通常有人在做饭"。
但 VLM 只是给了一个文字描述。如何把描述变成图像?
InHabit 用了一个图像编辑模型(同样是 Gemini 的图像生成能力)。给定场景图像和 VLM 提出的动作描述,图像编辑模型在2D图像里生成一个或多个人,做那个动作。注意,这里不是"贴图"——不是从某个库里找一个人的照片贴上去。是生成——模型根据场景的光照、透视、风格,从零生成一个姿态合理、比例合适、光照匹配的人。
这一步的妙处在于,生成的结果是**场景自适应**的。同一个人"看电视"的动作,在不同客厅里,人物的朝向、坐姿、手臂伸展角度都会根据具体的沙发和电视位置而调整。这些细节如果靠程序化方法(比如 POSA 那种基于几何优化的方法)来做,需要极其复杂的约束定义。但图像生成模型直接从视觉先验里"涌现"了这些合理性。
**第三步:Lift。**
现在你有了一张2D图像,里面有一个或多个生成的人。但你需要的是3D数据——每个人需要有 SMPL-X 人体网格、需要在3D空间里有精确的坐标、需要和场景几何对齐(不能穿透家具、脚要着地)。
InHabit 用了一个优化程序来完成这个"提升"。这个过程受到 PhySIC(同一作者团队的先前工作)的启发,但有重要的改进。
具体来说:
1. 用单目深度估计器(MoGe)估计插入人体的深度图,反投影成3D点云,和已知的场景几何对齐,初始化人体位置。
2. 优化 SMPL-X 参数(姿态 θ、形状 β、平移 t、全局尺度 s),使人体:
- 在2D重投影上和图像中的人物剪影对齐(投影损失 L_proj)
- 不穿透场景表面(穿透惩罚 L_pen)
- 脚和臀部等接触区域和场景表面有合理的接触(接触损失 L_contact,基于 PhySIC 的 proximity-based 策略)
- 姿态自然(先验损失 L_prior)
一个重要的设计是**显式尺度参数 s**。在没有 s 的情况下,优化器需要通过调整形状 β 来匹配场景尺度,但修改 β 会改变人体轮廓,被2D投影损失惩罚,导致尺度估计不可靠。显式尺度参数把"这个人在场景里多大"和"这个人的体型是什么样的"解耦了,收敛更稳定。
另一个关键是**使用完整场景网格**。之前的方法(如 PhySIC)只有部分深度图或部分几何,而 InHabit 知道完整的场景 SDF(Signed Distance Field),所以穿透和接触的判断是全局一致且稳定的。遮挡处理也更鲁棒——RGB 里看不见的肢体,仍然能被附近的场景表面约束。
### 1.3 质量控制和规模化
生成的东西总会有坏的。编辑模型可能把家具"改"了——本来是木桌子,生成后变成了玻璃桌。或者生成的人尺寸不对,像个巨人或侏儒。或者生成的人穿透了墙壁。
InHabit 有四层过滤机制:
1. **深度边界过滤**:比较编辑后图像的深度图和原始场景深度图,在人物周围的一个边界区域内,如果深度差异超过阈值,说明编辑模型篡改了场景几何,丢弃该样本。
2. **人体尺寸过滤**:检查优化后人体的身高是否在合理范围(1.2m–2.2m),排除明显异常。
3. **穿透过滤**:检查人体和场景网格的穿透程度,如果超过阈值,丢弃。
4. **接触过滤**:使用 DECO 接触估计器评估人体-场景接触的合理性。
过滤后,约80%的生成样本被保留。这说明生成质量已经相当高。
规模化方面,InHabit 把整个流程自动化了。给定一个场景库(如 HM3D),自动采样多个视角,批量生成,批量优化,批量过滤。最终产出了 **InHabitants** 数据集:78,000+ 样本,覆盖约800个建筑级场景,包括单人交互和多人交互。
### 1.4 实验:数据真的有用吗?
InHabit 的价值不仅在于生成方法本身,更在于生成出来的数据能真正提升下游任务的性能。
**实验1:接触估计(Contact Estimation)**
用 DECO 模型在 DAMON benchmark 上测试。DECO 原本需要人工标注的接触监督来训练。InHabitants 提供的合成数据不需要任何人工标注,但用来增强 DECO 的训练后,性能提升了。这说明自动生成的数据确实包含了有效的接触信息。
**实验2:人体-场景重建(HSI Reconstruction)**
训练 Human3R 和 GRAFT 两个最新的重建模型。
- Human3R 原本在 BEDLAM 上训练。换成 InHabitants 后,在 PROX 上的姿态指标(PA-MPJPE)略微提升(59.25→58.65),但场景接触指标大幅提升(V2S: 200.35→176.44,F1 score: 0.268→0.499)。这说明 InHabitants 的优势不在于让人体姿态更准,而在于让**人体和场景的交互更真实**。
- GRAFT 在 PROX 上训练测试(最理想的设置),但换成 InHabitants 后,姿态和接触指标都显著提升。更有趣的是,仅用 InHabitants 训练的 GRAFT 能泛化到 RICH 的户外场景,尽管训练数据中完全没有户外图像。这说明 InHabitants 的800个场景的多样性确实带来了更强的泛化能力。
**实验3:感知用户研究**
让人类评估 InHabitants 的数据与现有方法(GenZI、POSA)生成的人类放置结果。78% 的情况下,InHabitants 被偏好。这是一个很强的信号——说明2D基础模型生成的"常识性交互"确实比几何优化方法更自然。
### 1.5 InHabit的本质
InHabit 做的事情,本质上是**知识蒸馏**——但不是从一个大模型到一个小模型,而是从一个2D基础模型到一个3D数据集。它利用了2D基础模型在互联网数据中内化的"人类如何使用环境"的常识,通过 render-generate-lift 的流水线,把这种隐性知识显性化为3D训练数据。
这个方法论的巧妙之处在于,它不需要3D动作捕捉设备,不需要人在真实场景里做动作。只要有3D场景(扫描得来的、游戏引擎里的都行),就能自动生成任意规模的人类交互数据。数据里的语义丰富性来自 VLM 的常识推理,视觉真实性来自图像生成模型,几何精确性来自优化程序。
但这个方法也有明确的边界:它生成的是**静态姿态**,不是动态视频。一个人"坐在沙发上"是一个姿势,不是"从站着到坐下去"的动画。论文作者在结论里也提到了——"the principle can be extended to video generation and dynamic scenes in the future"。
---
## 第二章:CoInteract——让手不再变成六指怪
### 2.1 问题的起点:视频生成的结构性崩溃
如果你用过现在的视频生成模型(比如 Wan、HunyuanVideo、SkyReels),你会注意到一个现象:生成的人脸很漂亮,整体动作很流畅,但**手经常出问题**——多一根手指、手指连在一起、手变成一团模糊。如果你让视频里的人拿一个东西,问题更严重——手可能穿透物体,或者物体悬浮在手里没有接触感。
这不是因为模型不够大。DiT(Diffusion Transformer)架构已经能生成相当逼真的视频了。问题在于:**RGB 空间的监督信号太弱了**。
当一个扩散模型学习"生成一段人拿杯子的视频"时,它看到的就是一帧帧 RGB 像素。每个像素的颜色变化受很多因素影响:光照、材质、视角、遮挡。模型需要从这些极其间接的信号里推断出"手指应该绕杯子的哪个位置弯曲""手掌和杯壁的接触边界在哪里"。这些几何约束在 RGB 空间里是隐式的、容易混淆的。
CoInteract 的作者们注意到:视频扩散模型有两个特别脆弱的环节——
1. **敏感区域的结构稳定性**:手和人脸包含大量精细的几何细节(手指关节、面部特征点),但它们在图像中占的像素面积很小,容易被模型的全局注意力忽略。
2. **物理上合理的接触**:手和物体之间的接触关系(contact topology)在 RGB 里没有直接的监督。模型学了"看起来像有接触"的统计规律,但不理解"接触"在几何上意味着什么。
他们的解决思路非常直接:**既然 RGB 监督不够,那就加一条专门的监督 stream。**
### 2.2 Human-Aware MoE:给手和脸开小灶
CoInteract 的第一个核心技术是 **Human-Aware Mixture-of-Experts(MoE)**。
MoE 这个架构在 LLM 领域已经很火了(Mixtral、DeepSeek-V3 都在用)。基本思想是:不是所有 token 都需要同样的处理能力,用一个路由器(router)把 token 分配给不同的"专家"(expert),每个专家处理特定的子任务。这样可以在增加模型容量的同时,保持计算开销线性增长。
CoInteract 把 MoE 用到了**人体区域感知**上。具体来说:
1. 在训练阶段,用现成的检测器(MediaPipe、Face Mesh)获取每一帧里人脸和手的边界框。
2. 这些边界框作为**空间监督**,教路由器识别哪些 token 属于人脸/手部区域。
3. 路由器把人脸 token 分配给人脸专家,把手 token 分配给手部专家,其他 token 分配给通用专家。
4. 每个专家是轻量级的——只有 backbone 的很小一部分参数。这意味着区域专门化几乎没有参数开销。
这样做的好处很明显:手和人脸 token 被送到专门的专家处理,这些专家在训练过程中专门学习了"手指应该怎么弯曲""人脸五官怎么分布"的精细模式。而通用专家处理"背景怎么动""衣服怎么飘"这类相对粗糙的特征。
论文里的可视化结果(Fig. 6)显示,路由热图能精确地把手和人脸 token 分离出来,即使在快速运动(比如打开垃圾桶盖子)的情况下,手部专家仍然能保持高频结构保真度。
### 2.3 Spatially-Structured Co-Generation:双stream训练
CoInteract 的第二个核心技术是 **Spatially-Structured Co-Generation**——双stream训练范式。
核心洞察是:RGB 外观 stream 和 HOI(Human-Object Interaction)结构 stream 需要一起学习,但学习的目的不同。
**RGB stream**:标准的视频扩散目标——生成好看的、时间连贯的 RGB 帧。
**HOI stream**:一个辅助 stream,只关注交互几何。具体来说,HOI stream 的输入是:
- 人体的 mesh 投影到图像平面(像一个线框图)
- 物体的 mask(SAM3 分割得到)
- 两者融合成一个"纹理剥离"的3通道结构图
这个 HOI stream 没有任何颜色、纹理信息——它纯粹是一个几何骨架。模型学习的是:在特定动作下,人体骨架和物体 mask 的相对位置关系、接触边界、遮挡关系。
训练时,两个 stream 共享同一个 DiT backbone:
- 每个 stream 有自己独立的 patch embedding 层(把图像变成 token)
- token 进入共享的 DiT 块
- 但每个 stream 有各自的 adaptive layer normalization 参数(scale/shift),让 backbone 能分别适应 RGB 和 HOI 的统计特性
**关键设计:3D RoPE 和不对称 co-attention。**
为了让 RGB 和 HOI token 能在注意力机制中有效交互,作者设计了精巧的位置编码策略:
- 两个 stream 的 token 在宽度维度上拼接,RGB 占 w ∈ [0, W],HOI 占 w ∈ [-W, 0],共享相同的高度和时间索引。这样模型通过相对位置距离就能学会跨 stream 对齐。
- 时间轴上区分:历史运动帧 t < 0(负时间索引,因果连续性),生成窗口 t ∈ [0, T],参考图像 t ≫ T(远场时间锚点)。
训练分两阶段:
- **Stage 1**:标准双向注意力,RGB 和 HOI token 互相看。快速建立 appearance 和 structure 之间的耦合。
- **Stage 2**:应用**不对称 co-attention mask**:
- RGB query 只能看 RGB key(HOI 分支被屏蔽)
- HOI query 可以看 RGB + HOI key
这个设计的妙处在于:训练时 HOI stream 仍然能利用 RGB stream 的丰富特征来预测结构,但 RGB stream 已经学会了"靠自己生成合理外观",不依赖 HOI stream。因此**推理时可以直接把 HOI 分支移除**,RGB 生成没有任何额外开销。
HOI 损失的梯度通过 HOI←RGB 的 cross-attention 回传到共享 backbone 权重。即使推理时没有 HOI 分支,这些权重仍然编码了交互几何的先验知识。
### 2.4 数据工程
CoInteract 的训练数据需要成对的 RGB 和 HOI 结构标注。作者描述了一个预处理流水线:
1. 用 Qwen-Edit 把原始视频里的人和物解耦,生成独立的人物参考图和产品参考图。
2. 验证模块过滤不匹配的(源图像,人物,物体)三元组。
3. SAM3 分割物体,SAM3D-body 恢复人体 mesh。
4. Mesh 投影 + 物体 mask 融合 = HOI 结构 stream。
这个流水线本质上是把现有的 HOI 视频数据"翻译"成 CoInteract 需要的双stream格式。
### 2.5 实验:和其他方法比怎么样?
CoInteract 在结构稳定性、逻辑一致性、交互真实感上显著超越了现有方法。
论文的定性对比(Fig. 5)显示,在"人拿 unseen 物体"的测试场景中:
- AnchorCrafter 在训练集见过的物体上表现不错,但在 unseen 物体上出现身份漂移和不自然的交互边界。
- InteractAvatar 受益于 Qwen-Image 的强初始帧合成,但随着生成推进,仍然会出现不自然的抓握姿态。
- CoInteract 在完整序列中保持物理合理的交互和结构稳定性。
定量结果方面,虽然没有给出完整的数字表格,但论文强调了三个维度的提升:
1. 结构稳定性(手/脸不崩)
2. 逻辑一致性(动作和描述匹配)
3. 交互真实感(不穿透、有接触)
### 2.6 CoInteract 的本质
CoInteract 做的事情,本质上是**通过结构化监督来弥补 RGB 生成模型的几何盲区**。它不是在生成过程中显式地施加物理约束(比如每一步都检查穿透),而是在训练阶段通过双stream学习把"交互几何"编码进 backbone 权重。推理时,这些权重让模型"自然而然地"生成几何合理的结果。
这是一种**隐式约束**的思路——和 InHabit 的显式优化(L_pen、L_contact)形成对比。CoInteract 说:我不需要在生成时解优化问题,我只需要在训练时让模型看过足够多的"正确几何",它就会学会。
---
## 第三章:华山论剑——两个世界的碰撞
### 3.1 战场不同:数据生成 vs 内容生成
这是最本质的区别。
InHabit 生成的数据**给模型吃**,不是给人看。它的终极消费者是训练 pipeline。因此它的核心 KPI 是:物理精度、几何对齐、语义丰富性、规模。一张图好不好看、光影够不够艺术——这些都不是重点。重点是这个人的脚是不是着地、膝盖是不是穿透了沙发、姿态是不是符合人体工学。
CoInteract 生成的视频**给人看**,不是给模型吃(至少不是 primarily)。它的终极消费者是电商买家、广告观众、社交媒体用户。因此它的核心 KPI 是:视觉质量、手不崩、动作自然、产品展示清楚。物理精度当然重要,但它是服务于视觉可信度的,不是服务于几何标注的。
这个区别决定了几乎所有技术选择。
### 3.2 时间维度:静态 vs 动态
InHabit 生成的是**静态姿势**。一个人"坐在沙发上"是一个 pose,不是一段动画。它没有处理时间一致性、运动动力学、动作的物理合理性(比如从站到坐的过程中重心怎么转移)。论文明确说了这是未来的工作方向。
CoInteract 生成的是**动态视频**。它必须处理时间维度——动作要流畅、前后帧要一致、运动要符合人体动力学。它输入的 motion frames 提供了历史运动上下文,3D RoPE 的时间轴编码了因果连续性。
这个区别让两篇论文的技术复杂度不在一个层面上。InHabit 的优化只需要在一个瞬间(一个 pose)上满足物理约束。CoInteract 需要在整个时间序列上保持一致,而且是在高维隐空间里(VAE latent space)保持 consistency。
### 3.3 几何约束的方式:显式优化 vs 隐式学习
InHabit 的物理约束是**显式的**。L_pen、L_contact、L_proj 都是明确的数学目标函数。优化器在每一步都知道"这个人穿透了地板,扣5分""这个人的脚离地面还有3cm,扣3分"。物理合理性是通过数值优化硬塞进去的。
CoInteract 的物理约束是**隐式的**。模型没有在任何目标函数里看到"穿透扣分"的项。它看到的是成对的 RGB 和 HOI 结构,HOI 结构里手和物体的相对位置是合理的。模型通过学习这些模式的统计规律,内化了"手应该在物体前面""手指应该绕在把手后面"的约束。推理时,模型"自然而然地"生成合理几何,因为它没见过太多不合理的例子。
两种方式各有优劣:
- **显式优化**的优点是精确——只要目标函数定义得好,结果一定满足物理约束。缺点是慢——每个样本都需要求解一个优化问题。InHabit 的优化可能需要几十秒到几分钟一个样本。
- **隐式学习**的优点是快——推理时只是一次前向传播。缺点是"近似"——模型可能在新场景下生成训练分布之外的错误几何。
### 3.4 监督信号的来源:2D 基础模型 vs 3D 结构 stream
InHabit 的监督信号来自**2D基础模型**(VLM + 图像编辑模型)。这些模型在互联网数据上训练,内化了"人类如何使用环境"的常识。InHabit 利用这些模型来"指导"生成——affordance 推理提出"应该做什么",图像编辑生成"看起来对"的结果。
CoInteract 的监督信号来自**3D 结构 stream**。HOI stream 是人体 mesh 投影和物体 mask 的融合,是从真实的3D几何中提取的。模型学到的不是"互联网上的人类怎么做",而是"这个数据集里的人类怎么做"。
这个区别带来了不同的泛化特性。InHabit 可以从 VLM 的常识中泛化到新场景("一个我没见过的客厅里应该有人坐在沙发上")。CoInteract 的泛化受限于训练数据的多样性——如果训练数据里没有"人拿着一个奇形怪状的 unseen 物体",模型可能生成不合理的手部姿态。
但 CoInteract 的论文显示,在 unseen 物体上仍然表现不错,说明 DiT backbone + 双stream训练的组合确实有相当的泛化能力。
### 3.5 Pipeline 架构:分阶段流水线 vs 端到端训练
InHabit 是一个**分阶段流水线**:渲染 → VLM affordance 推理 → 图像生成 → 单目深度估计 → 3D 优化 → 质量控制。每个阶段都是独立的模块,有明确的输入输出格式。好处是可控、可调试、可替换——你可以换不同的 VLM、不同的深度估计器。坏处是误差累积——前一阶段的错误(比如 VLM 提出了不合理的 affordance)会传播到后面的阶段。
CoInteract 是一个**端到端训练**的模型。给定参考图像和 motion context,直接输出视频。所有组件(DiT backbone、MoE 路由器、双stream embedding)联合训练,损失反向传播到所有参数。好处是全局最优——模型自己学会怎么处理每个子任务。坏处是黑盒——如果手崩了,你很难定位是哪个组件的锅。
### 3.6 用户:研究者 vs 消费者
InHabit 的用户是**研究者**——那些在做 embodied AI、3D human-scene reconstruction、contact estimation 的研究团队。他们需要大规模、多样化、带标注的数据来训练模型。
CoInteract 的用户是**内容创作者**——电商运营、广告代理、虚拟主播制作人。他们需要快速生成高质量的人物-产品交互视频,用来展示商品。
这个区别决定了产品的形态。InHabit 会开源数据集和代码,供学术界使用。CoInteract 会做成 API 或 SaaS 工具,按生成时长收费。
---
## 第四章:深层思考——费曼视角的审视
### 4.1 命名不等于理解
两篇论文都用了很多术语。让我试着不用术语解释它们在做什么。
InHabit:你有一个空房子。你想知道这个房子里应该有什么样的人在做什么。你去问一个看过无数照片的人(VLM),他说"应该有人坐在沙发上"。然后你让另一个很会画画的人(图像生成模型)画出这个人坐在沙发上的样子。然后你把这个画里的人物"抬起来",变成一个3D模型,确保他的脚着地、不穿透沙发。做几万次,你就有了一个大数据集。
CoInteract:你想生成一段视频,让一个人拿着一个产品做动作。但直接画视频的模型经常把手画崩。所以你同时训练模型"画视频"和"画骨架",让它学会"手应该在哪里"。画骨架的分支在真正生成时不需要,但它教会了模型正确的几何。
如果你不能用这种大白话解释一个方法,那你只是记住了名字(render-generate-lift、Human-Aware MoE、Spatially-Structured Co-Generation),而不是理解了它在做什么。
### 4.2 货物崇拜检测
让我检查一下这两篇论文有没有"竹子机场"的问题。
**InHabit 的潜在货物崇拜:**
VLM 提出的 affordance 真的合理吗?Gemini 的 affordance 推理是基于互联网图片统计的。但互联网图片本身就有偏差——某些文化、某些场景、某些行为被过度代表。如果一个 VLM 从来没见过"有人坐在地上吃饭"(因为在它的训练数据里,吃饭都是在椅子上),它就不会提出这个 affordance。这意味着 InHabit 生成的数据集会继承并放大 VLM 的训练偏差。
另一个问题是,2D 图像编辑模型生成的"看起来对"的结果,在3D提升时真的能对应物理上合理的姿态吗?编辑模型生成的姿态在2D投影上是合理的,但在3D空间里可能是 physically impossible 的——比如一个人为了"够到"远处的物体,生成了一个过度伸展的手臂,优化器可能找不到任何 SMPL-X 参数能同时满足2D投影和3D合理性。论文的质量控制过滤了一部分这样的情况,但比例是多少?未公开的失败案例分析可能揭示更多问题。
**CoInteract 的潜在货物崇拜:**
HOI stream 用的是人体 mesh 投影和物体 mask。这些 mask 和 mesh 是用现成的分割模型(SAM3)和人体恢复模型(SAM3D-body)自动获取的。这些自动标注本身就有误差。如果分割模型把物体边界搞错了,或者人体 mesh 的手指部分重建不准,HOI stream 就会教给模型错误的交互几何。
更深层的问题是:双stream训练让模型"隐式"学习物理约束,但隐式学习到底学到了一个什么层次的"物理理解"?它学会了"手不应该穿透物体"的统计规律,但它理解为什么吗?它知道"穿透"在物理上意味着什么吗?还是说,它只是学会了避免某些训练数据里没出现过的像素模式?
如果是后者,那就是 cargo cult physics——模型有所有"遵守物理"的外在表现,但没有物理理解的内在实质。
### 4.3 第一性原理拆解
让我回到最基本的问题:人在场景里,什么决定了"看起来对"?
从物理角度:重力、碰撞、摩擦、肌肉骨骼的运动学限制。InHabit 用显式优化处理了一部分(重力通过脚着地约束、碰撞通过穿透惩罚),但忽略了更多(摩擦、动力学)。
从语义角度:人类行为的意图、文化习惯、社会规范。InHabit 用 VLM 捕捉了一部分,但这是从互联网图片里学来的统计关联,不是真正的因果理解。VLM 说"客厅里有沙发,所以应该有人坐"——这是相关,不是因果。
从视觉角度:光照一致、透视正确、纹理匹配、时间连贯。CoInteract 处理了一部分(RGB stream 的光照和纹理、时间轴的连贯性),但手崩问题说明模型还没有真正"理解"手和物体的3D关系。
两篇论文都在解决"人在场景中"的问题,但各自只覆盖了完整问题的一个子集。真正的"人在场景中"需要同时满足:物理合理、语义合理、视觉合理、时间连贯。目前没有一个系统能同时做好这四件事。
### 4.4 一个可能的融合方向
如果让我预测未来,我认为这两个方向会融合。
想象一个系统:它用 InHabit 的方式在3D场景里生成合理的人类姿态和交互(静态的、物理精确的),然后用 CoInteract 的方式把这些静态姿态变成流畅的视频(动态的、视觉精美的)。中间的桥梁是:把3D pose 序列作为 motion condition 输入到视频生成模型。
事实上,这已经有人在做了(DreamActor、ByteLoom 等方法)。但现有方法的问题在于,pose condition 是给扩散模型的"额外输入",模型本身没有内化的物理理解。如果把 CoInteract 的双stream训练扩展为 triple-stream(RGB + HOI + 3D pose),让模型同时学习外观、交互几何和3D运动学,可能会得到更强的结果。
另一个方向是反向的:用 CoInteract 生成的大量视频数据来训练 InHabit 的下游任务。如果 CoInteract 真的能生成物理合理的 HOI 视频,那么这些视频的每一帧都可以作为 InHabit 的"编辑结果",用来生成3D训练数据。这是一个数据飞轮:更好的3D数据 → 更好的重建模型 → 更好的 mesh 恢复 → 更好的 HOI stream → 更好的视频生成 → 更多的3D数据。
### 4.5 关于"理解"的边界
最后,我想问一个费曼式的问题:这些模型真的"理解"人类交互吗?
InHabit 的 VLM 提出 affordance,但它不知道"坐"是什么意思——它只是知道"有沙发的图片里通常有人类像素在特定的相对位置"。CoInteract 的 DiT 生成合理的手部姿态,但它不知道"抓握"是什么意思——它只是学会了某些 latent space 的统计模式对应着"看起来像抓握"的像素排列。
这是 cargo cult understanding 吗?
从实用主义角度,这不重要。如果数据能训练出更好的模型,如果视频能让消费者买单,那就够了。费曼自己也是实用主义者——他在挑战者号调查中只关心"O型环在低温下会失效"这个事实,不关心 NASA 管理层的叙事。
但从科学角度,这很重要。如果我们误以为统计关联就是理解,我们可能会错过真正需要突破的方向。一个"理解"了"坐"的模型,应该能回答:"如果一个沙发被翻倒了,人还能坐在上面吗?""如果沙发上面有一个尖刺,人还会坐吗?"这些问题需要因果推理,不是统计模式匹配。
目前,两篇论文都没有触及这个层次的问题。它们做的是工程——把已知的方法组合起来,解决具体的问题。这完全合理。但读者不应该被术语迷惑,以为这些系统"理解"了人类交互。
它们没有。它们只是非常擅长模仿。
---
## 结语:两条路,一个方向
InHabit 和 CoInteract 是两条不同的路。
InHabit 走的是"先造数据,再训练模型"的路。它的野心是规模——78,000个样本,800个场景,全自动生成。它相信,只要数据足够多、足够多样化,下游的 embodied agent 就能学会理解和人类交互的3D场景。
CoInteract 走的是"直接生成内容"的路。它的野心是质量——让视频里的人手不崩、动作自然、物理可信。它相信,通过在训练阶段注入结构化监督,模型可以在不增加推理开销的情况下生成更好的结果。
但两条路的终点是同一个:**让 AI 真正理解人类如何在物理世界里活动。**
InHabit 从侧面进攻:先制造出足够多、足够真实的"训练实例",让模型从数据里学出规律。CoInteract 从正面进攻:直接让生成模型内物理和几何的约束,一步到位生成可信的内容。
哪个方向会更快到达终点?我不知道。费曼会说:"不要猜,去试。"
但有一个判断我可以确定地给出:这两篇论文的出现意味着,计算机视觉领域正在从"生成好看的图片"进化到"生成物理上合理的人类行为"。这是一个质的飞跃。过去一年里,我们看到的是 Stable Diffusion 到 Sora 到 Wan 的进化——生成质量越来越高,但物理合理性始终是短板。InHabit 和 CoInteract 都在试图填补这个短板,只是从不同的方向。
如果你在做 embodied AI,关注 InHabit。它的数据集可能让你的模型在 contact estimation 上提升一大截。
如果你在做内容生成,关注 CoInteract。它的双stream训练可能是解决"手崩"问题的有效范式。
如果你在思考更深层的问题——AI 到底能不能真正理解人类交互——那么两篇论文都值得读。不是因为它们解决了这个问题,而是因为它们诚实地展示了当前的边界,以及突破边界的努力。
事情就是这样。
---
## 参考文献与延伸阅读
- Kister et al., "InHabit: Leveraging Image Foundation Models for Scalable 3D Human Placement", arXiv:2604.19673, 2026
- Luo et al., "CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation", arXiv:2604.19636, 2026
- YM et al., "PhySIC: Physics-informed 3D Human-Scene Reconstruction", 2025
- Pavlakos et al., "Expressive Body Capture: 3D Hands, Face, and Body from a Single Image", CVPR 2019 (SMPL-X)
- Peebles & Xie, "Scalable Diffusion Models with Transformers", ICCV 2023 (DiT)
- Rombach et al., "High-Resolution Image Synthesis with Latent Diffusion Models", CVPR 2022 (LDM/VAE)
- Savva et al., "PiGraphs: Learning Interaction Snapshots from Observations", SIGGRAPH 2016
- Hassan et al., "Resolving 3D Human Pose Ambiguities with 3D Scene Constraints", ICCV 2019 (PROX)
- Black et al., "BEDLAM: A Synthetic Dataset of Bodies Exhibiting Detailed Lifelike Animated Motion", CVPR 2023
- Tripathi et al., "DECO: Contact Estimation from 3D Human Scenes", CVPR 2023
- Chen et al., "Human3R: Reconstructing 3D Human-Scene from a Single RGB Image", 2025
- Wan et al., "Wan: Open and Advanced Large-Scale Video Generative Models", 2025
---
*撰写于 2026-04-22。基于 arXiv 原始论文及公开资料。*
*风格参考:Richard Feynman 的认知方法论——从具体开始、不自欺、命名≠理解。*
#论文对比 #PaperSlam #AI论文 #2604.19673 #2604.19636 #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!