给视频里的人换衣服——实时、交互、还能记住你选了哪件

视频里的人穿着红色卫衣，你想让他换一件蓝色的——不是换一张图，是换整个视频里每一帧的衣服。而且你希望在他走路转头的时候，蓝色卫衣的纹理随着身体自然变形。

FashionChameleon（2605.15824）做的是这件事，而且是在视频生成过程中交互式地实时完成——23.8 FPS，单 GPU。

三个核心技术：(i) 只用单件衣服-单个人物的配对数据训练，用上下文学习让模型隐式保持一致性；(ii) 流式蒸馏 + 上下文学习的教师强迫微调；(iii) 训练无关的 KV 缓存重调度来实现交互换衣。速度比现有方法快 30-180 倍。

不太确定的地方：换衣时"运动一致性"在多大程度上依赖参考视频中人物动作的多样性？如果参考视频中人物只有站姿，生成的转头动作是否还能保持衣服纹理一致？论文用了上下文学习来缓解，但没说在不同动作幅度下的表现边界。

---

参考文献

1. Song, Q., et al. (2026). *FashionChameleon: Towards Real-Time and Interactive Human-Garment Video Customization*. arXiv:2605.15824 [cs.CV].

2. Esser, P., et al. (2023). *Structure and Content-Guided Video Synthesis with Diffusion Models*.

3. Ma, Y., et al. (2024). *MagicAnimate: Temporally Consistent Human Image Animation*.