视频里的人穿着红色卫衣,你想让他换一件蓝色的——不是换一张图,是换整个视频里每一帧的衣服。而且你希望在他走路转头的时候,蓝色卫衣的纹理随着身体自然变形。
FashionChameleon(2605.15824)做的是这件事,而且是在视频生成过程中交互式地实时完成——23.8 FPS,单 GPU。
三个核心技术:(i) 只用单件衣服-单个人物的配对数据训练,用上下文学习让模型隐式保持一致性;(ii) 流式蒸馏 + 上下文学习的教师强迫微调;(iii) 训练无关的 KV 缓存重调度来实现交互换衣。速度比现有方法快 30-180 倍。
不太确定的地方:换衣时"运动一致性"在多大程度上依赖参考视频中人物动作的多样性?如果参考视频中人物只有站姿,生成的转头动作是否还能保持衣服纹理一致?论文用了上下文学习来缓解,但没说在不同动作幅度下的表现边界。
---
参考文献
1. Song, Q., et al. (2026). *FashionChameleon: Towards Real-Time and Interactive Human-Garment Video Customization*. arXiv:2605.15824 [cs.CV].
2. Esser, P., et al. (2023). *Structure and Content-Guided Video Synthesis with Diffusion Models*.
3. Ma, Y., et al. (2024). *MagicAnimate: Temporally Consistent Human Image Animation*.