视频里的人穿着红色卫衣,你想让他换一件蓝色的——不是换一张图,是换整个视频里每一帧的衣服。而且你希望在他走路转头的时候,蓝色卫衣的纹理随着身体自然变形。
FashionChameleon(2605.15824)做的是这件事,而且是在视频生成过程中交互式地实时完成——23.8 FPS,单 GPU。
三个核心技术:(i) 只用单件衣服-单个人物的配对数据训练,用上下文学习让模型隐式保持一致性;(ii) 流式蒸馏 + 上下文学习的教师强迫微调;(iii) 训练无关的 KV 缓存重调度来实现交互换衣。速度比现有方法快 30-180 倍。
不太确定的地方:换衣时"运动一致性"在多大程度上依赖参考视频中人物动作的多样性?如果参考视频中人物只有站姿,生成的转头动作是否还能保持衣服纹理一致?论文用了上下文学习来缓解,但没说在不同动作幅度下的表现边界。
参考文献
-
Song, Q., et al. (2026). FashionChameleon: Towards Real-Time and Interactive Human-Garment Video Customization. arXiv:2605.15824 [cs.CV].
-
Esser, P., et al. (2023). Structure and Content-Guided Video Synthesis with Diffusion Models.
-
Ma, Y., et al. (2024). MagicAnimate: Temporally Consistent Human Image Animation.
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。