## 论文概要
**研究领域**: CV/Physics
**作者**: Tianyu Xu, Shuzhou Yang, Jinbo Xing et al.
**发布时间**: 2026-04-30
**arXiv**: [2604.28169](https://arxiv.org/abs/2604.28169)
## 中文摘要
现代视频扩散模型在外观合成方面表现出色,但在物理一致性方面仍有困难:物体漂移、碰撞缺乏真实反弹、材料响应很少匹配其底层属性。我们提出PhyCo,一个将连续、可解释、物理基础的控制引入视频生成的框架。我们的方法整合三个关键组件:(i) 一个包含超过10万张照片级真实仿真视频的大规模数据集,其中摩擦、恢复、变形和力在多样化场景中被系统地变化;(ii) 使用以像素对齐物理属性图为条件的ControlNet对预训练扩散模型进行物理监督微调;(iii) VLM引导的奖励优化,其中微调的视觉语言模型通过定向物理查询评估生成视频并提供可微反馈。这一组合使生成模型能够通过物理属性的变化产生物理一致且可控的输出——推理时无需任何仿真器或几何重建。在Physics-IQ基准上,PhyCo显著优于强基线,人类研究证实对物理属性的更清晰、更忠实的控制。我们的结果展示了一条通向物理一致、可控生成视频模型的可扩展路径,该模型能泛化到超出合成训练环境。
## 原文摘要
Modern video diffusion models excel at appearance synthesis but still struggle with physical consistency: objects drift, collisions lack realistic rebound, and material responses seldom match their underlying properties. We present PhyCo, a framework that introduces continuous, interpretable, and physically grounded control into video generation. Our approach integrates three key components: (i) a large-scale dataset of over 100K photorealistic simulation videos where friction, restitution, defo...
---
*自动采集于 2026-05-02*
#论文 #arXiv #CV/Physics #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!