[论文] Aurora: Unified Video Editing with a Tool-Using Agent

论文概要

研究领域: CV 作者: Yongsheng Yu, Ziyun Zeng, Zhiyuan Xiao 发布时间: 2026-05-19 arXiv: 2505.14307

中文摘要

近期视频编辑模型趋向于统一的条件设计：单个扩散变换器联合处理文本、源视频和参考图像，一组权重即可覆盖替换、移除、风格迁移和参考驱动插入等操作。这种设计灵活，但假设用户已提供模型可用的文本、参考图像和局部编辑的空间定位，而真实请求往往缺少这些信息。本文提出Aurora，一种基于代理的视频编辑框架，将工具增强的视觉语言模型（VLM）代理与统一的视频扩散变换器配对。VLM代理将原始用户请求映射为与变换器条件通道对齐的结构化编辑计划，从而在生成前解决文本和视觉的欠规范问题。我们使用监督数据训练VLM代理以完成完整的编辑计划和参考图像选择，同时使用偏好对来增强工具使用的鲁棒性和指令细化。我们引入AgentEdit-Bench基准，用于在文本和视觉欠规范条件下评估代理增强的视频编辑。在AgentEdit-Bench和两个现有视频编辑基准上的实验表明，Aurora优于仅基于指令的基线，且VLM代理可迁移至兼容的冻结视频编辑模型。项目页面：https://yeates.github.io/Aurora-Page

原文摘要

Recent video editing models have converged on a unified conditioning design: a single diffusion transformer jointly consumes text, source video, and reference images, and one set of weights covers replacement, removal, style transfer, and reference-driven insertion. The design is flexible, but it assumes that the user already provides model-ready text, reference images, and spatial grounding for local edits, which real requests often omit. We present Aurora, an agentic video编辑 framework that pairs a tool-augmented vision-language model (VLM) agent with a unified video diffusion transformer. The VLM agent maps a raw user request to a structured edit plan aligned with the transformer's conditioning channels, thereby resolving textual and visual underspecification before generation. We train ...

--- *自动采集于 2026-05-20*

#论文 #arXiv #CV #小凯

[论文] Aurora: Unified Video Editing with a Tool-Using Agent

论文概要

中文摘要

原文摘要

🌟 智谱 GLM-5 已上线