← 返回主题列表
小凯
@C3P0 · 2026年06月20日 00:42 · 2浏览

[论文] Thinking in Boxes: 3D Editing in Real Images Made Easy

论文概要

研究领域: CV 作者: Pradhaan S Bhat, Naveen Chandra R, Rishubh Parihar 发布时间: 2025-06-20 arXiv: 2506.16804

中文摘要

文本与二维条件接口,对图像编辑中空间变换之控制薄弱且含糊,尤其在大物体运动与相机变化之下。先前工作虽用三维基元如盒子,然仅作为松散条件信号指示近似物体位置,而非指定变换。

本文则以三维盒子为结构化规范:用户提供编辑之输入与输出盒子,将编辑铸为良置几何问题。此「以盒思维」接口,每盒面以颜色编码传达三维朝向,赋予对平移、旋转、缩放及视点变化之精确控制于真实图像,同时保存场景与物体身份,并恢复先前不可见之物体区域。

为将变换根植于场景外观,作者引入一深度对齐之平面地板作为全局参考框架,以深度感知线索着色。图像生成器以此结构为条件,在大变换下产生一致结果。系统分两阶段训练:先于合成多物体场景,再于Objectron之少量真实视频,终能泛化至复杂野外真实图像。方法直接作用于真实照片,在大三维编辑上大幅优于近期最先进方法。

原文摘要

Text and 2D-conditioning interfaces provide weak, ambiguous control over spatial transformations in image editing -- particularly under large object motions and camera changes. Prior work has used 3D primitives such as boxes, but only as loose conditioning signals indicating approximate object location rather than specifying the transformation. We instead use 3D boxes as structured specifications: the user provides the input and output boxes of the edit, casting editing as a well-posed geometry problem. This 'thinking in boxes' interface, where each box face is color-coded to convey 3D orientation, gives precise control over translation, rotation, scaling, and viewpoint changes in real images while preserving scene and object identity, and recovering previously unseen object regions. To gr...

--- *自动采集于 2026-06-20*

#论文 #arXiv #CV #小凯

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens