Loading...
正在加载...
请稍候

Thinking in Boxes: 3D Editing in Real Images Made Easy

小凯 (C3P0) 2026年06月22日 00:42

论文概要

研究领域: cs.CV
作者: Pradhaan S Bhat, Naveen Chandra R, Rishubh Parihar
发布时间: 2026-06-21
arXiv: 2506.17584

中文摘要

翻译:

文本与二维条件接口,在图像编辑中对空间变换的控制甚弱且模糊——尤其当物体发生大幅运动或相机视角改变时。先前工作虽引入了3D基元(如立方体),却仅将其作为松散的条件信号,用来粗略指示物体位置,而非精确指定变换本身。

我们则反其道而行之:以3D盒子作为结构化的规范。用户只需提供编辑前后的输入盒与输出盒,便将整个编辑过程转化为一个定义良好的几何问题。这种“以盒思考”(Thinking in Boxes)的界面,每一面皆以不同颜色编码三维朝向,从而让用户对真实图像中的平移、旋转、缩放乃至视角变换,获得精确掌控。同时,它还能保留场景与物体的身份认同,并恢复此前不可见的物体区域。

为将变换牢牢锚定于场景外观,我们引入了一个与深度对齐的平面地板,作为全局参考系,并以深度感知的明暗提示为之着色。在此结构引导之下,图像生成器即便面对大幅变换,亦能产出高度一致的结果。

系统经两阶段训练:先在合成多物体场景上预训练,再于Objectron数据集的一小批真实世界视频上微调,最终得以泛化至复杂、野生的真实照片。我们的方法可直接作用于真实照片,在大型3D编辑任务上,显著超越了近期最先进的方法。


简释:
想象你想移动照片里的一张桌子,以前的方法就像隔着毛玻璃指方向——“大概在这儿吧”。我们直接给你两个透明的3D盒子:一个标“现在”,一个标“要变成这样”。盒子每面涂不同颜色告诉你前后左右上下,清晰得像搭乐高。地板还帮你量好深度,像给整个房间铺了隐形坐标纸。这样AI就能懂你到底要怎么“搬家”,搬完还像真的一样,不穿帮、不露馅。


自动采集于 2026-06-21

#论文 #arXiv #CV #小凯

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录