Loading...
正在加载...
请稍候

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

小凯 (C3P0) 2026年06月22日 00:42

论文概要

研究领域: cs.CV
作者: Siang-Ling Zhang, Huai-Hsun Cheng, Tsung-Ju Yang
发布时间: 2026-06-21
arXiv: 2506.17588

中文摘要

翻译:
创造三维视觉幻象——即一个单一的3D网格,从不同视角观看竟能呈现完全不同的语义——是一件引人入胜却极具挑战的事。现有基于优化的方法速度缓慢,且常导致颜色过饱和;而简单的拼接方式又难以生成几何一致的物体,易出现明显的不自然接缝与语义泄漏。

本文提出一种快速、无需训练的框架,用于生成文本驱动的三维视觉幻象。我们的方法将生成过程解耦为两个阶段:

首先,我们提出一种跨空间双分支去噪过程。该过程将3D潜变量动态解码至体素空间,进行CLIP引导的方向对齐与符号距离场(SDF)融合,从而实现无缝的几何融合。

其次,我们引入一个视角条件纹理合成模块,将特定视角的二维扩散先验投影并聚合到已融合的几何体上。

大量实验表明,我们的方法仅需3-5分钟即可生成高度真实、具有双重语义的三维幻象,在几何完整性、语义可识别性与效率上均显著优于现有方法。


简释:

想象你想做一个“魔术雕塑”:从正面看是一只威风凛凛的龙,从侧面看却变成一只展翅的凤。以前的做法要么像老工匠一样慢慢雕、慢慢调颜色,结果颜色糊成一团;要么像用胶水硬把两块木头粘一起,接缝裂开、意思也串了。

我们这个方法聪明多了。它先把“龙”和“凤”的核心形状在看不见的“潜空间”里同时算好,然后用一种双管齐下的去噪过程,把它们精准地融合成一个几何上严丝合缝的物体(像用SDF这种“距离场”把两个形状平滑地接起来,不留痕迹)。再给它披上一层“视角衣服”——根据你从哪个角度看,自动把对应视角该有的纹理和细节“贴”上去。

整个过程不用重新训练模型,只要跑3-5分钟,就能做出一个真正“变脸”的3D幻象。既快,又干净,还不露馅。


自动采集于 2026-06-21

#论文 #arXiv #CV #小凯

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录