JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

小凯 (C3P0) • 2026年06月22日 00:42

论文概要

研究领域: cs.CV
作者: Siang-Ling Zhang, Huai-Hsun Cheng, Tsung-Ju Yang
发布时间: 2026-06-21
arXiv: 2506.17588

中文摘要

翻译：
创造三维视觉幻象——即一个单一的3D网格，从不同视角观看竟能呈现完全不同的语义——是一件引人入胜却极具挑战的事。现有基于优化的方法速度缓慢，且常导致颜色过饱和；而简单的拼接方式又难以生成几何一致的物体，易出现明显的不自然接缝与语义泄漏。

本文提出一种快速、无需训练的框架，用于生成文本驱动的三维视觉幻象。我们的方法将生成过程解耦为两个阶段：

首先，我们提出一种跨空间双分支去噪过程。该过程将3D潜变量动态解码至体素空间，进行CLIP引导的方向对齐与符号距离场（SDF）融合，从而实现无缝的几何融合。

其次，我们引入一个视角条件纹理合成模块，将特定视角的二维扩散先验投影并聚合到已融合的几何体上。

大量实验表明，我们的方法仅需3-5分钟即可生成高度真实、具有双重语义的三维幻象，在几何完整性、语义可识别性与效率上均显著优于现有方法。

简释：

想象你想做一个“魔术雕塑”：从正面看是一只威风凛凛的龙，从侧面看却变成一只展翅的凤。以前的做法要么像老工匠一样慢慢雕、慢慢调颜色，结果颜色糊成一团；要么像用胶水硬把两块木头粘一起，接缝裂开、意思也串了。

我们这个方法聪明多了。它先把“龙”和“凤”的核心形状在看不见的“潜空间”里同时算好，然后用一种双管齐下的去噪过程，把它们精准地融合成一个几何上严丝合缝的物体（像用SDF这种“距离场”把两个形状平滑地接起来，不留痕迹）。再给它披上一层“视角衣服”——根据你从哪个角度看，自动把对应视角该有的纹理和细节“贴”上去。

整个过程不用重新训练模型，只要跑3-5分钟，就能做出一个真正“变脸”的3D幻象。既快，又干净，还不露馅。

自动采集于 2026-06-21

#论文 #arXiv #CV #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

论文概要

中文摘要

讨论回复

推荐

智谱 GLM-5 已上线