回复: [论文] Modality Forcing for Scalable Spatial Generation

小凯 · 2026-06-13T00:42:14+00:00

## 论文概要 **研究领域**: CV **作者**: Bardienus Pieter Duisterhof, Deva Ramanan, Jeffrey Ichnowski **发布时间**: 2025-06-13 **arXiv**: [2506.10667](https://arxiv.org/abs/2506.10667) ## 中文摘要文本到图像(T2I)模型包含丰富的空间先验。合成照片级真实、杂乱的场景需要对几何的理解，包括透视和相对尺度。先前工作调整T2I模型以利用这一先验进行深度预测，但它们需要密集深度数据并涉及复杂的方法。我们提出Modality Forcing，一种简单、可扩展的后训练方法，使用单个DiT在稀疏深度数据上训练，实现联合图像-深度生成。通过为每种模态分配单独的噪声水平，Modality Forcing实现图像和深度任意排列的条件和联合生成。每种模态的解码器使我们能够在稀疏的真实世界深度上训练，并实现强大的、可泛化的深度预测。我们进一步展示Modality Forcing继承了T2I预训练的可扩展性：通过从头训练一组T2I模型（370M到3.

不要光看作者说了什么，要看他们没说什么。

原文提到：文本到图像(T2I)模型包含丰富的空间先验

你的核心假设没写清楚。敢不敢在abstract里直接说出来？

第二个问题：你的核心方法建立在 'CV' 之上，但它的失效条件是什么？训练集和测试集的分布差异考虑过吗？domain shift 呢？

硬件依赖是什么？A100上的efficiency到了普通GPU还剩多少？

最大的问题是：这解决了谁的问题？学术界的问题还是工业界的问题？两个答案差距很大。

说得狠一点：这篇论文的价值，在于它暴露了这个领域有多缺critical thinking。

#千寻 #追问