用 450 个代理理解整个 3D 世界：Proxy3D 如何让视觉语言模型学会空间智能

小凯 · 2026-05-12T00:49:33+00:00

## 论文概要 **研究领域**: CV **作者**: Jerry Jiang, Haowen Sun, Denis Gudovskiy **发布时间**: 2025-05-07 **arXiv**: [2505.05136](https://arxiv.org/abs/2505.05136) ## 中文摘要视觉语言模型（VLM）中的空间智能吸引了研究兴趣... ## 原文摘要 Spatial intelligence in vision-language models (VLMs)... --- *自动采集于 2026-05-12* #论文 #arXiv #CV #小凯

你走进一个陌生的房间，扫一眼就能回答"桌子左边是什么""书架在窗户的哪一侧"。这种空间推理能力对人类轻而易举，但对视觉语言模型（VLM）来说，却是一个深坑。

原因很简单：VLM 的"视觉"是 2D 的——它看到的是像素，不是空间。给它一段房间的视频，它能看到沙发和茶几，但很难准确说出"沙发在茶几的西北方"。这不是模型不够聪明，而是它看到的"世界"和真实世界之间，缺了一层 3D 表达。

Proxy3D 要解决的，正是这层缺失的表达。

两条死胡同：对应性 vs 像素对齐

现有的 3D 视觉语言方法主要分两派：

对应性方法（Correspondence-based） 通过匹配不同帧之间的特征来隐式建立 3D 理解。听起来优雅，但有两个致命问题：一是空间不一致——同一物体在不同帧中的描述可能矛盾；二是计算昂贵——需要在所有帧之间做密集的特征匹配。

像素对齐方法（Pixel-aligned） 直接把 2D 图像特征投影到 3D 空间。这保留了几何先验，但序列化效率极低——一个典型室内场景的点云可能有几十万个点，全部喂给语言模型，token 数量直接爆炸。

两条路都走不通的根源是同一个：它们要么丢失了 3D 结构，要么保留了太多 3D 细节。我们需要的是一种"刚刚好"的 3D 表达——既保留空间结构，又足够紧凑。

Proxy3D：语义感知的 3D 代理表征

Proxy3D 的核心思想可以用一句话概括：用几百个"代理点"代表整个 3D 场景。

具体流程分三步：

第一步：双编码器提取特征

给定 N 帧视频，Proxy3D 用两个预训练编码器分别提取特征：

语义编码器（SAM + DINOv2）：提取每个像素的语义特征——这是"沙发"，那是"茶几"。
几何编码器（Depth-Anything + 3D 投影）：提取每个像素的 3D 坐标——沙发在 (1.2, 0.5, 3.0)，茶几在 (1.5, 0.3, 2.8)。

第二步：语义感知聚类

这是 Proxy3D 最关键的创新。有了语义特征和 3D 坐标后，最直觉的做法是按空间位置聚类——把空间切成网格，每个网格一个代理。但这样做会犯一个严重的错误：把同一个物体的不同部分分到不同的代理里。

想象一个 L 形沙发：如果按空间网格切割，它的拐角部分可能被分到两个不同的代理，导致模型在回答"沙发左边是什么"时产生混乱。

Proxy3D 的做法是语义感知聚类：先按语义特征把像素分成不同的物体组，再在每个物体内按空间位置聚类。这保证了同一个物体的像素不会被拆散——L 形沙发始终是一个整体，只是内部被分成几个子区域。

最终，整个场景被压缩成 K 个代理（默认 K=450），每个代理携带语义特征和 3D 位置信息。450 个 token 替代了几十万个点——压缩比超过 1000 倍。

第三步：动态代理分配

不同任务对场景的关注点不同。3D 问答需要均匀覆盖整个场景，而视觉定位（Visual Grounding）需要更精细地描述目标物体。Proxy3D 引入动态代理分配：根据任务类型，给目标物体分配更多的代理，给背景分配更少的代理。

消融实验显示，在描述任务中，给目标物体分配 5 个代理效果最好。超过 10 个反而下降——因为代理太多会导致信息稀释，模型反而"看不清"重点。

SpaceSpan 数据集：318K 高质量训练数据

好的表征需要好的训练数据。Proxy3D 团队构建了 SpaceSpan 数据集，包含 318K 条高质量训练数据：

155K 来自现有 3D 数据集（ScanQA、SQA3D 等），统一了数据格式
163K 新增数据，包含更丰富的空间描述和定位标注

训练采用多阶段策略：先在 2D 数据上预训练，再在 SpaceSpan 上微调，逐步让模型适应 3D 代理表征。

实验结果：短序列，强表现

Proxy3D 在三大类基准上做了评估：

3D 问答（3D QA）：在 ScanQA 和 SQA3D 上，Proxy3D 用 450 个 token 达到了和用几千个 token 的方法相当甚至更好的性能。

视觉定位（Visual Grounding）：在 ScanRefer 和 Nr3D 上，Proxy3D 的定位精度显著优于对应性方法。语义感知聚类的贡献在这里尤为突出——消融实验显示，去掉语义分组后，定位准确率下降超过 20 个百分点。

密集描述（Dense Captioning）：在 Scan2Cap 上，Proxy3D 同样表现优异。

一个特别值得注意的发现：Proxy3D 对帧间注意力的依赖很低。即使去掉视觉编码器中的帧间交叉注意力，性能也只有轻微下降。这意味着 Proxy3D 的代理表征已经隐式地建立了跨帧的 3D 一致性——不需要显式地在帧之间做特征匹配。这和对应性方法形成了鲜明对比：后者如果去掉帧间匹配，性能会急剧下降。

代理表征的哲学：压缩即理解

Proxy3D 的成功指向一个更深层的原则：好的 3D 理解不需要保留所有细节，而是需要保留正确的结构。

450 个代理之所以够用，是因为场景中的"语义单元"数量有限——一个房间通常只有几十个物体，每个物体用几个代理就能描述清楚。真正重要的不是每个像素的精确位置，而是物体之间的空间关系。

这和人类的空间认知惊人地相似：你不需要记住房间中每一粒灰尘的位置，只需要知道"沙发在窗边，茶几在沙发前面"。Proxy3D 的代理表征，本质上是在教 AI 用同样的方式"理解"空间。

代码已开源：https://github.com/Spacedreamer2384/Proxy3D

---

*本文基于论文 Proxy3D: Efficient 3D Representations for Vision-Language Models via Semantic Clustering and Alignment (arXiv: 2605.08064) 撰写，作者 Jerry Jiang, Haowen Sun, Denis Gudovskiy 等，CVPR 2026。*