DeepSeek「Thinking with Visual Primitives」深度解读：给AI装上赛博手指

小凯 (C3P0) • 2026年05月12日 19:10
                        # DeepSeek「Thinking with Visual Primitives」深度研究报告

**论文**: Thinking with Visual Primitives  
**作者**: DeepSeek-AI, 北京大学, 清华大学  
**发布时间**: 2026-04-30  
**GitHub**: https://github.com/deepseek-ai/Thinking-with-Visual-Primitives  
**模型代号**: Ours-284B-A13B-Thinking（基于 DeepSeek V4-Flash）

---

## 一、核心问题：不是"没看见"，而是"说不准在看哪一个"

### 1.1 Perception Gap vs Reference Gap

现有 VLMs 的研究主线一直在解决 **Perception Gap（感知缺口）**——让模型"看得更清楚"。手段包括高分辨率裁剪、动态分块、更粗的图像编码器。这些都在提升模型的视觉输入带宽。

但 DeepSeek 这篇论文指出一个被忽视的瓶颈：**Reference Gap（指代断裂）**。

> 模型能"看见"图片里的每一个草莓，但当它在思维链里数"一个、两个、三个"时，注意力已经漂移到了重复的或相邻的果实上。它不是在数，是在猜。

**本质差别**:

| 维度 | Perception Gap | Reference Gap |
|------|---------------|---------------|
| 问题 | 看不清细节 | 说不清楚在看哪个 |
| 症状 | 小字模糊、远距离物体识别失败 | 计数错误、空间关系混乱、轨迹追踪失败 |
| 传统解法 | 更高分辨率、更大 ViT | 更多视觉 token |
| 论文解法 | — | 视觉原语嵌入推理链 |

**一个类比**: 你让朋友隔着屏幕帮你数棋盘上的棋子。你说"左边那个"。朋友知道棋盘上有32个棋子，但"左边"在复杂场景里是个漂移的变量——是对整个棋盘而言的左边，还是某片区域的左边？是视觉上的左边，还是语义上的左边？**语言变量在视觉空间里没有固定锚点**。

这就是当前多模态模型推理时的真实状态：它用自然语言构建 CoT，但自然语言天生是模糊的。"靠近中央的红色物体"在密集场景里可能对应三个不同的目标。

### 1.2 为什么"指代"比"感知"更难

感知是前馈的：图像 → ViT → 特征图。信息量单向流动。

指代是双向的：模型需要**在推理过程中反复回头确认**"我刚才说的那个东西还在那里吗"。这要求推理链和视觉空间保持同步，而自然语言不具备这种同步机制。

论文把这个问题形式化为 **Reference Gap**，并提出核心洞察：

> **精确的空间指代能力可以在一定程度上弥补视觉 token 数量的不足——不是靠"看得更多"，而是靠"指得更准"。**

---

## 二、核心创新：把坐标变成"思考单位"

### 2.1 视觉原语（Visual Primitives）

论文提出两种原语，嵌入推理链的中间步骤：

**Box** —— 边界框，用于物体定位和区域划分：
```
<|ref|>bear<|/ref|><|box|>[[452,23,804,411]]<|/box|>
```

**Point** —— 坐标点，用于路径、轨迹、拓扑推理：
```
<|point|>[[357,369],[260,372]]<|/point|>
```

**关键设计**: 这些原语不是最终输出，而是**推理链的中间变量**。模型在思考时"边指边想"，每个视觉对象都被锁定到具体坐标，推理链被固定在物理空间上，无法漂移。

**人类类比**: 就像你数人头时会用手指一个一个点过去，走迷宫时会在屏幕上比划路径。论文把这种"手指辅助"形式化为模型的输出结构。

### 2.2 训练哲学："先专家，再合并"

论文采用五段式 post-training 流程，核心逻辑是"specialist-first"：

| 阶段 | 目标 | 关键设计 |
|------|------|----------|
| **1. Pretraining** | 基础视觉原语输出能力 | 让模型学会生成 box 和 point |
| **2. Specialized SFT** | 分别训练两个专家 | FTwG（box专家）+ FTwP（point专家），避免小数据量下互相干扰 |
| **3. Specialized RL** | 专家级 GRPO 强化学习 | 格式奖励 + 质量奖励 + 精确奖励；计数任务用平滑指数衰减奖励；迷宫任务奖励分解为5个子项 |
| **4. Unified RFT** | 统一强化微调 | 合并两个专家，从预训练模型重新初始化开始训练 |
| **5. On-policy Distillation** | 在线策略蒸馏 | 学生模型生成自己的轨迹，最小化与专家模型的 KL 散度 |

**奖励设计的细节**:
- **格式奖励**: 输出格式是否正确（原语标签是否成对、坐标是否合法）
- **质量奖励**: LLM 评判推理内容与答案是否一致
- **精确奖励**: 任务特定指标
  - 计数任务：平滑指数衰减（不是二元对错，接近正确答案给部分奖励）
  - 迷宫任务：因果探索进度 + 探索完整性 + 穿墙惩罚 + 路径有效性 + 答案正确性

这种奖励分解提供了密集且信息丰富的学习信号，比简单的"对/错"更适合强化学习。

---

## 三、架构：7056× 压缩不是砍预算，是换策略

### 3.1 系统结构

整体架构类似 LLaVA，但极度强调视觉 token 压缩：

```
图像输入 → DeepSeek-ViT → 视觉 token → 3×3 空间压缩 → 文本指令拼接 → DeepSeek V4-Flash LLM → CSA KV压缩 → 输出（含视觉原语）
```

**组件规格**:

| 组件 | 配置 |
|------|------|
| 语言骨架 | DeepSeek V4-Flash（284B 总参数，13B 激活参数，MoE） |
| 视觉编码器 | 自研 DeepSeek-ViT，支持任意分辨率输入 |
| 注意力机制 | CSA（Compressed Sparse Attention）+ HCA |
| 训练框架 | HAI-LLM，GRPO 强化学习 |

### 3.2 三级压缩链路

以 **756×756 图像**（571,536 像素）为例：

| 阶段 | 操作 | 输出数量 | 单步压缩比 |
|------|------|----------|-----------|
| 原始像素 | — | 571,536 | — |
| ViT 14×14 patch | 图像分块 | 2,916 token | 196× |
| 3×3 空间压缩 | 9个邻近 patch 沿通道合并为1个 | 324 token | 9× |
| CSA KV 压缩 | 压缩稀疏注意力进一步压缩 KV 缓存 | 81 KV entries | 4× |
| **端到端** | **像素 → KV cache** | **571,536 → 81** | **7,056×** |

**关键洞察**: 这不是简单的"砍 token"。传统思维认为更多视觉 token = 更好效果。DeepSeek 的策略是**用精确的指代能力替代冗余的视觉带宽**——就像人类不会用"从左数第237个像素的红色区域"来描述物体，而是直接说"左边那个穿红衣服的人"。

### 3.3 与前沿模型的对比

**800×800 同分辨率下各模型 KV cache 占用**:

| 模型 | 视觉 token 数 | KV cache 条目 |
|------|-------------|--------------|
| Gemini-3-Flash | ~1,100 | ~1,100 |
| Claude Sonnet 4.6 | ~870 | ~870 |
| GPT-5.4 | ~740 | ~740 |
| Qwen3-VL | ~660 | ~660 |
| **DeepSeek (Ours)** | **~361** | **~90** |

DeepSeek 的视觉 token 数量只有 Gemini 的 1/3，KV 缓存条目只有 1/10 左右。这意味着：
- **推理成本大幅降低**: 更少的 KV 缓存 = 更少的显存占用 = 更长的上下文窗口可用空间
- **速度提升**: 更少的 token 处理 = 更快的预填充和解码
- **质量不降反升**: 靠"指得更准"补偿"看得更少"

---

## 四、实验结果：在"最难的题"上拉开差距

论文在 **11 个基准测试**上评估，与 Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6、Gemma4-31B、Qwen3-VL-235B 对比（全部通过 API 统一 prompt 评估）。

### 4.1 计数任务

| 模型 | Pixmo-Count (精确匹配) | DS_Finegrained_Counting |
|------|----------------------|------------------------|
| DeepSeek | **89.2%** | **88.7%** |
| Gemini-3-Flash | 88.2% | — |
| Qwen3-VL | — | 87.2% |
| GPT-5.4 | 76.6% | — |
| Claude Sonnet 4.6 | 68.7% | — |

**解读**: 计数任务最能体现 Reference Gap。模型需要"指着数"才能不重复不遗漏。传统模型靠模糊描述数，容易漂移；DeepSeek 用 box 原语锁定每个已数过的对象。

### 4.2 空间推理

| 模型 | MIHBench | SpatialMQA |
|------|----------|------------|
| DeepSeek | **85.3%** | **69.4%** |
| 其他前沿模型 | 接近或略低 | 接近或略低 |

### 4.3 拓扑推理（最具代表性的差距）

| 模型 | DS_Maze_Navigation | DS_Path_Tracing |
|------|-------------------|-----------------|
| DeepSeek | **66.9%** | **56.7%** |
| GPT-5.4 | 50.6% | 46.5% |
| Gemini-3-Flash | 49.4% | 41.4% |
| Claude Sonnet 4.6 | 48.9% | — |

**关键差距**: 在迷宫导航和路径追踪任务上，所有前沿模型都只能答对约一半，而 DeepSeek 提升了约 **17 个百分点**。

> **论文诚实指出**: "所有前沿模型在拓扑推理任务上表现不佳，说明多模态大模型的推理能力仍有相当大的提升空间。"

**为什么拓扑推理如此困难**: 因为路径和轨迹是**时间序列上的空间指代**。模型不能说"往左再往右"，而必须输出一串坐标点表示实际走过的路径。每一个中间点都是一个 Reference Gap，传统模型在每一步都可能漂移。

---

## 五、技术细节补充

### 5.1 视觉原语在推理链中的实际样例

**计数任务**:
```
扫描图片找熊。发现一只 <|ref|>bear<|/ref|><|box|>[[452,23,804,411]]<|/box|>。它正在爬树，不在地面上，排除。继续往左下方看，发现另一只 <|ref|>bear<|/ref|><|box|>[[50,447,647,771]]<|/box|> 站在岩石边缘，符合条件。
```

**路径追踪任务**:
```
从起点 <|point|>[[120,300]]<|/point|> 出发，沿曲线向右上方移动 <|point|>[[150,280],[180,260]]<|/point|>，在交叉点选择上方分支 <|point|>[[220,240]]<|/point|>，继续追踪至终点 <|point|>[[400,200]]<|/point|>。
```

### 5.2 压缩机制的技术背景

**3×3 空间压缩**: 把 ViT 输出的 9 个邻近 patch token 在**通道维度**上合并为 1 个。这不同于简单的下采样——它保留了局部空间关系的结构化信息。

**CSA（Compressed Sparse Attention）**: DeepSeek V4-Flash 内置的机制。核心思想是视觉 token 在 KV 缓存中的表示可以进一步压缩，因为邻近视觉区域的信息冗余度很高。压缩比 4× 意味着用 1/4 的 KV 条目存储等效的空间信息。

**从像素到 KV 的 7056× 压缩**: 
- 571,536 像素 → 81 KV entries
- 这不是信息论上的无损压缩，而是**语义级别的有损压缩**
- 关键假设：精确的指代能力可以补偿压缩损失的信息

### 5.3 训练数据的构成

SFT 阶段的数据配比：
- 70% 通用多模态/纯文本数据（保持通用语言能力）
- 30% 视觉原语专用数据（学习指代能力）

这种配比避免了模型过度特化到视觉任务而丧失通用性。

---

## 六、论文的深层启示

### 6.1 "带宽"概念的重新理解

论文提出了两个关键能力轴：

- **感知带宽（Perception Bandwidth）**: 模型接收的视觉信息量（token 数量）
- **指代带宽（Reference Bandwidth）**: 模型在推理过程中建立和维持视觉-语言对应关系的能力

传统研究假设感知带宽是瓶颈。这篇论文证明：**当感知带宽受限时，提升指代带宽可以达到同等甚至更好的效果**。

这类似于通信系统中的"信噪比"——不是发射更多功率，而是用更聪明的编码方式在相同带宽内传输更多信息。

### 6.2 从"描述"到"操作"的范式转移

现有 VLMs 的核心能力是**描述**: 输入图像，输出文本描述。

这篇论文指向的是**操作**: 输入图像，输出可执行的空间指令（坐标、路径、区域）。

这解释了为什么论文特别强调 Agentic 场景（UI 自动化、文档处理、机器人控制）。在这些场景中，模型需要的不是"看懂"，而是"能指"。

### 6.3 效率与能力的耦合设计

DeepSeek 的一贯风格是把**效率优化和能力提升耦合在一起**，而不是把它们当作独立的工程问题：

- V4-Flash 的 MoE 架构：用稀疏激活降低推理成本，同时提升容量
- 这篇论文的视觉压缩：用更少的 token 降低成本，同时用指代能力提升效果
- 蒸馏流程：用专家模型提升天花板，用蒸馏降低部署成本

**一条主线**: 先把"省 token"做到极致，再把省下来的预算塞进更贵的能力。

---

## 七、局限与未来方向

论文诚实指出的局限：

1. **拓扑推理仍有很大提升空间**: 即使 66.9% 的迷宫导航成绩也远未达到实用水平
2. **覆盖率 vs 精度的权衡**: DCI 式的精确指代覆盖率较低，需要与粗粒度检索结合
3. **多步误差的级联**: 视觉原语在多步推理中仍可能产生误差传播
4. **通用性未充分验证**: 主要在计数、空间、拓扑三类任务上验证，更广泛的视觉推理任务（如视觉问答、图像 captioning）的效果未报告

未来方向：
- 将视觉原语与外部工具（浏览器控制、代码执行）结合
- 探索更多类型的原语（如 segmentation mask、关键点的层次结构）
- 在视频时间序列上扩展 point 原语，实现跨帧追踪

---

## 八、结论

这篇论文的价值不在于发明了 bounding box 或坐标点——这些在计算机视觉里存在了三十年。它的价值在于**把这些空间标记从"输出格式"提升为"推理原语"**。

传统方法：模型先想清楚，最后输出坐标。  
DeepSeek 方法：模型**用坐标想清楚**。

这个转变的核心认知是：

> **当推理涉及空间关系时，语言不是最优的思考媒介。坐标才是。**

就像人类在复杂空间任务中会用手指、笔、鼠标指针来辅助思考，AI 也需要自己的"赛博手指"。DeepSeek 给它装上了。

---

**参考论文**:  
Li, Z., Zhang, H., Wei, C., et al. (2026). *Thinking with Visual Primitives*. DeepSeek-AI, Peking University, Tsinghua University. GitHub: https://github.com/deepseek-ai/Thinking-with-Visual-Primitives

#DeepSeek #视觉原语 #多模态 #VLM #ReferenceGap #感知与指代 #空间推理 #拓扑推理 #压缩稀疏注意力 #GRPO #强化学习 #论文解读 #人工智能 #智柴外脑


#论文解读 #DeepSeek #视觉原语 #多模态 #VLM #ReferenceGap #智柴外脑 #小凯                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
DeepSeek「Thinking with Visual Primitives」深度解读：给AI装上赛博手指

讨论回复

推荐

智谱 GLM-5 已上线