# DeepSeek「Thinking with Visual Primitives」深度研究报告
**论文**: Thinking with Visual Primitives
**作者**: DeepSeek-AI, 北京大学, 清华大学
**发布时间**: 2026-04-30
**GitHub**: https://github.com/deepseek-ai/Thinking-with-Visual-Primitives
**模型代号**: Ours-284B-A13B-Thinking(基于 DeepSeek V4-Flash)
---
## 一、核心问题:不是"没看见",而是"说不准在看哪一个"
### 1.1 Perception Gap vs Reference Gap
现有 VLMs 的研究主线一直在解决 **Perception Gap(感知缺口)**——让模型"看得更清楚"。手段包括高分辨率裁剪、动态分块、更粗的图像编码器。这些都在提升模型的视觉输入带宽。
但 DeepSeek 这篇论文指出一个被忽视的瓶颈:**Reference Gap(指代断裂)**。
> 模型能"看见"图片里的每一个草莓,但当它在思维链里数"一个、两个、三个"时,注意力已经漂移到了重复的或相邻的果实上。它不是在数,是在猜。
**本质差别**:
| 维度 | Perception Gap | Reference Gap |
|------|---------------|---------------|
| 问题 | 看不清细节 | 说不清楚在看哪个 |
| 症状 | 小字模糊、远距离物体识别失败 | 计数错误、空间关系混乱、轨迹追踪失败 |
| 传统解法 | 更高分辨率、更大 ViT | 更多视觉 token |
| 论文解法 | — | 视觉原语嵌入推理链 |
**一个类比**: 你让朋友隔着屏幕帮你数棋盘上的棋子。你说"左边那个"。朋友知道棋盘上有32个棋子,但"左边"在复杂场景里是个漂移的变量——是对整个棋盘而言的左边,还是某片区域的左边?是视觉上的左边,还是语义上的左边?**语言变量在视觉空间里没有固定锚点**。
这就是当前多模态模型推理时的真实状态:它用自然语言构建 CoT,但自然语言天生是模糊的。"靠近中央的红色物体"在密集场景里可能对应三个不同的目标。
### 1.2 为什么"指代"比"感知"更难
感知是前馈的:图像 → ViT → 特征图。信息量单向流动。
指代是双向的:模型需要**在推理过程中反复回头确认**"我刚才说的那个东西还在那里吗"。这要求推理链和视觉空间保持同步,而自然语言不具备这种同步机制。
论文把这个问题形式化为 **Reference Gap**,并提出核心洞察:
> **精确的空间指代能力可以在一定程度上弥补视觉 token 数量的不足——不是靠"看得更多",而是靠"指得更准"。**
---
## 二、核心创新:把坐标变成"思考单位"
### 2.1 视觉原语(Visual Primitives)
论文提出两种原语,嵌入推理链的中间步骤:
**Box** —— 边界框,用于物体定位和区域划分:
```
<|ref|>bear<|/ref|><|box|>[[452,23,804,411]]<|/box|>
```
**Point** —— 坐标点,用于路径、轨迹、拓扑推理:
```
<|point|>[[357,369],[260,372]]<|/point|>
```
**关键设计**: 这些原语不是最终输出,而是**推理链的中间变量**。模型在思考时"边指边想",每个视觉对象都被锁定到具体坐标,推理链被固定在物理空间上,无法漂移。
**人类类比**: 就像你数人头时会用手指一个一个点过去,走迷宫时会在屏幕上比划路径。论文把这种"手指辅助"形式化为模型的输出结构。
### 2.2 训练哲学:"先专家,再合并"
论文采用五段式 post-training 流程,核心逻辑是"specialist-first":
| 阶段 | 目标 | 关键设计 |
|------|------|----------|
| **1. Pretraining** | 基础视觉原语输出能力 | 让模型学会生成 box 和 point |
| **2. Specialized SFT** | 分别训练两个专家 | FTwG(box专家)+ FTwP(point专家),避免小数据量下互相干扰 |
| **3. Specialized RL** | 专家级 GRPO 强化学习 | 格式奖励 + 质量奖励 + 精确奖励;计数任务用平滑指数衰减奖励;迷宫任务奖励分解为5个子项 |
| **4. Unified RFT** | 统一强化微调 | 合并两个专家,从预训练模型重新初始化开始训练 |
| **5. On-policy Distillation** | 在线策略蒸馏 | 学生模型生成自己的轨迹,最小化与专家模型的 KL 散度 |
**奖励设计的细节**:
- **格式奖励**: 输出格式是否正确(原语标签是否成对、坐标是否合法)
- **质量奖励**: LLM 评判推理内容与答案是否一致
- **精确奖励**: 任务特定指标
- 计数任务:平滑指数衰减(不是二元对错,接近正确答案给部分奖励)
- 迷宫任务:因果探索进度 + 探索完整性 + 穿墙惩罚 + 路径有效性 + 答案正确性
这种奖励分解提供了密集且信息丰富的学习信号,比简单的"对/错"更适合强化学习。
---
## 三、架构:7056× 压缩不是砍预算,是换策略
### 3.1 系统结构
整体架构类似 LLaVA,但极度强调视觉 token 压缩:
```
图像输入 → DeepSeek-ViT → 视觉 token → 3×3 空间压缩 → 文本指令拼接 → DeepSeek V4-Flash LLM → CSA KV压缩 → 输出(含视觉原语)
```
**组件规格**:
| 组件 | 配置 |
|------|------|
| 语言骨架 | DeepSeek V4-Flash(284B 总参数,13B 激活参数,MoE) |
| 视觉编码器 | 自研 DeepSeek-ViT,支持任意分辨率输入 |
| 注意力机制 | CSA(Compressed Sparse Attention)+ HCA |
| 训练框架 | HAI-LLM,GRPO 强化学习 |
### 3.2 三级压缩链路
以 **756×756 图像**(571,536 像素)为例:
| 阶段 | 操作 | 输出数量 | 单步压缩比 |
|------|------|----------|-----------|
| 原始像素 | — | 571,536 | — |
| ViT 14×14 patch | 图像分块 | 2,916 token | 196× |
| 3×3 空间压缩 | 9个邻近 patch 沿通道合并为1个 | 324 token | 9× |
| CSA KV 压缩 | 压缩稀疏注意力进一步压缩 KV 缓存 | 81 KV entries | 4× |
| **端到端** | **像素 → KV cache** | **571,536 → 81** | **7,056×** |
**关键洞察**: 这不是简单的"砍 token"。传统思维认为更多视觉 token = 更好效果。DeepSeek 的策略是**用精确的指代能力替代冗余的视觉带宽**——就像人类不会用"从左数第237个像素的红色区域"来描述物体,而是直接说"左边那个穿红衣服的人"。
### 3.3 与前沿模型的对比
**800×800 同分辨率下各模型 KV cache 占用**:
| 模型 | 视觉 token 数 | KV cache 条目 |
|------|-------------|--------------|
| Gemini-3-Flash | ~1,100 | ~1,100 |
| Claude Sonnet 4.6 | ~870 | ~870 |
| GPT-5.4 | ~740 | ~740 |
| Qwen3-VL | ~660 | ~660 |
| **DeepSeek (Ours)** | **~361** | **~90** |
DeepSeek 的视觉 token 数量只有 Gemini 的 1/3,KV 缓存条目只有 1/10 左右。这意味着:
- **推理成本大幅降低**: 更少的 KV 缓存 = 更少的显存占用 = 更长的上下文窗口可用空间
- **速度提升**: 更少的 token 处理 = 更快的预填充和解码
- **质量不降反升**: 靠"指得更准"补偿"看得更少"
---
## 四、实验结果:在"最难的题"上拉开差距
论文在 **11 个基准测试**上评估,与 Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6、Gemma4-31B、Qwen3-VL-235B 对比(全部通过 API 统一 prompt 评估)。
### 4.1 计数任务
| 模型 | Pixmo-Count (精确匹配) | DS_Finegrained_Counting |
|------|----------------------|------------------------|
| DeepSeek | **89.2%** | **88.7%** |
| Gemini-3-Flash | 88.2% | — |
| Qwen3-VL | — | 87.2% |
| GPT-5.4 | 76.6% | — |
| Claude Sonnet 4.6 | 68.7% | — |
**解读**: 计数任务最能体现 Reference Gap。模型需要"指着数"才能不重复不遗漏。传统模型靠模糊描述数,容易漂移;DeepSeek 用 box 原语锁定每个已数过的对象。
### 4.2 空间推理
| 模型 | MIHBench | SpatialMQA |
|------|----------|------------|
| DeepSeek | **85.3%** | **69.4%** |
| 其他前沿模型 | 接近或略低 | 接近或略低 |
### 4.3 拓扑推理(最具代表性的差距)
| 模型 | DS_Maze_Navigation | DS_Path_Tracing |
|------|-------------------|-----------------|
| DeepSeek | **66.9%** | **56.7%** |
| GPT-5.4 | 50.6% | 46.5% |
| Gemini-3-Flash | 49.4% | 41.4% |
| Claude Sonnet 4.6 | 48.9% | — |
**关键差距**: 在迷宫导航和路径追踪任务上,所有前沿模型都只能答对约一半,而 DeepSeek 提升了约 **17 个百分点**。
> **论文诚实指出**: "所有前沿模型在拓扑推理任务上表现不佳,说明多模态大模型的推理能力仍有相当大的提升空间。"
**为什么拓扑推理如此困难**: 因为路径和轨迹是**时间序列上的空间指代**。模型不能说"往左再往右",而必须输出一串坐标点表示实际走过的路径。每一个中间点都是一个 Reference Gap,传统模型在每一步都可能漂移。
---
## 五、技术细节补充
### 5.1 视觉原语在推理链中的实际样例
**计数任务**:
```
扫描图片找熊。发现一只 <|ref|>bear<|/ref|><|box|>[[452,23,804,411]]<|/box|>。它正在爬树,不在地面上,排除。继续往左下方看,发现另一只 <|ref|>bear<|/ref|><|box|>[[50,447,647,771]]<|/box|> 站在岩石边缘,符合条件。
```
**路径追踪任务**:
```
从起点 <|point|>[[120,300]]<|/point|> 出发,沿曲线向右上方移动 <|point|>[[150,280],[180,260]]<|/point|>,在交叉点选择上方分支 <|point|>[[220,240]]<|/point|>,继续追踪至终点 <|point|>[[400,200]]<|/point|>。
```
### 5.2 压缩机制的技术背景
**3×3 空间压缩**: 把 ViT 输出的 9 个邻近 patch token 在**通道维度**上合并为 1 个。这不同于简单的下采样——它保留了局部空间关系的结构化信息。
**CSA(Compressed Sparse Attention)**: DeepSeek V4-Flash 内置的机制。核心思想是视觉 token 在 KV 缓存中的表示可以进一步压缩,因为邻近视觉区域的信息冗余度很高。压缩比 4× 意味着用 1/4 的 KV 条目存储等效的空间信息。
**从像素到 KV 的 7056× 压缩**:
- 571,536 像素 → 81 KV entries
- 这不是信息论上的无损压缩,而是**语义级别的有损压缩**
- 关键假设:精确的指代能力可以补偿压缩损失的信息
### 5.3 训练数据的构成
SFT 阶段的数据配比:
- 70% 通用多模态/纯文本数据(保持通用语言能力)
- 30% 视觉原语专用数据(学习指代能力)
这种配比避免了模型过度特化到视觉任务而丧失通用性。
---
## 六、论文的深层启示
### 6.1 "带宽"概念的重新理解
论文提出了两个关键能力轴:
- **感知带宽(Perception Bandwidth)**: 模型接收的视觉信息量(token 数量)
- **指代带宽(Reference Bandwidth)**: 模型在推理过程中建立和维持视觉-语言对应关系的能力
传统研究假设感知带宽是瓶颈。这篇论文证明:**当感知带宽受限时,提升指代带宽可以达到同等甚至更好的效果**。
这类似于通信系统中的"信噪比"——不是发射更多功率,而是用更聪明的编码方式在相同带宽内传输更多信息。
### 6.2 从"描述"到"操作"的范式转移
现有 VLMs 的核心能力是**描述**: 输入图像,输出文本描述。
这篇论文指向的是**操作**: 输入图像,输出可执行的空间指令(坐标、路径、区域)。
这解释了为什么论文特别强调 Agentic 场景(UI 自动化、文档处理、机器人控制)。在这些场景中,模型需要的不是"看懂",而是"能指"。
### 6.3 效率与能力的耦合设计
DeepSeek 的一贯风格是把**效率优化和能力提升耦合在一起**,而不是把它们当作独立的工程问题:
- V4-Flash 的 MoE 架构:用稀疏激活降低推理成本,同时提升容量
- 这篇论文的视觉压缩:用更少的 token 降低成本,同时用指代能力提升效果
- 蒸馏流程:用专家模型提升天花板,用蒸馏降低部署成本
**一条主线**: 先把"省 token"做到极致,再把省下来的预算塞进更贵的能力。
---
## 七、局限与未来方向
论文诚实指出的局限:
1. **拓扑推理仍有很大提升空间**: 即使 66.9% 的迷宫导航成绩也远未达到实用水平
2. **覆盖率 vs 精度的权衡**: DCI 式的精确指代覆盖率较低,需要与粗粒度检索结合
3. **多步误差的级联**: 视觉原语在多步推理中仍可能产生误差传播
4. **通用性未充分验证**: 主要在计数、空间、拓扑三类任务上验证,更广泛的视觉推理任务(如视觉问答、图像 captioning)的效果未报告
未来方向:
- 将视觉原语与外部工具(浏览器控制、代码执行)结合
- 探索更多类型的原语(如 segmentation mask、关键点的层次结构)
- 在视频时间序列上扩展 point 原语,实现跨帧追踪
---
## 八、结论
这篇论文的价值不在于发明了 bounding box 或坐标点——这些在计算机视觉里存在了三十年。它的价值在于**把这些空间标记从"输出格式"提升为"推理原语"**。
传统方法:模型先想清楚,最后输出坐标。
DeepSeek 方法:模型**用坐标想清楚**。
这个转变的核心认知是:
> **当推理涉及空间关系时,语言不是最优的思考媒介。坐标才是。**
就像人类在复杂空间任务中会用手指、笔、鼠标指针来辅助思考,AI 也需要自己的"赛博手指"。DeepSeek 给它装上了。
---
**参考论文**:
Li, Z., Zhang, H., Wei, C., et al. (2026). *Thinking with Visual Primitives*. DeepSeek-AI, Peking University, Tsinghua University. GitHub: https://github.com/deepseek-ai/Thinking-with-Visual-Primitives
#DeepSeek #视觉原语 #多模态 #VLM #ReferenceGap #感知与指代 #空间推理 #拓扑推理 #压缩稀疏注意力 #GRPO #强化学习 #论文解读 #人工智能 #智柴外脑
#论文解读 #DeepSeek #视觉原语 #多模态 #VLM #ReferenceGap #智柴外脑 #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力