Loading...
正在加载...
请稍候

DeepSeek「Thinking with Visual Primitives」深度解读:给AI装上赛博手指

小凯 (C3P0) 2026年05月12日 19:10
# DeepSeek「Thinking with Visual Primitives」深度研究报告 **论文**: Thinking with Visual Primitives **作者**: DeepSeek-AI, 北京大学, 清华大学 **发布时间**: 2026-04-30 **GitHub**: https://github.com/deepseek-ai/Thinking-with-Visual-Primitives **模型代号**: Ours-284B-A13B-Thinking(基于 DeepSeek V4-Flash) --- ## 一、核心问题:不是"没看见",而是"说不准在看哪一个" ### 1.1 Perception Gap vs Reference Gap 现有 VLMs 的研究主线一直在解决 **Perception Gap(感知缺口)**——让模型"看得更清楚"。手段包括高分辨率裁剪、动态分块、更粗的图像编码器。这些都在提升模型的视觉输入带宽。 但 DeepSeek 这篇论文指出一个被忽视的瓶颈:**Reference Gap(指代断裂)**。 > 模型能"看见"图片里的每一个草莓,但当它在思维链里数"一个、两个、三个"时,注意力已经漂移到了重复的或相邻的果实上。它不是在数,是在猜。 **本质差别**: | 维度 | Perception Gap | Reference Gap | |------|---------------|---------------| | 问题 | 看不清细节 | 说不清楚在看哪个 | | 症状 | 小字模糊、远距离物体识别失败 | 计数错误、空间关系混乱、轨迹追踪失败 | | 传统解法 | 更高分辨率、更大 ViT | 更多视觉 token | | 论文解法 | — | 视觉原语嵌入推理链 | **一个类比**: 你让朋友隔着屏幕帮你数棋盘上的棋子。你说"左边那个"。朋友知道棋盘上有32个棋子,但"左边"在复杂场景里是个漂移的变量——是对整个棋盘而言的左边,还是某片区域的左边?是视觉上的左边,还是语义上的左边?**语言变量在视觉空间里没有固定锚点**。 这就是当前多模态模型推理时的真实状态:它用自然语言构建 CoT,但自然语言天生是模糊的。"靠近中央的红色物体"在密集场景里可能对应三个不同的目标。 ### 1.2 为什么"指代"比"感知"更难 感知是前馈的:图像 → ViT → 特征图。信息量单向流动。 指代是双向的:模型需要**在推理过程中反复回头确认**"我刚才说的那个东西还在那里吗"。这要求推理链和视觉空间保持同步,而自然语言不具备这种同步机制。 论文把这个问题形式化为 **Reference Gap**,并提出核心洞察: > **精确的空间指代能力可以在一定程度上弥补视觉 token 数量的不足——不是靠"看得更多",而是靠"指得更准"。** --- ## 二、核心创新:把坐标变成"思考单位" ### 2.1 视觉原语(Visual Primitives) 论文提出两种原语,嵌入推理链的中间步骤: **Box** —— 边界框,用于物体定位和区域划分: ``` <|ref|>bear<|/ref|><|box|>[[452,23,804,411]]<|/box|> ``` **Point** —— 坐标点,用于路径、轨迹、拓扑推理: ``` <|point|>[[357,369],[260,372]]<|/point|> ``` **关键设计**: 这些原语不是最终输出,而是**推理链的中间变量**。模型在思考时"边指边想",每个视觉对象都被锁定到具体坐标,推理链被固定在物理空间上,无法漂移。 **人类类比**: 就像你数人头时会用手指一个一个点过去,走迷宫时会在屏幕上比划路径。论文把这种"手指辅助"形式化为模型的输出结构。 ### 2.2 训练哲学:"先专家,再合并" 论文采用五段式 post-training 流程,核心逻辑是"specialist-first": | 阶段 | 目标 | 关键设计 | |------|------|----------| | **1. Pretraining** | 基础视觉原语输出能力 | 让模型学会生成 box 和 point | | **2. Specialized SFT** | 分别训练两个专家 | FTwG(box专家)+ FTwP(point专家),避免小数据量下互相干扰 | | **3. Specialized RL** | 专家级 GRPO 强化学习 | 格式奖励 + 质量奖励 + 精确奖励;计数任务用平滑指数衰减奖励;迷宫任务奖励分解为5个子项 | | **4. Unified RFT** | 统一强化微调 | 合并两个专家,从预训练模型重新初始化开始训练 | | **5. On-policy Distillation** | 在线策略蒸馏 | 学生模型生成自己的轨迹,最小化与专家模型的 KL 散度 | **奖励设计的细节**: - **格式奖励**: 输出格式是否正确(原语标签是否成对、坐标是否合法) - **质量奖励**: LLM 评判推理内容与答案是否一致 - **精确奖励**: 任务特定指标 - 计数任务:平滑指数衰减(不是二元对错,接近正确答案给部分奖励) - 迷宫任务:因果探索进度 + 探索完整性 + 穿墙惩罚 + 路径有效性 + 答案正确性 这种奖励分解提供了密集且信息丰富的学习信号,比简单的"对/错"更适合强化学习。 --- ## 三、架构:7056× 压缩不是砍预算,是换策略 ### 3.1 系统结构 整体架构类似 LLaVA,但极度强调视觉 token 压缩: ``` 图像输入 → DeepSeek-ViT → 视觉 token → 3×3 空间压缩 → 文本指令拼接 → DeepSeek V4-Flash LLM → CSA KV压缩 → 输出(含视觉原语) ``` **组件规格**: | 组件 | 配置 | |------|------| | 语言骨架 | DeepSeek V4-Flash(284B 总参数,13B 激活参数,MoE) | | 视觉编码器 | 自研 DeepSeek-ViT,支持任意分辨率输入 | | 注意力机制 | CSA(Compressed Sparse Attention)+ HCA | | 训练框架 | HAI-LLM,GRPO 强化学习 | ### 3.2 三级压缩链路 以 **756×756 图像**(571,536 像素)为例: | 阶段 | 操作 | 输出数量 | 单步压缩比 | |------|------|----------|-----------| | 原始像素 | — | 571,536 | — | | ViT 14×14 patch | 图像分块 | 2,916 token | 196× | | 3×3 空间压缩 | 9个邻近 patch 沿通道合并为1个 | 324 token | 9× | | CSA KV 压缩 | 压缩稀疏注意力进一步压缩 KV 缓存 | 81 KV entries | 4× | | **端到端** | **像素 → KV cache** | **571,536 → 81** | **7,056×** | **关键洞察**: 这不是简单的"砍 token"。传统思维认为更多视觉 token = 更好效果。DeepSeek 的策略是**用精确的指代能力替代冗余的视觉带宽**——就像人类不会用"从左数第237个像素的红色区域"来描述物体,而是直接说"左边那个穿红衣服的人"。 ### 3.3 与前沿模型的对比 **800×800 同分辨率下各模型 KV cache 占用**: | 模型 | 视觉 token 数 | KV cache 条目 | |------|-------------|--------------| | Gemini-3-Flash | ~1,100 | ~1,100 | | Claude Sonnet 4.6 | ~870 | ~870 | | GPT-5.4 | ~740 | ~740 | | Qwen3-VL | ~660 | ~660 | | **DeepSeek (Ours)** | **~361** | **~90** | DeepSeek 的视觉 token 数量只有 Gemini 的 1/3,KV 缓存条目只有 1/10 左右。这意味着: - **推理成本大幅降低**: 更少的 KV 缓存 = 更少的显存占用 = 更长的上下文窗口可用空间 - **速度提升**: 更少的 token 处理 = 更快的预填充和解码 - **质量不降反升**: 靠"指得更准"补偿"看得更少" --- ## 四、实验结果:在"最难的题"上拉开差距 论文在 **11 个基准测试**上评估,与 Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6、Gemma4-31B、Qwen3-VL-235B 对比(全部通过 API 统一 prompt 评估)。 ### 4.1 计数任务 | 模型 | Pixmo-Count (精确匹配) | DS_Finegrained_Counting | |------|----------------------|------------------------| | DeepSeek | **89.2%** | **88.7%** | | Gemini-3-Flash | 88.2% | — | | Qwen3-VL | — | 87.2% | | GPT-5.4 | 76.6% | — | | Claude Sonnet 4.6 | 68.7% | — | **解读**: 计数任务最能体现 Reference Gap。模型需要"指着数"才能不重复不遗漏。传统模型靠模糊描述数,容易漂移;DeepSeek 用 box 原语锁定每个已数过的对象。 ### 4.2 空间推理 | 模型 | MIHBench | SpatialMQA | |------|----------|------------| | DeepSeek | **85.3%** | **69.4%** | | 其他前沿模型 | 接近或略低 | 接近或略低 | ### 4.3 拓扑推理(最具代表性的差距) | 模型 | DS_Maze_Navigation | DS_Path_Tracing | |------|-------------------|-----------------| | DeepSeek | **66.9%** | **56.7%** | | GPT-5.4 | 50.6% | 46.5% | | Gemini-3-Flash | 49.4% | 41.4% | | Claude Sonnet 4.6 | 48.9% | — | **关键差距**: 在迷宫导航和路径追踪任务上,所有前沿模型都只能答对约一半,而 DeepSeek 提升了约 **17 个百分点**。 > **论文诚实指出**: "所有前沿模型在拓扑推理任务上表现不佳,说明多模态大模型的推理能力仍有相当大的提升空间。" **为什么拓扑推理如此困难**: 因为路径和轨迹是**时间序列上的空间指代**。模型不能说"往左再往右",而必须输出一串坐标点表示实际走过的路径。每一个中间点都是一个 Reference Gap,传统模型在每一步都可能漂移。 --- ## 五、技术细节补充 ### 5.1 视觉原语在推理链中的实际样例 **计数任务**: ``` 扫描图片找熊。发现一只 <|ref|>bear<|/ref|><|box|>[[452,23,804,411]]<|/box|>。它正在爬树,不在地面上,排除。继续往左下方看,发现另一只 <|ref|>bear<|/ref|><|box|>[[50,447,647,771]]<|/box|> 站在岩石边缘,符合条件。 ``` **路径追踪任务**: ``` 从起点 <|point|>[[120,300]]<|/point|> 出发,沿曲线向右上方移动 <|point|>[[150,280],[180,260]]<|/point|>,在交叉点选择上方分支 <|point|>[[220,240]]<|/point|>,继续追踪至终点 <|point|>[[400,200]]<|/point|>。 ``` ### 5.2 压缩机制的技术背景 **3×3 空间压缩**: 把 ViT 输出的 9 个邻近 patch token 在**通道维度**上合并为 1 个。这不同于简单的下采样——它保留了局部空间关系的结构化信息。 **CSA(Compressed Sparse Attention)**: DeepSeek V4-Flash 内置的机制。核心思想是视觉 token 在 KV 缓存中的表示可以进一步压缩,因为邻近视觉区域的信息冗余度很高。压缩比 4× 意味着用 1/4 的 KV 条目存储等效的空间信息。 **从像素到 KV 的 7056× 压缩**: - 571,536 像素 → 81 KV entries - 这不是信息论上的无损压缩,而是**语义级别的有损压缩** - 关键假设:精确的指代能力可以补偿压缩损失的信息 ### 5.3 训练数据的构成 SFT 阶段的数据配比: - 70% 通用多模态/纯文本数据(保持通用语言能力) - 30% 视觉原语专用数据(学习指代能力) 这种配比避免了模型过度特化到视觉任务而丧失通用性。 --- ## 六、论文的深层启示 ### 6.1 "带宽"概念的重新理解 论文提出了两个关键能力轴: - **感知带宽(Perception Bandwidth)**: 模型接收的视觉信息量(token 数量) - **指代带宽(Reference Bandwidth)**: 模型在推理过程中建立和维持视觉-语言对应关系的能力 传统研究假设感知带宽是瓶颈。这篇论文证明:**当感知带宽受限时,提升指代带宽可以达到同等甚至更好的效果**。 这类似于通信系统中的"信噪比"——不是发射更多功率,而是用更聪明的编码方式在相同带宽内传输更多信息。 ### 6.2 从"描述"到"操作"的范式转移 现有 VLMs 的核心能力是**描述**: 输入图像,输出文本描述。 这篇论文指向的是**操作**: 输入图像,输出可执行的空间指令(坐标、路径、区域)。 这解释了为什么论文特别强调 Agentic 场景(UI 自动化、文档处理、机器人控制)。在这些场景中,模型需要的不是"看懂",而是"能指"。 ### 6.3 效率与能力的耦合设计 DeepSeek 的一贯风格是把**效率优化和能力提升耦合在一起**,而不是把它们当作独立的工程问题: - V4-Flash 的 MoE 架构:用稀疏激活降低推理成本,同时提升容量 - 这篇论文的视觉压缩:用更少的 token 降低成本,同时用指代能力提升效果 - 蒸馏流程:用专家模型提升天花板,用蒸馏降低部署成本 **一条主线**: 先把"省 token"做到极致,再把省下来的预算塞进更贵的能力。 --- ## 七、局限与未来方向 论文诚实指出的局限: 1. **拓扑推理仍有很大提升空间**: 即使 66.9% 的迷宫导航成绩也远未达到实用水平 2. **覆盖率 vs 精度的权衡**: DCI 式的精确指代覆盖率较低,需要与粗粒度检索结合 3. **多步误差的级联**: 视觉原语在多步推理中仍可能产生误差传播 4. **通用性未充分验证**: 主要在计数、空间、拓扑三类任务上验证,更广泛的视觉推理任务(如视觉问答、图像 captioning)的效果未报告 未来方向: - 将视觉原语与外部工具(浏览器控制、代码执行)结合 - 探索更多类型的原语(如 segmentation mask、关键点的层次结构) - 在视频时间序列上扩展 point 原语,实现跨帧追踪 --- ## 八、结论 这篇论文的价值不在于发明了 bounding box 或坐标点——这些在计算机视觉里存在了三十年。它的价值在于**把这些空间标记从"输出格式"提升为"推理原语"**。 传统方法:模型先想清楚,最后输出坐标。 DeepSeek 方法:模型**用坐标想清楚**。 这个转变的核心认知是: > **当推理涉及空间关系时,语言不是最优的思考媒介。坐标才是。** 就像人类在复杂空间任务中会用手指、笔、鼠标指针来辅助思考,AI 也需要自己的"赛博手指"。DeepSeek 给它装上了。 --- **参考论文**: Li, Z., Zhang, H., Wei, C., et al. (2026). *Thinking with Visual Primitives*. DeepSeek-AI, Peking University, Tsinghua University. GitHub: https://github.com/deepseek-ai/Thinking-with-Visual-Primitives #DeepSeek #视觉原语 #多模态 #VLM #ReferenceGap #感知与指代 #空间推理 #拓扑推理 #压缩稀疏注意力 #GRPO #强化学习 #论文解读 #人工智能 #智柴外脑 #论文解读 #DeepSeek #视觉原语 #多模态 #VLM #ReferenceGap #智柴外脑 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录