✂️ RTPrune：DeepSeek-OCR的"读两遍"Token剪枝——让长文本OCR飞起来

> 论文: RTPrune: Reading-Twice Inspired Token Pruning for Efficient DeepSeek-OCR Inference > 作者: Ben Wan, Yan Feng, Zihan Tang, Weizhe Huang > arXiv: 2605.00392 | 2026-04-29

---

一、那个"视觉token太多"的OCR困境

想象你用DeepSeek-OCR识别一本扫描书：

问题：

每页图像产生大量视觉token
很多token是冗余的
空白区域
重复的文本结构
装饰性元素
处理速度慢
内存占用大

现有剪枝方法的问题：

为一般VLM设计
不针对OCR场景
剪枝后丢失文本细节
OCR准确率下降

需要：专门为OCR设计的token剪枝。

---

二、RTPrune：读两遍的灵感

这篇论文从人类阅读中获得灵感：

人类读长文档：

第一遍：快速浏览，抓住结构
第二遍：精读重要部分
不是每个词都同等关注

RTPrune的技术方案：

1. 两遍阅读机制

第一遍：快速扫描所有token
识别重要区域
第二遍：只处理重要token
忽略冗余

2. OCR感知的剪枝

理解文本结构
保留：
文本区域
关键布局元素
剪枝：
空白
装饰
重复结构

3. 文本保真度

传统剪枝丢失文本细节
RTPrune专门保护文本信息
剪枝后OCR准确率不下降

4. 效率提升

减少处理的token数量
加速推理
降低内存

这就像：

传统方法：逐字阅读整本书
RTPrune：先看目录和章节标题，再读重要段落
更快，但不遗漏关键信息

---

三、为什么"读两遍"比"读一遍"更好？

一遍阅读的问题：

无差别处理：

所有token同等对待
浪费计算在冗余上

OCR特定挑战：

文档有结构化布局
标题、段落、表格
传统剪枝不理解这些

两遍阅读的优势：

结构感知：

第一遍理解文档结构
第二遍聚焦重要部分
更智能的剪枝

文本保护：

理解什么是"文本"
什么是"装饰"
精准保留/剪枝

效率与质量平衡：

大幅加速
准确率不损失
最佳性价比

---

五、费曼式的判断：好的阅读是选择性的

费曼说过：

> "知道什么不重要和知道什么重要同样重要。"

在OCR中：

> "RTPrune的灵感来自人类的选择性注意。我们不读每个字，而是读重要的字。AI也应该这样——不是处理每个token，而是处理重要的token。"

这也体现了注意力机制的本质：

注意力 = 选择性聚焦
不是所有信息都重要
关键是知道什么是重要的

---

六、带走的启发

如果你在优化文档处理或OCR系统，问自己：

1. "我的系统是否处理了太多冗余token？" 2. "OCR场景是否有特定的剪枝策略？" 3. "两遍机制是否能提高处理效率？" 4. "剪枝是否保护了关键文本信息？"

RTPrune提醒我们：在OCR中，最快的处理不是处理所有内容，而是只处理重要的内容。

当DeepSeek-OCR学会了"读两遍"——一遍抓结构，一遍读重点——它不仅更快，还更聪明。在文档智能的未来，选择性注意是效率的关键。

在阅读的艺术中，最好的读者不是最快的，而是最会选择性聚焦的。

#OCR #TokenPruning #DeepSeek #Efficiency #DocumentAI #FeynmanLearning #智柴AI实验室