光学推理：当图片成为比文字更高效的「思考纸张」

> 如果一张图能顶一千字，那一张精心设计的推理图能顶多少个CoT token？香港理工大学的团队把推理过程全部画成图，发现视觉token的效率是文本token的1.96倍，还能减少28.57%的token用量。这不是把文字变好看，是用像素替代文字做思考。

---

一、一个问题：为什么推理一定要用文字？

Chain-of-Thought (CoT) 让大语言模型学会"把思考过程写出来"，显著提升了推理能力。多模态大模型（MLLM）出现后，CoT 扩展到多模态场景——模型可以交替输出文本推理和引用图像证据。

但这里有一个隐含的假设：推理的媒介必须是文字。无论是纯文本还是多模态交织，模型都在用一串一串的 token 来"思考"。

香港理工大学的 Yutong Bian 等人在 arXiv:2606.09585 中提出了一个更激进的问题：如果图片本身就是推理媒介呢？ 不是把文字配个图，不是图+文交替，而是把推理过程全部画成一张图，让模型用视觉 token 来"读"和"想"。

他们把这个概念称为 Optical Reasoning（光学推理）——图像不只是输入或输出，而是推理过程本身的载体。

---

二、两种实现方案：排版派 vs 图形派

2.1 T-OR：排版型光学推理（Typographic-based Optical Reasoning）

核心思路：把文字推理过程渲染成一张高密度的图片。

不是简单截图，而是优化布局：

搜索最优文本宽度和字体大小
在保证可读性的前提下最大化画布利用率
把原本需要几十个文本 token 表达的推理步骤，压缩到一张图里的几行文字

这就像把散落的便利贴贴成一张紧凑的思维导图——信息密度更高，但仍然是线性的文字阅读。

2.2 G-OR：图形化光学推理（Graphical-based Optical Reasoning）

核心思路：把推理过程变成可视化的图形结构。

每个推理步骤分配到对应的面板：

文本和公式作为推理锚点保留
概念关系用图形结构表达
空间布局本身就承载信息

这不是"把文字放进图里"，而是让空间位置和图形关系成为推理的一部分。就像数学家在黑板上推导公式时，箭头和框图本身就是推理逻辑。

---

三、核心效果：1.96 倍的 token 效率

3.1 语言任务

指标	传统文本推理	光学推理	变化
推理 token 占用	基准	-28.57%	显著减少
精度	基准	下降 < 3%	损失极小
部分场景	基准	超过纯文本	意外提升

关键发现：在部分场景中，光学推理的精度超过纯文本推理。这意味着图片不只是更高效的压缩，在某些情况下可能是更好的表达媒介。

3.2 多模态任务

指标	结果
推理 token 减少	16%
精度损失	极小

多模态任务本身已经有视觉输入，光学推理的增益相对较小（16% vs 28.57%），因为文本 token 占比本来就更低。

3.3 token 效率定义

论文定义视觉推理 token 效率为文本推理 token 的 1.96 倍——这意味着同样的信息量，用视觉 token 表达只需要约一半的数量。

为什么？

一个文本 token 只编码一个语义单元（如一个词或子词）
一个视觉 token（如 ViT 的 patch）可以编码一大片空间信息（多个字符、公式、甚至图形关系）
在密集排版或图形化场景下，视觉 token 的"信息密度"天然更高

---

四、实验验证：5 个基准 × 5 个模型

4.1 测试基准

类别	基准
数学推理	数学推理数据集
科学推理	科学推理数据集
交叉模态推理	多模态推理数据集
总计	5 个基准测试

4.2 测试模型

在 5 个前沿多模态大模型上验证：

覆盖主流 MLLM 架构
包含不同规模的模型
验证方法论的普适性

4.3 T-OR 的关键结果

T-OR 在压缩 20%+ token 的同时，精度仅下降不到 3 个百分点，部分场景精度还超过纯文本推理。

这意味着： 1. 压缩不是"偷工减料"——信息被高效编码，没有显著损失 2. 在某些任务上，视觉表达可能比纯文本更"对齐"模型的认知方式 3. 对于长推理上下文，token 减少直接缓解显存压力

---

五、为什么图片能成为推理媒介？

5.1 空间并行性

文本是线性的：token 1 → token 2 → token 3。即使注意力机制允许"跳读"，序列结构仍然限制了信息的并行呈现。

图片是二维的：你可以在一张图里同时看到前提、推导、结论——空间位置本身就编码了关系。人眼看公式推导时，视线会自然跳跃，而不是逐字阅读。

5.2 图形即语义

在 G-OR 中，箭头、框图、空间分组本身就是语义的一部分。模型不需要用 "therefore"、"because" 这样的连接词来表达因果关系——一个箭头就够了。

这和人类数学家的工作方式一致：黑板上的推导不是纯文本，是图文混合的。 Optical Reasoning 把这种方式形式化了。

5.3 视觉 token 的"压缩比"

以 T-OR 为例：假设一个推理步骤需要 10 个文本 token（约 40-50 个字符）。在优化排版下，这些字符可以压缩到视觉 patch 的一个小块里。如果 ViT 用 16×16 的 patch，一张 512×512 的图可以容纳约 1000 个 patch——每个 patch 可以编码一大段文字。

---

六、局限与挑战

论文没有深入讨论，但我们可以预见几个挑战：

6.1 可读性 vs 密度的权衡

T-OR 优化排版来最大化密度，但字体太小可能影响模型（和人类）的阅读准确性。存在一个最优密度点，超过后精度下降。

6.2 图形理解的瓶颈

G-OR 依赖模型理解图形结构（箭头、框、空间关系）。如果 MLLM 的视觉编码器在图形理解上不强，G-OR 的优势可能无法发挥。

6.3 可编辑性

文本 CoT 可以逐 token 修改、调试、追踪。图片形式的推理是"黑盒"——难以定位哪一步出了问题，也难以做增量修正。

6.4 生成成本

虽然推理 token 减少了，但渲染图片需要额外的计算（排版引擎或图形工具）。这个开销在整体延迟中占比如何？

6.5 适用任务范围

光学推理对数学、科学推理效果好，但对于需要精确符号操作的推理（如代码生成、形式化证明），视觉编码可能不如文本精确。

---

七、意义：推理媒介的范式转移

这篇论文的真正价值不在于"省了 28% 的 token"——这是一个数字，但不是全部。

它的意义在于：证明了推理不必是线性的、文本的、序列的。

人类数学家用黑板、白板、草稿纸思考——这些媒介不是装饰，是认知工具。Optical Reasoning 把这个洞见搬进了大模型：如果图片是人类更自然的推理媒介，那它也应该成为模型更高效的推理媒介。

未来方向：

更复杂的图形结构（流程图、网络图、拓扑图）
动态推理（多帧图片表达时间序列推理）
混合媒介（某些步骤用文本，某些步骤用图，自适应选择）
专用视觉编码器（针对排版和图形优化 patch 化策略）

---

八、结语：一千字 vs 一张图

> "A picture is worth a thousand words." > 但在大模型的 token 世界里，一张图可能只值 500 个 token——而且信息更完整。

Optical Reasoning 不是让推理"变好看"，而是让推理更高效。它用像素替代文字做思考，用空间替代序列做组织，用图形替代连接词做逻辑。

当 CoT 的文本越来越长，当上下文窗口越来越满，也许我们需要的不是更大的模型，而是更聪明的媒介。

---

参考

论文：Bian et al., "Optical Reasoning: Rethinking Images as an Expressive Reasoning Medium Beyond Text", arXiv:2606.09585 (2026)
机构：The Hong Kong Polytechnic University
两种变体：T-OR（排版型）, G-OR（图形化型）
验证：5 个基准，5 个前沿 MLLM
核心效果：1.96 倍 token 效率，-28.57% token（语言），-16%（多模态）

#光学推理 #多模态推理 #CoT #视觉推理 #大模型推理 #MLLM #token效率 #香港理工大学