光学推理:当图片成为比文字更高效的「思考纸张」
> 如果一张图能顶一千字,那一张精心设计的推理图能顶多少个CoT token?香港理工大学的团队把推理过程全部画成图,发现视觉token的效率是文本token的1.96倍,还能减少28.57%的token用量。这不是把文字变好看,是用像素替代文字做思考。
---
一、一个问题:为什么推理一定要用文字?
Chain-of-Thought (CoT) 让大语言模型学会"把思考过程写出来",显著提升了推理能力。多模态大模型(MLLM)出现后,CoT 扩展到多模态场景——模型可以交替输出文本推理和引用图像证据。
但这里有一个隐含的假设:推理的媒介必须是文字。无论是纯文本还是多模态交织,模型都在用一串一串的 token 来"思考"。
香港理工大学的 Yutong Bian 等人在 arXiv:2606.09585 中提出了一个更激进的问题:如果图片本身就是推理媒介呢? 不是把文字配个图,不是图+文交替,而是把推理过程全部画成一张图,让模型用视觉 token 来"读"和"想"。
他们把这个概念称为 Optical Reasoning(光学推理)——图像不只是输入或输出,而是推理过程本身的载体。
---
二、两种实现方案:排版派 vs 图形派
2.1 T-OR:排版型光学推理(Typographic-based Optical Reasoning)
核心思路:把文字推理过程渲染成一张高密度的图片。
不是简单截图,而是优化布局:
- 搜索最优文本宽度和字体大小
- 在保证可读性的前提下最大化画布利用率
- 把原本需要几十个文本 token 表达的推理步骤,压缩到一张图里的几行文字
2.2 G-OR:图形化光学推理(Graphical-based Optical Reasoning)
核心思路:把推理过程变成可视化的图形结构。
每个推理步骤分配到对应的面板:
- 文本和公式作为推理锚点保留
- 概念关系用图形结构表达
- 空间布局本身就承载信息
---
三、核心效果:1.96 倍的 token 效率
3.1 语言任务
| 指标 | 传统文本推理 | 光学推理 | 变化 |
|---|---|---|---|
| 推理 token 占用 | 基准 | -28.57% | 显著减少 |
| 精度 | 基准 | 下降 < 3% | 损失极小 |
| 部分场景 | 基准 | 超过纯文本 | 意外提升 |
3.2 多模态任务
| 指标 | 结果 |
|---|---|
| 推理 token 减少 | 16% |
| 精度损失 | 极小 |
3.3 token 效率定义
论文定义视觉推理 token 效率为文本推理 token 的 1.96 倍——这意味着同样的信息量,用视觉 token 表达只需要约一半的数量。
为什么?
- 一个文本 token 只编码一个语义单元(如一个词或子词)
- 一个视觉 token(如 ViT 的 patch)可以编码一大片空间信息(多个字符、公式、甚至图形关系)
- 在密集排版或图形化场景下,视觉 token 的"信息密度"天然更高
四、实验验证:5 个基准 × 5 个模型
4.1 测试基准
| 类别 | 基准 |
|---|---|
| 数学推理 | 数学推理数据集 |
| 科学推理 | 科学推理数据集 |
| 交叉模态推理 | 多模态推理数据集 |
| 总计 | 5 个基准测试 |
4.2 测试模型
在 5 个前沿多模态大模型上验证:
- 覆盖主流 MLLM 架构
- 包含不同规模的模型
- 验证方法论的普适性
4.3 T-OR 的关键结果
T-OR 在压缩 20%+ token 的同时,精度仅下降不到 3 个百分点,部分场景精度还超过纯文本推理。
这意味着: 1. 压缩不是"偷工减料"——信息被高效编码,没有显著损失 2. 在某些任务上,视觉表达可能比纯文本更"对齐"模型的认知方式 3. 对于长推理上下文,token 减少直接缓解显存压力
---
五、为什么图片能成为推理媒介?
5.1 空间并行性
文本是线性的:token 1 → token 2 → token 3。即使注意力机制允许"跳读",序列结构仍然限制了信息的并行呈现。
图片是二维的:你可以在一张图里同时看到前提、推导、结论——空间位置本身就编码了关系。人眼看公式推导时,视线会自然跳跃,而不是逐字阅读。
5.2 图形即语义
在 G-OR 中,箭头、框图、空间分组本身就是语义的一部分。模型不需要用 "therefore"、"because" 这样的连接词来表达因果关系——一个箭头就够了。
这和人类数学家的工作方式一致:黑板上的推导不是纯文本,是图文混合的。 Optical Reasoning 把这种方式形式化了。
5.3 视觉 token 的"压缩比"
以 T-OR 为例:假设一个推理步骤需要 10 个文本 token(约 40-50 个字符)。在优化排版下,这些字符可以压缩到视觉 patch 的一个小块里。如果 ViT 用 16×16 的 patch,一张 512×512 的图可以容纳约 1000 个 patch——每个 patch 可以编码一大段文字。
---
六、局限与挑战
论文没有深入讨论,但我们可以预见几个挑战:
6.1 可读性 vs 密度的权衡
T-OR 优化排版来最大化密度,但字体太小可能影响模型(和人类)的阅读准确性。存在一个最优密度点,超过后精度下降。
6.2 图形理解的瓶颈
G-OR 依赖模型理解图形结构(箭头、框、空间关系)。如果 MLLM 的视觉编码器在图形理解上不强,G-OR 的优势可能无法发挥。
6.3 可编辑性
文本 CoT 可以逐 token 修改、调试、追踪。图片形式的推理是"黑盒"——难以定位哪一步出了问题,也难以做增量修正。
6.4 生成成本
虽然推理 token 减少了,但渲染图片需要额外的计算(排版引擎或图形工具)。这个开销在整体延迟中占比如何?
6.5 适用任务范围
光学推理对数学、科学推理效果好,但对于需要精确符号操作的推理(如代码生成、形式化证明),视觉编码可能不如文本精确。
---
七、意义:推理媒介的范式转移
这篇论文的真正价值不在于"省了 28% 的 token"——这是一个数字,但不是全部。
它的意义在于:证明了推理不必是线性的、文本的、序列的。
人类数学家用黑板、白板、草稿纸思考——这些媒介不是装饰,是认知工具。Optical Reasoning 把这个洞见搬进了大模型:如果图片是人类更自然的推理媒介,那它也应该成为模型更高效的推理媒介。
未来方向:
- 更复杂的图形结构(流程图、网络图、拓扑图)
- 动态推理(多帧图片表达时间序列推理)
- 混合媒介(某些步骤用文本,某些步骤用图,自适应选择)
- 专用视觉编码器(针对排版和图形优化 patch 化策略)
八、结语:一千字 vs 一张图
> "A picture is worth a thousand words." > 但在大模型的 token 世界里,一张图可能只值 500 个 token——而且信息更完整。
Optical Reasoning 不是让推理"变好看",而是让推理更高效。它用像素替代文字做思考,用空间替代序列做组织,用图形替代连接词做逻辑。
当 CoT 的文本越来越长,当上下文窗口越来越满,也许我们需要的不是更大的模型,而是更聪明的媒介。
---
参考
- 论文:Bian et al., "Optical Reasoning: Rethinking Images as an Expressive Reasoning Medium Beyond Text", arXiv:2606.09585 (2026)
- 机构:The Hong Kong Polytechnic University
- 两种变体:T-OR(排版型), G-OR(图形化型)
- 验证:5 个基准,5 个前沿 MLLM
- 核心效果:1.96 倍 token 效率,-28.57% token(语言),-16%(多模态)
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens