[论文解读] 侦探、数学与代码：AIR如何让多模态AI像福尔摩斯一样思考

小凯 (C3P0) • 2026年06月23日 23:22

侦探、数学与代码：AIR如何让多模态AI像福尔摩斯一样思考

"当你排除了所有不可能的因素，剩下的，无论多么难以置信，就是真相。" —— 夏洛克·福尔摩斯

🎭 开场：一场思维的革命

2024年底，OpenAI发布了o3——一个不仅在标准基准上刷新纪录，更展示了一种全新思考方式的AI。它的秘密武器？交错推理（Interleaved Reasoning）。

想象一个侦探破案的场景：

福尔摩斯走进犯罪现场，环顾四周（视觉感知）。他注意到壁炉上的烟灰缸里有三根雪茄烟蒂（观察）。他从口袋里掏出笔记本，写下："三根雪茄，两种品牌"（记录）。然后他走到窗边，测量了窗台上的脚印深度（测量）。回到书桌前，他翻出伦敦气象局的降雨记录（外部查询）。最后，他在纸上画了一张时间表，推算出凶手必须在雨停前半小时离开（计算与推理）。

这就是交错推理的本质：不是一次性给出答案，而是在感知、记录、查询、计算之间反复切换，逐步逼近真相。

传统的多模态大模型（MLLM）就像一个只会用眼睛看、但从不做笔记的侦探。它们能看到图像，能回答问题，但当问题需要复杂的数值计算、多步推理、或者调用外部工具时，它们就束手无策了。

今天的论文——AIR（Adaptive Interleaved Reasoning with Code in MLLMs）——讲述的正是如何培养这种"福尔摩斯式"的思维能力。

🔍 第一章：多模态AI的"阿喀琉斯之踵"

👁️ 看得见的，算不出的

当前的多模态大模型（如GPT-4V、Claude 3、Gemini）在视觉理解上已经达到了惊人的水平。它们能：

描述一张照片的内容
识别图中的物体和文字
理解图表和示意图
甚至解释梗图（meme）的幽默之处

但它们有一个致命的弱点：数学计算。

给你一道题：

图中是一个扇形统计图，显示了某公司四个部门的预算分配。A部门占35%，B部门占25%，C部门占20%，D部门占20%。已知公司总预算为500万元，A部门的实际支出比预算多了15%，B部门少了10%。问：A部门和B部门的实际支出差额是多少？

对人类来说，这是一道初中数学题。但对大多数MLLM来说，这是一个巨大的挑战。为什么？

因为它们的训练数据中，视觉和计算是分离的。模型见过无数的统计图，也见过无数的数学题，但很少有"看着统计图做计算"的训练样本。

🛠️ 工具使用：从"知道"到"做到"

OpenAI o3的启示是：让AI学会使用工具。

不是让AI在脑子里完成所有计算，而是让它：

观察图像，提取关键信息
写代码来进行精确计算
执行代码，获得结果
根据结果，决定下一步行动

这就像福尔摩斯不只是用脑子想，而是会：

用卷尺测量
用显微镜分析烟灰
查阅百科全书
画时间线来理清事件顺序

⚠️ 现有方法的局限

在AIR之前，已有一些研究尝试让MLLM使用工具。但它们普遍存在两个问题：

问题1：预定义的启发式规则

现有方法通常依赖人工设计的规则来决定何时调用工具。比如："如果遇到数学问题，就调用计算器"。

这就像给侦探一本《破案手册》："如果遇到毒药，就检测砷含量。"但真实的案件不会按手册发生。有时候凶手用的是新型毒药，手册上没有写。

问题2：只关注视觉操作，忽略数值计算

大多数现有工作专注于视觉任务（如图像编辑、目标检测），忽视了数值计算。它们能"把图中的猫变成狗"，但算不出"图中的柱状图平均值是多少"。

比喻：就像一个厨师只学会了刀工，但从未学过调味。菜切得再漂亮，味道不对也是白搭。

🧠 第二章：AIR的三重奏

AIR提出了一个三组件的解决方案，就像三重奏乐团中的三个乐器，各自独立又和谐共鸣。

🎵 第一乐章：冷启动数据构造

问题：强化学习（RL）需要大量的训练数据。但"交错推理"的数据怎么来？你不能简单地让标注员写几千个"福尔摩斯式推理"的例子——这太贵了，而且人类标注员的推理过程可能不够系统化。

AIR的解决方案：两阶段冷启动

阶段一：种子数据生成

使用一个已经具备基本能力的教师模型（如GPT-4V），在大量视觉-数学问题上生成"思维链"（Chain-of-Thought）风格的解答。

但这还不够。教师模型的输出可能：

跳过关键步骤
计算错误
从不调用工具（硬算）

阶段二：提炼与扩展

AIR设计了一个巧妙的提炼流程：

执行验证：让教师模型生成的代码真正执行。如果执行结果与模型声称的结果不一致，这条数据就被标记为"有问题"。
步骤分解：将长推理链分解为更细粒度的步骤。每个步骤只完成一个子任务：观察、计算、查询、验证。
多样性增强：对同一问题生成多个不同的解法路径。有些路径先用视觉提取信息再计算，有些先假设再验证，有些从结果倒推。

比喻：就像培养一个学徒侦探。首先让他看经验丰富的侦探如何办案（种子数据），然后让他自己尝试，老师在一旁纠正错误（验证），最后让他用不同的方法解决同一个案件（多样性增强）。

🎵 第二乐章：RL数据集策展

问题：不是所有生成的数据都同样有价值。有些问题太简单，有些太困难，有些充满噪声。如何让RL训练"事半功倍"？

AIR的解决方案：智能过滤策略

AIR采用了一套多层过滤系统：

过滤层1：正确性过滤

只保留代码执行结果与最终答案一致的数据
剔除所有计算错误、逻辑矛盾的例子

过滤层2：难度过滤

使用一个"难度评分器"来估计每条数据的难度
太难的数据（连教师模型都经常错）暂时搁置
太简单的数据（无需工具就能答对）降低权重
保留"恰好需要工具才能解决"的"甜点区"数据

过滤层3：多样性过滤

确保数据集覆盖不同类型的推理模式
避免某种特定模式（如"总是先观察再计算"）过度代表
鼓励"探索性"推理路径

比喻：就像编制一本侦探案例集。你不想要全是简单盗窃案的集子（太简单），也不想要全是未破悬案的集子（太难）。你想要的是那些"有挑战性但能解决"的案件，而且要涵盖各种类型的犯罪——谋杀、诈骗、绑架、间谍活动。

🎵 第三乐章：自适应工具调用策略

问题：即使有了好的训练数据，模型在推理时仍然面临一个关键决策：什么时候该调用工具？

太早调用工具，可能会浪费计算资源（比如还没看清楚图就急着计算）。太晚调用工具，可能会在错误的道路上越走越远（比如硬算了半天才发现看错了数据）。

AIR的解决方案：组约束奖励函数（Group-Constrained Reward Function）

这是AIR最核心的创新。传统的RL奖励函数通常只关注最终结果：答对了给+1，答错了给-1。

但AIR设计了一个更精细的奖励系统：

1. 过程奖励（Process Reward）

不仅看最终答案，还看推理过程的"质量"。比如：

正确识别了图中的关键信息 → +0.2
调用了合适的工具 → +0.3
代码执行成功 → +0.2
中间步骤逻辑连贯 → +0.1
最终答案正确 → +0.2

2. 组约束（Group Constraint）

AIR使用了一种称为"组约束"的技术。具体来说：

对同一个问题，生成多个不同的推理轨迹（比如8个）
将这些轨迹分成"组"，每组采用不同的工具调用策略
比较不同组的最终结果
如果一个组的整体表现更好，就增强该组中所有轨迹的奖励

比喻：想象你在训练一个侦探团队。你不是单独评估每个侦探，而是让不同的小组用不同的方法解决同一个案件。如果"先观察再计算"的小组整体破案率更高，你就给这个小组的所有侦探加分。这样，侦探们不仅学会了个别技能，还学会了"策略选择"。

3. 自适应工具调用

最终，模型学会了一种"直觉"：

当面对复杂的数值问题时，自动生成代码
当需要验证假设时，自动执行查询
当信息不足时，自动请求更多视觉细节

这种"直觉"不是硬编码的规则，而是从大量训练数据中涌现出来的模式。

🧪 第三章：实验——数字见证进步

📊 基准测试

AIR在多个基准上进行了评估：

1. MathVista

一个结合数学和视觉理解的基准。问题包括：

几何图形中的角度计算
图表数据的统计分析
代数方程与图像的对应

2. MathVision

更难的数学视觉推理基准，包含大学水平的数学问题。

3. MMMU（Massive Multi-discipline Multimodal Understanding）

跨学科的多模态理解基准，涵盖物理、化学、生物、经济等领域。

🏆 核心结果

整体性能提升：

经过RL训练后，平均性能提升6.1个百分点
这听起来不多，但在AI基准测试中，6.1个百分点往往意味着从"中等生"到"优等生"的跨越

交错推理样本：

那些真正需要多步推理、工具调用的"难题"，准确率提升9.9个百分点
这说明AIR的训练特别有效地增强了复杂推理能力

工具使用成功率：

超过**95%**的工具调用成功完成并产生有效结果
这意味着模型不仅学会了"什么时候用工具"，还学会了"如何正确使用工具"

🔍 消融实验：什么最重要？

1. 冷启动数据的重要性

没有冷启动，直接从零开始RL：训练极不稳定，模型经常"崩溃"
有冷启动：训练稳定，最终性能显著提升

2. 组约束奖励 vs 单一奖励

使用传统奖励（只看最终结果）：提升有限
使用组约束奖励：显著提升，特别是在复杂推理样本上

3. 数据过滤的必要性

使用所有数据（不过滤）：训练效率低，模型学到很多噪声
使用过滤后的数据：训练更快，最终性能更好

🌍 第四章：意义与影响

🚀 为什么AIR很重要？

1. 从"模式识别"到"真正的推理"

传统MLLM在很大程度上依赖"模式识别"——它们在训练数据中见过类似的问题，所以能给出正确答案。但AIR培养的模型展示了一种更接近"真正的推理"的能力：分解问题、调用工具、验证中间结果、逐步逼近答案。

2. 通用工具使用的里程碑

AIR证明，通过RL训练，模型可以学会通用的工具使用策略，而不是依赖预定义的规则。这意味着：

新工具可以被快速适应
不同领域的问题可以用类似的策略解决
模型的能力可以通过"添加新工具"来扩展

3. 向AGI迈进的一小步

交错推理是人类智能的核心特征之一。我们不会在脑子里完成所有计算——我们会用纸笔、计算器、电脑、书籍来辅助思考。AIR让AI迈出了同样的步伐。

🎯 应用场景

1. 科学发现

科学家可以上传实验数据图像，AI自动：

识别图表类型和坐标轴
提取数值数据
运行统计分析
生成可视化
解释结果

2. 金融分析

分析师可以上传财务报表截图，AI自动：

提取关键财务指标
计算比率和增长率
与历史数据对比
生成分析报告

3. 教育辅导

学生可以上传数学作业照片，AI自动：

识别题目类型
展示解题步骤
在关键步骤调用计算工具
验证最终答案

⚠️ 局限性与挑战

1. 冷启动的依赖性

AIR仍然依赖教师模型来生成初始数据。如果教师模型在某些类型的任务上表现不佳，AIR的训练数据就会有偏差。

2. 工具生态的局限

当前实验使用的工具相对简单（主要是Python代码执行）。真实世界需要更丰富的工具生态：数据库查询、API调用、专业软件（如MATLAB、R）等。

3. 安全与滥用风险

让AI自动写代码并执行，带来了安全隐患。如何确保生成的代码不会：

删除重要文件
泄露敏感信息
执行恶意操作

这需要严格的沙箱环境和权限控制。

🔮 未来方向

1. 更多模态的交错

当前AIR主要关注视觉+代码。未来可以扩展到：

音频+代码（分析声音数据）
视频+代码（分析时序数据）
传感器数据+代码（物联网应用）

2. 元认知能力

让AI不仅能推理，还能"思考自己的思考过程"。比如：

"我之前的假设可能有误，让我重新检查"
"这个问题需要更多数据，让我查询外部数据库"
"我的计算结果看起来不合理，让我用另一种方法验证"

3. 协作推理

多个AI agent协作解决复杂问题。一个负责视觉分析，一个负责数值计算，一个负责逻辑验证，它们在对话中共同推进。

📝 结语：福尔摩斯的遗产

AIR的故事告诉我们：智能不仅仅是知道很多，更是知道如何有效地使用你所知道的。

福尔摩斯之所以伟大，不是因为他记住了所有的毒药配方，而是因为他知道：什么时候该用显微镜，什么时候该查阅资料，什么时候该进行逻辑推理。

AIR正在教会AI同样的能力。不是让AI变成一个无所不知的神，而是让它成为一个善于使用工具的智者。

当AI学会了像福尔摩斯一样思考——观察、记录、计算、验证、再观察——我们就离真正的智能更近了一步。

"教育的目的不是学习事实，而是训练思维。" —— 阿尔伯特·爱因斯坦

📚 参考文献

原始论文: Han, C., Lan, X., & Qiu, H. (2026). AIR: Adaptive Interleaved Reasoning with Code in MLLMs. arXiv:2606.23678.
OpenAI o3: OpenAI. (2024). Introducing OpenAI o3 and o3-mini. https://openai.com/index/openai-o3-system-card/
MathVista: Lu, P., et al. (2023). MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts. arXiv:2310.02255.
MMMU: Yue, X., et al. (2023). MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark. arXiv:2311.16502.
Chain-of-Thought: Wei, J., et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022.
Reinforcement Learning from Human Feedback: Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. NeurIPS 2022.

解读完成于 2026年6月24日
#论文 #arXiv #多模态 #推理 #工具使用 #强化学习 #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力