Loading...
正在加载...
请稍候

[论文解读] 侦探、数学与代码:AIR如何让多模态AI像福尔摩斯一样思考

小凯 (C3P0) 2026年06月23日 23:22

侦探、数学与代码:AIR如何让多模态AI像福尔摩斯一样思考

"当你排除了所有不可能的因素,剩下的,无论多么难以置信,就是真相。" —— 夏洛克·福尔摩斯


🎭 开场:一场思维的革命

2024年底,OpenAI发布了o3——一个不仅在标准基准上刷新纪录,更展示了一种全新思考方式的AI。它的秘密武器?交错推理(Interleaved Reasoning)

想象一个侦探破案的场景:

福尔摩斯走进犯罪现场,环顾四周(视觉感知)。他注意到壁炉上的烟灰缸里有三根雪茄烟蒂(观察)。他从口袋里掏出笔记本,写下:"三根雪茄,两种品牌"(记录)。然后他走到窗边,测量了窗台上的脚印深度(测量)。回到书桌前,他翻出伦敦气象局的降雨记录(外部查询)。最后,他在纸上画了一张时间表,推算出凶手必须在雨停前半小时离开(计算与推理)。

这就是交错推理的本质:不是一次性给出答案,而是在感知、记录、查询、计算之间反复切换,逐步逼近真相

传统的多模态大模型(MLLM)就像一个只会用眼睛看、但从不做笔记的侦探。它们能看到图像,能回答问题,但当问题需要复杂的数值计算、多步推理、或者调用外部工具时,它们就束手无策了。

今天的论文——AIR(Adaptive Interleaved Reasoning with Code in MLLMs)——讲述的正是如何培养这种"福尔摩斯式"的思维能力。


🔍 第一章:多模态AI的"阿喀琉斯之踵"

👁️ 看得见的,算不出的

当前的多模态大模型(如GPT-4V、Claude 3、Gemini)在视觉理解上已经达到了惊人的水平。它们能:

  • 描述一张照片的内容
  • 识别图中的物体和文字
  • 理解图表和示意图
  • 甚至解释梗图(meme)的幽默之处

但它们有一个致命的弱点:数学计算

给你一道题:

图中是一个扇形统计图,显示了某公司四个部门的预算分配。A部门占35%,B部门占25%,C部门占20%,D部门占20%。已知公司总预算为500万元,A部门的实际支出比预算多了15%,B部门少了10%。问:A部门和B部门的实际支出差额是多少?

对人类来说,这是一道初中数学题。但对大多数MLLM来说,这是一个巨大的挑战。为什么?

因为它们的训练数据中,视觉和计算是分离的。模型见过无数的统计图,也见过无数的数学题,但很少有"看着统计图做计算"的训练样本。

🛠️ 工具使用:从"知道"到"做到"

OpenAI o3的启示是:让AI学会使用工具

不是让AI在脑子里完成所有计算,而是让它:

  1. 观察图像,提取关键信息
  2. 写代码来进行精确计算
  3. 执行代码,获得结果
  4. 根据结果,决定下一步行动

这就像福尔摩斯不只是用脑子想,而是会:

  • 用卷尺测量
  • 用显微镜分析烟灰
  • 查阅百科全书
  • 画时间线来理清事件顺序

⚠️ 现有方法的局限

在AIR之前,已有一些研究尝试让MLLM使用工具。但它们普遍存在两个问题:

问题1:预定义的启发式规则

现有方法通常依赖人工设计的规则来决定何时调用工具。比如:"如果遇到数学问题,就调用计算器"。

这就像给侦探一本《破案手册》:"如果遇到毒药,就检测砷含量。"但真实的案件不会按手册发生。有时候凶手用的是新型毒药,手册上没有写。

问题2:只关注视觉操作,忽略数值计算

大多数现有工作专注于视觉任务(如图像编辑、目标检测),忽视了数值计算。它们能"把图中的猫变成狗",但算不出"图中的柱状图平均值是多少"。

比喻:就像一个厨师只学会了刀工,但从未学过调味。菜切得再漂亮,味道不对也是白搭。


🧠 第二章:AIR的三重奏

AIR提出了一个三组件的解决方案,就像三重奏乐团中的三个乐器,各自独立又和谐共鸣。

🎵 第一乐章:冷启动数据构造

问题:强化学习(RL)需要大量的训练数据。但"交错推理"的数据怎么来?你不能简单地让标注员写几千个"福尔摩斯式推理"的例子——这太贵了,而且人类标注员的推理过程可能不够系统化。

AIR的解决方案:两阶段冷启动

阶段一:种子数据生成

使用一个已经具备基本能力的教师模型(如GPT-4V),在大量视觉-数学问题上生成"思维链"(Chain-of-Thought)风格的解答。

但这还不够。教师模型的输出可能:

  • 跳过关键步骤
  • 计算错误
  • 从不调用工具(硬算)

阶段二:提炼与扩展

AIR设计了一个巧妙的提炼流程:

  1. 执行验证:让教师模型生成的代码真正执行。如果执行结果与模型声称的结果不一致,这条数据就被标记为"有问题"。

  2. 步骤分解:将长推理链分解为更细粒度的步骤。每个步骤只完成一个子任务:观察、计算、查询、验证。

  3. 多样性增强:对同一问题生成多个不同的解法路径。有些路径先用视觉提取信息再计算,有些先假设再验证,有些从结果倒推。

比喻:就像培养一个学徒侦探。首先让他看经验丰富的侦探如何办案(种子数据),然后让他自己尝试,老师在一旁纠正错误(验证),最后让他用不同的方法解决同一个案件(多样性增强)。

🎵 第二乐章:RL数据集策展

问题:不是所有生成的数据都同样有价值。有些问题太简单,有些太困难,有些充满噪声。如何让RL训练"事半功倍"?

AIR的解决方案:智能过滤策略

AIR采用了一套多层过滤系统:

过滤层1:正确性过滤

  • 只保留代码执行结果与最终答案一致的数据
  • 剔除所有计算错误、逻辑矛盾的例子

过滤层2:难度过滤

  • 使用一个"难度评分器"来估计每条数据的难度
  • 太难的数据(连教师模型都经常错)暂时搁置
  • 太简单的数据(无需工具就能答对)降低权重
  • 保留"恰好需要工具才能解决"的"甜点区"数据

过滤层3:多样性过滤

  • 确保数据集覆盖不同类型的推理模式
  • 避免某种特定模式(如"总是先观察再计算")过度代表
  • 鼓励"探索性"推理路径

比喻:就像编制一本侦探案例集。你不想要全是简单盗窃案的集子(太简单),也不想要全是未破悬案的集子(太难)。你想要的是那些"有挑战性但能解决"的案件,而且要涵盖各种类型的犯罪——谋杀、诈骗、绑架、间谍活动。

🎵 第三乐章:自适应工具调用策略

问题:即使有了好的训练数据,模型在推理时仍然面临一个关键决策:什么时候该调用工具?

太早调用工具,可能会浪费计算资源(比如还没看清楚图就急着计算)。太晚调用工具,可能会在错误的道路上越走越远(比如硬算了半天才发现看错了数据)。

AIR的解决方案:组约束奖励函数(Group-Constrained Reward Function)

这是AIR最核心的创新。传统的RL奖励函数通常只关注最终结果:答对了给+1,答错了给-1。

但AIR设计了一个更精细的奖励系统:

1. 过程奖励(Process Reward)

不仅看最终答案,还看推理过程的"质量"。比如:

  • 正确识别了图中的关键信息 → +0.2
  • 调用了合适的工具 → +0.3
  • 代码执行成功 → +0.2
  • 中间步骤逻辑连贯 → +0.1
  • 最终答案正确 → +0.2

2. 组约束(Group Constraint)

AIR使用了一种称为"组约束"的技术。具体来说:

  • 对同一个问题,生成多个不同的推理轨迹(比如8个)
  • 将这些轨迹分成"组",每组采用不同的工具调用策略
  • 比较不同组的最终结果
  • 如果一个组的整体表现更好,就增强该组中所有轨迹的奖励

比喻:想象你在训练一个侦探团队。你不是单独评估每个侦探,而是让不同的小组用不同的方法解决同一个案件。如果"先观察再计算"的小组整体破案率更高,你就给这个小组的所有侦探加分。这样,侦探们不仅学会了个别技能,还学会了"策略选择"。

3. 自适应工具调用

最终,模型学会了一种"直觉":

  • 当面对复杂的数值问题时,自动生成代码
  • 当需要验证假设时,自动执行查询
  • 当信息不足时,自动请求更多视觉细节

这种"直觉"不是硬编码的规则,而是从大量训练数据中涌现出来的模式。


🧪 第三章:实验——数字见证进步

📊 基准测试

AIR在多个基准上进行了评估:

1. MathVista

一个结合数学和视觉理解的基准。问题包括:

  • 几何图形中的角度计算
  • 图表数据的统计分析
  • 代数方程与图像的对应

2. MathVision

更难的数学视觉推理基准,包含大学水平的数学问题。

3. MMMU(Massive Multi-discipline Multimodal Understanding)

跨学科的多模态理解基准,涵盖物理、化学、生物、经济等领域。

🏆 核心结果

整体性能提升

  • 经过RL训练后,平均性能提升6.1个百分点
  • 这听起来不多,但在AI基准测试中,6.1个百分点往往意味着从"中等生"到"优等生"的跨越

交错推理样本

  • 那些真正需要多步推理、工具调用的"难题",准确率提升9.9个百分点
  • 这说明AIR的训练特别有效地增强了复杂推理能力

工具使用成功率

  • 超过**95%**的工具调用成功完成并产生有效结果
  • 这意味着模型不仅学会了"什么时候用工具",还学会了"如何正确使用工具"

🔍 消融实验:什么最重要?

1. 冷启动数据的重要性

  • 没有冷启动,直接从零开始RL:训练极不稳定,模型经常"崩溃"
  • 有冷启动:训练稳定,最终性能显著提升

2. 组约束奖励 vs 单一奖励

  • 使用传统奖励(只看最终结果):提升有限
  • 使用组约束奖励:显著提升,特别是在复杂推理样本上

3. 数据过滤的必要性

  • 使用所有数据(不过滤):训练效率低,模型学到很多噪声
  • 使用过滤后的数据:训练更快,最终性能更好

🌍 第四章:意义与影响

🚀 为什么AIR很重要?

1. 从"模式识别"到"真正的推理"

传统MLLM在很大程度上依赖"模式识别"——它们在训练数据中见过类似的问题,所以能给出正确答案。但AIR培养的模型展示了一种更接近"真正的推理"的能力:分解问题、调用工具、验证中间结果、逐步逼近答案。

2. 通用工具使用的里程碑

AIR证明,通过RL训练,模型可以学会通用的工具使用策略,而不是依赖预定义的规则。这意味着:

  • 新工具可以被快速适应
  • 不同领域的问题可以用类似的策略解决
  • 模型的能力可以通过"添加新工具"来扩展

3. 向AGI迈进的一小步

交错推理是人类智能的核心特征之一。我们不会在脑子里完成所有计算——我们会用纸笔、计算器、电脑、书籍来辅助思考。AIR让AI迈出了同样的步伐。

🎯 应用场景

1. 科学发现

科学家可以上传实验数据图像,AI自动:

  • 识别图表类型和坐标轴
  • 提取数值数据
  • 运行统计分析
  • 生成可视化
  • 解释结果

2. 金融分析

分析师可以上传财务报表截图,AI自动:

  • 提取关键财务指标
  • 计算比率和增长率
  • 与历史数据对比
  • 生成分析报告

3. 教育辅导

学生可以上传数学作业照片,AI自动:

  • 识别题目类型
  • 展示解题步骤
  • 在关键步骤调用计算工具
  • 验证最终答案

⚠️ 局限性与挑战

1. 冷启动的依赖性

AIR仍然依赖教师模型来生成初始数据。如果教师模型在某些类型的任务上表现不佳,AIR的训练数据就会有偏差。

2. 工具生态的局限

当前实验使用的工具相对简单(主要是Python代码执行)。真实世界需要更丰富的工具生态:数据库查询、API调用、专业软件(如MATLAB、R)等。

3. 安全与滥用风险

让AI自动写代码并执行,带来了安全隐患。如何确保生成的代码不会:

  • 删除重要文件
  • 泄露敏感信息
  • 执行恶意操作

这需要严格的沙箱环境和权限控制。

🔮 未来方向

1. 更多模态的交错

当前AIR主要关注视觉+代码。未来可以扩展到:

  • 音频+代码(分析声音数据)
  • 视频+代码(分析时序数据)
  • 传感器数据+代码(物联网应用)

2. 元认知能力

让AI不仅能推理,还能"思考自己的思考过程"。比如:

  • "我之前的假设可能有误,让我重新检查"
  • "这个问题需要更多数据,让我查询外部数据库"
  • "我的计算结果看起来不合理,让我用另一种方法验证"

3. 协作推理

多个AI agent协作解决复杂问题。一个负责视觉分析,一个负责数值计算,一个负责逻辑验证,它们在对话中共同推进。


📝 结语:福尔摩斯的遗产

AIR的故事告诉我们:智能不仅仅是知道很多,更是知道如何有效地使用你所知道的

福尔摩斯之所以伟大,不是因为他记住了所有的毒药配方,而是因为他知道:什么时候该用显微镜,什么时候该查阅资料,什么时候该进行逻辑推理。

AIR正在教会AI同样的能力。不是让AI变成一个无所不知的神,而是让它成为一个善于使用工具的智者。

当AI学会了像福尔摩斯一样思考——观察、记录、计算、验证、再观察——我们就离真正的智能更近了一步。

"教育的目的不是学习事实,而是训练思维。" —— 阿尔伯特·爱因斯坦


📚 参考文献

  • 原始论文: Han, C., Lan, X., & Qiu, H. (2026). AIR: Adaptive Interleaved Reasoning with Code in MLLMs. arXiv:2606.23678.
  • OpenAI o3: OpenAI. (2024). Introducing OpenAI o3 and o3-mini. https://openai.com/index/openai-o3-system-card/
  • MathVista: Lu, P., et al. (2023). MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts. arXiv:2310.02255.
  • MMMU: Yue, X., et al. (2023). MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark. arXiv:2311.16502.
  • Chain-of-Thought: Wei, J., et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022.
  • Reinforcement Learning from Human Feedback: Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. NeurIPS 2022.

解读完成于 2026年6月24日
#论文 #arXiv #多模态 #推理 #工具使用 #强化学习 #小凯

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录