侦探、数学与代码:AIR如何让多模态AI像福尔摩斯一样思考
"当你排除了所有不可能的因素,剩下的,无论多么难以置信,就是真相。" —— 夏洛克·福尔摩斯
🎭 开场:一场思维的革命
2024年底,OpenAI发布了o3——一个不仅在标准基准上刷新纪录,更展示了一种全新思考方式的AI。它的秘密武器?交错推理(Interleaved Reasoning)。
想象一个侦探破案的场景:
福尔摩斯走进犯罪现场,环顾四周(视觉感知)。他注意到壁炉上的烟灰缸里有三根雪茄烟蒂(观察)。他从口袋里掏出笔记本,写下:"三根雪茄,两种品牌"(记录)。然后他走到窗边,测量了窗台上的脚印深度(测量)。回到书桌前,他翻出伦敦气象局的降雨记录(外部查询)。最后,他在纸上画了一张时间表,推算出凶手必须在雨停前半小时离开(计算与推理)。
这就是交错推理的本质:不是一次性给出答案,而是在感知、记录、查询、计算之间反复切换,逐步逼近真相。
传统的多模态大模型(MLLM)就像一个只会用眼睛看、但从不做笔记的侦探。它们能看到图像,能回答问题,但当问题需要复杂的数值计算、多步推理、或者调用外部工具时,它们就束手无策了。
今天的论文——AIR(Adaptive Interleaved Reasoning with Code in MLLMs)——讲述的正是如何培养这种"福尔摩斯式"的思维能力。
🔍 第一章:多模态AI的"阿喀琉斯之踵"
👁️ 看得见的,算不出的
当前的多模态大模型(如GPT-4V、Claude 3、Gemini)在视觉理解上已经达到了惊人的水平。它们能:
- 描述一张照片的内容
- 识别图中的物体和文字
- 理解图表和示意图
- 甚至解释梗图(meme)的幽默之处
但它们有一个致命的弱点:数学计算。
给你一道题:
图中是一个扇形统计图,显示了某公司四个部门的预算分配。A部门占35%,B部门占25%,C部门占20%,D部门占20%。已知公司总预算为500万元,A部门的实际支出比预算多了15%,B部门少了10%。问:A部门和B部门的实际支出差额是多少?
对人类来说,这是一道初中数学题。但对大多数MLLM来说,这是一个巨大的挑战。为什么?
因为它们的训练数据中,视觉和计算是分离的。模型见过无数的统计图,也见过无数的数学题,但很少有"看着统计图做计算"的训练样本。
🛠️ 工具使用:从"知道"到"做到"
OpenAI o3的启示是:让AI学会使用工具。
不是让AI在脑子里完成所有计算,而是让它:
- 观察图像,提取关键信息
- 写代码来进行精确计算
- 执行代码,获得结果
- 根据结果,决定下一步行动
这就像福尔摩斯不只是用脑子想,而是会:
- 用卷尺测量
- 用显微镜分析烟灰
- 查阅百科全书
- 画时间线来理清事件顺序
⚠️ 现有方法的局限
在AIR之前,已有一些研究尝试让MLLM使用工具。但它们普遍存在两个问题:
问题1:预定义的启发式规则
现有方法通常依赖人工设计的规则来决定何时调用工具。比如:"如果遇到数学问题,就调用计算器"。
这就像给侦探一本《破案手册》:"如果遇到毒药,就检测砷含量。"但真实的案件不会按手册发生。有时候凶手用的是新型毒药,手册上没有写。
问题2:只关注视觉操作,忽略数值计算
大多数现有工作专注于视觉任务(如图像编辑、目标检测),忽视了数值计算。它们能"把图中的猫变成狗",但算不出"图中的柱状图平均值是多少"。
比喻:就像一个厨师只学会了刀工,但从未学过调味。菜切得再漂亮,味道不对也是白搭。
🧠 第二章:AIR的三重奏
AIR提出了一个三组件的解决方案,就像三重奏乐团中的三个乐器,各自独立又和谐共鸣。
🎵 第一乐章:冷启动数据构造
问题:强化学习(RL)需要大量的训练数据。但"交错推理"的数据怎么来?你不能简单地让标注员写几千个"福尔摩斯式推理"的例子——这太贵了,而且人类标注员的推理过程可能不够系统化。
AIR的解决方案:两阶段冷启动
阶段一:种子数据生成
使用一个已经具备基本能力的教师模型(如GPT-4V),在大量视觉-数学问题上生成"思维链"(Chain-of-Thought)风格的解答。
但这还不够。教师模型的输出可能:
- 跳过关键步骤
- 计算错误
- 从不调用工具(硬算)
阶段二:提炼与扩展
AIR设计了一个巧妙的提炼流程:
-
执行验证:让教师模型生成的代码真正执行。如果执行结果与模型声称的结果不一致,这条数据就被标记为"有问题"。
-
步骤分解:将长推理链分解为更细粒度的步骤。每个步骤只完成一个子任务:观察、计算、查询、验证。
-
多样性增强:对同一问题生成多个不同的解法路径。有些路径先用视觉提取信息再计算,有些先假设再验证,有些从结果倒推。
比喻:就像培养一个学徒侦探。首先让他看经验丰富的侦探如何办案(种子数据),然后让他自己尝试,老师在一旁纠正错误(验证),最后让他用不同的方法解决同一个案件(多样性增强)。
🎵 第二乐章:RL数据集策展
问题:不是所有生成的数据都同样有价值。有些问题太简单,有些太困难,有些充满噪声。如何让RL训练"事半功倍"?
AIR的解决方案:智能过滤策略
AIR采用了一套多层过滤系统:
过滤层1:正确性过滤
- 只保留代码执行结果与最终答案一致的数据
- 剔除所有计算错误、逻辑矛盾的例子
过滤层2:难度过滤
- 使用一个"难度评分器"来估计每条数据的难度
- 太难的数据(连教师模型都经常错)暂时搁置
- 太简单的数据(无需工具就能答对)降低权重
- 保留"恰好需要工具才能解决"的"甜点区"数据
过滤层3:多样性过滤
- 确保数据集覆盖不同类型的推理模式
- 避免某种特定模式(如"总是先观察再计算")过度代表
- 鼓励"探索性"推理路径
比喻:就像编制一本侦探案例集。你不想要全是简单盗窃案的集子(太简单),也不想要全是未破悬案的集子(太难)。你想要的是那些"有挑战性但能解决"的案件,而且要涵盖各种类型的犯罪——谋杀、诈骗、绑架、间谍活动。
🎵 第三乐章:自适应工具调用策略
问题:即使有了好的训练数据,模型在推理时仍然面临一个关键决策:什么时候该调用工具?
太早调用工具,可能会浪费计算资源(比如还没看清楚图就急着计算)。太晚调用工具,可能会在错误的道路上越走越远(比如硬算了半天才发现看错了数据)。
AIR的解决方案:组约束奖励函数(Group-Constrained Reward Function)
这是AIR最核心的创新。传统的RL奖励函数通常只关注最终结果:答对了给+1,答错了给-1。
但AIR设计了一个更精细的奖励系统:
1. 过程奖励(Process Reward)
不仅看最终答案,还看推理过程的"质量"。比如:
- 正确识别了图中的关键信息 → +0.2
- 调用了合适的工具 → +0.3
- 代码执行成功 → +0.2
- 中间步骤逻辑连贯 → +0.1
- 最终答案正确 → +0.2
2. 组约束(Group Constraint)
AIR使用了一种称为"组约束"的技术。具体来说:
- 对同一个问题,生成多个不同的推理轨迹(比如8个)
- 将这些轨迹分成"组",每组采用不同的工具调用策略
- 比较不同组的最终结果
- 如果一个组的整体表现更好,就增强该组中所有轨迹的奖励
比喻:想象你在训练一个侦探团队。你不是单独评估每个侦探,而是让不同的小组用不同的方法解决同一个案件。如果"先观察再计算"的小组整体破案率更高,你就给这个小组的所有侦探加分。这样,侦探们不仅学会了个别技能,还学会了"策略选择"。
3. 自适应工具调用
最终,模型学会了一种"直觉":
- 当面对复杂的数值问题时,自动生成代码
- 当需要验证假设时,自动执行查询
- 当信息不足时,自动请求更多视觉细节
这种"直觉"不是硬编码的规则,而是从大量训练数据中涌现出来的模式。
🧪 第三章:实验——数字见证进步
📊 基准测试
AIR在多个基准上进行了评估:
1. MathVista
一个结合数学和视觉理解的基准。问题包括:
- 几何图形中的角度计算
- 图表数据的统计分析
- 代数方程与图像的对应
2. MathVision
更难的数学视觉推理基准,包含大学水平的数学问题。
3. MMMU(Massive Multi-discipline Multimodal Understanding)
跨学科的多模态理解基准,涵盖物理、化学、生物、经济等领域。
🏆 核心结果
整体性能提升:
- 经过RL训练后,平均性能提升6.1个百分点
- 这听起来不多,但在AI基准测试中,6.1个百分点往往意味着从"中等生"到"优等生"的跨越
交错推理样本:
- 那些真正需要多步推理、工具调用的"难题",准确率提升9.9个百分点
- 这说明AIR的训练特别有效地增强了复杂推理能力
工具使用成功率:
- 超过**95%**的工具调用成功完成并产生有效结果
- 这意味着模型不仅学会了"什么时候用工具",还学会了"如何正确使用工具"
🔍 消融实验:什么最重要?
1. 冷启动数据的重要性
- 没有冷启动,直接从零开始RL:训练极不稳定,模型经常"崩溃"
- 有冷启动:训练稳定,最终性能显著提升
2. 组约束奖励 vs 单一奖励
- 使用传统奖励(只看最终结果):提升有限
- 使用组约束奖励:显著提升,特别是在复杂推理样本上
3. 数据过滤的必要性
- 使用所有数据(不过滤):训练效率低,模型学到很多噪声
- 使用过滤后的数据:训练更快,最终性能更好
🌍 第四章:意义与影响
🚀 为什么AIR很重要?
1. 从"模式识别"到"真正的推理"
传统MLLM在很大程度上依赖"模式识别"——它们在训练数据中见过类似的问题,所以能给出正确答案。但AIR培养的模型展示了一种更接近"真正的推理"的能力:分解问题、调用工具、验证中间结果、逐步逼近答案。
2. 通用工具使用的里程碑
AIR证明,通过RL训练,模型可以学会通用的工具使用策略,而不是依赖预定义的规则。这意味着:
- 新工具可以被快速适应
- 不同领域的问题可以用类似的策略解决
- 模型的能力可以通过"添加新工具"来扩展
3. 向AGI迈进的一小步
交错推理是人类智能的核心特征之一。我们不会在脑子里完成所有计算——我们会用纸笔、计算器、电脑、书籍来辅助思考。AIR让AI迈出了同样的步伐。
🎯 应用场景
1. 科学发现
科学家可以上传实验数据图像,AI自动:
- 识别图表类型和坐标轴
- 提取数值数据
- 运行统计分析
- 生成可视化
- 解释结果
2. 金融分析
分析师可以上传财务报表截图,AI自动:
- 提取关键财务指标
- 计算比率和增长率
- 与历史数据对比
- 生成分析报告
3. 教育辅导
学生可以上传数学作业照片,AI自动:
- 识别题目类型
- 展示解题步骤
- 在关键步骤调用计算工具
- 验证最终答案
⚠️ 局限性与挑战
1. 冷启动的依赖性
AIR仍然依赖教师模型来生成初始数据。如果教师模型在某些类型的任务上表现不佳,AIR的训练数据就会有偏差。
2. 工具生态的局限
当前实验使用的工具相对简单(主要是Python代码执行)。真实世界需要更丰富的工具生态:数据库查询、API调用、专业软件(如MATLAB、R)等。
3. 安全与滥用风险
让AI自动写代码并执行,带来了安全隐患。如何确保生成的代码不会:
- 删除重要文件
- 泄露敏感信息
- 执行恶意操作
这需要严格的沙箱环境和权限控制。
🔮 未来方向
1. 更多模态的交错
当前AIR主要关注视觉+代码。未来可以扩展到:
- 音频+代码(分析声音数据)
- 视频+代码(分析时序数据)
- 传感器数据+代码(物联网应用)
2. 元认知能力
让AI不仅能推理,还能"思考自己的思考过程"。比如:
- "我之前的假设可能有误,让我重新检查"
- "这个问题需要更多数据,让我查询外部数据库"
- "我的计算结果看起来不合理,让我用另一种方法验证"
3. 协作推理
多个AI agent协作解决复杂问题。一个负责视觉分析,一个负责数值计算,一个负责逻辑验证,它们在对话中共同推进。
📝 结语:福尔摩斯的遗产
AIR的故事告诉我们:智能不仅仅是知道很多,更是知道如何有效地使用你所知道的。
福尔摩斯之所以伟大,不是因为他记住了所有的毒药配方,而是因为他知道:什么时候该用显微镜,什么时候该查阅资料,什么时候该进行逻辑推理。
AIR正在教会AI同样的能力。不是让AI变成一个无所不知的神,而是让它成为一个善于使用工具的智者。
当AI学会了像福尔摩斯一样思考——观察、记录、计算、验证、再观察——我们就离真正的智能更近了一步。
"教育的目的不是学习事实,而是训练思维。" —— 阿尔伯特·爱因斯坦
📚 参考文献
- 原始论文: Han, C., Lan, X., & Qiu, H. (2026). AIR: Adaptive Interleaved Reasoning with Code in MLLMs. arXiv:2606.23678.
- OpenAI o3: OpenAI. (2024). Introducing OpenAI o3 and o3-mini. https://openai.com/index/openai-o3-system-card/
- MathVista: Lu, P., et al. (2023). MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts. arXiv:2310.02255.
- MMMU: Yue, X., et al. (2023). MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark. arXiv:2311.16502.
- Chain-of-Thought: Wei, J., et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022.
- Reinforcement Learning from Human Feedback: Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. NeurIPS 2022.
解读完成于 2026年6月24日
#论文 #arXiv #多模态 #推理 #工具使用 #强化学习 #小凯
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。