🤔 "该不该调用工具？"——AI代理时代的核心决策难题

> 论文: To Call or Not to Call: A Framework to Assess and Optimize LLM Tool Calling > 作者: Qinyuan Wu, Soumi Das, Mahsa Amani, Arijit Nag, Seungeon Lee, Krishna P. Gummadi, Abhilasha Ravichander, Muhammad Bilal Zafar > arXiv: 2605.00737 | 2026-05-01

---

一、那个"工具狂魔"AI

想象你问一个AI助手："美国总统是谁？"

它回答："让我搜索一下……（调用搜索引擎）……根据搜索结果，美国总统是……"

你翻了个白眼。这个问题任何一个训练良好的LLM都能直接回答，根本不需要调用工具。

但另一方面，如果你问："昨天特斯拉的收盘价是多少？"——这时候AI就必须调用工具了，因为它的训练数据截止了。

问题来了：AI怎么知道什么时候该调用工具，什么时候不该调用？

---

二、工具调用的决策理论

这项研究的核心发现是：工具调用不是一个"能不用就不用"的问题，而是一个决策问题。

就像医生决定是否要给病人做检查：

检查本身有成本（时间、金钱、病人的不适）
但不检查可能漏诊（错过关键信息）
检查的结果可能有噪声（假阳性、假阴性）

AI的工具调用也面临同样的权衡：

成本：API调用费、延迟、token消耗
收益：获取更准确、更新、更相关的信息
风险：工具返回的信息可能有噪声、偏见、甚至错误

论文提出了一个基于决策理论的框架来形式化这个问题。

---

三、"搜索悖论"

论文特别关注了网络搜索工具，因为这是最常用也最 tricky 的工具：

1. 内部知识 vs. 外部信息：模型需要判断自己的内部知识是否足够回答问题 2. 信息质量不确定：搜索结果可能包含过时、错误或有偏见的信息 3. 整合困难：把搜索返回的原始信息整合成连贯的回答，本身就是一种挑战 4. 成本累积：每次搜索都消耗token和API配额，频繁的搜索会让成本飙升

研究发现，当前LLM在"是否调用工具"这个决策上的表现远不理想：

有些模型过于保守，明明该搜索的时候不搜索
有些模型过于激进，明明可以直接回答的时候却频繁搜索
很少有模型能根据问题的难度、时效性要求、信息置信度来动态调整策略

---

四、评估框架

论文提出的评估框架从多个维度衡量工具调用决策的质量：

1. 必要性：工具调用是否真的是回答该问题所必需的？ 2. 效率：是否用最少量的工具调用获得了足够的信息？ 3. 信息质量：工具返回的信息是否准确、相关、及时？ 4. 整合质量：模型是否成功地把工具输出整合进了最终回答？ 5. 成本效益：给定成本约束，信息增益是否最大化？

一个好的AI代理，不是工具用得最多的那个，而是工具用得最准的那个。

---

五、优化策略

论文探讨了几种优化工具调用决策的策略：

1. 元认知提示：让模型在决定是否调用工具之前，先评估自己的置信度 2. 成本感知训练：在训练中加入工具调用的成本信号，让模型学会权衡 3. 自适应阈值：根据问题类型、领域、时效性要求动态调整调用门槛 4. 后验验证：调用工具后，评估获取的信息是否真的改善了回答质量

这些策略的共同目标是：让AI从"工具狂魔"变成"工具智者"。

---

六、费曼式的判断：知道你不知道什么

费曼曾经说过：

> "真正的知识在于知道自己的无知。"

这正是工具调用决策的核心：

> 一个智能系统最重要的能力，不是它知道多少，而是它知道自己不知道什么——并且知道如何、何时去获取这些缺失的知识。

当前LLM的一个根本缺陷是缺乏校准的元认知。它们不知道自己的知识边界在哪里，因此要么过度自信（该搜索时不搜索），要么过度不自信（不该搜索时乱搜索）。

---

七、带走的启发

在设计AI代理系统时，工具调用策略不是后加的优化项，而是核心架构决策。

问自己： 1. "这个任务中，哪些信息是模型内部知识足以回答的？" 2. "哪些信息必须通过外部工具获取？" 3. "工具调用的成本和收益如何量化？" 4. "系统是否有机制评估自己的置信度并据此决策？"

"To Call or Not to Call"不仅是一个技术问题，它定义了AI代理的"智能边界"——知道什么时候靠自己，什么时候求助外力。

这是从"聊天机器人"到"真正智能代理"的关键跃迁。

#ToolCalling #AgenticAI #DecisionTheory #LLM #MetaCognition #FeynmanLearning #智柴系统实验室