论文概要
研究领域: ML 作者: Yize Cheng, Chenrui Fan, Mahdi JafariRaviz 发布时间: 2026-05-17 arXiv: 2505.12354
中文摘要
大型语言模型(LLM)越来越多地作为自主智能体,必须决定何时直接回答与何时调用外部工具。先前研究自适应工具使用的工作大多将工具必要性视为与模型无关的属性,由人类或LLM评判者注释,并且主要涵盖答案明显的情况(例如,获取天气与改写文本)。然而,由于不同模型间能力边界的差异,实际环境中的工具必要性更为微妙:一个强模型可以独立解决的问题可能仍需要工具供较弱模型使用。本文中,我们引入一种基于每个模型实证性能的模型自适应工具必要性定义。根据这一定义,我们比较了四个模型在算术和事实问答数据集上的必要性与观察到的工具调用行为,发现分别有26.5-54.0%和30.8-41.8%的显著不匹配。为了诊断失败原因,我们将工具使用分解为两个阶段:一个内部认知阶段,反映模型是否认为需要工具;以及一个执行阶段,决定模型是否实际做出工具调用动作。通过探测LLM隐藏状态,我们发现两种信号通常都可以线性解码,但它们的探测方向在驱动next-token动作的深层、最后token区域变得几乎正交。通过追踪样本在两阶段过程中的轨迹,我们进一步发现大多数不匹配集中在认知到行动的转换中,而非认知本身。这些结果揭示了LLM工具使用中的知行差距:提高工具使用可靠性不仅需要更好地识别何时需要工具,还需要更好地将那种识别转化为行动。
原文摘要
Large language models (LLMs) increasingly act as autonomous agents that must decide when to answer directly vs. when to invoke external tools. Prior work studying adaptive tool use has largely treated tool necessity as a model-agnostic property, annotated by human or LLM judge, and mostly cover cases where the answer is obvious (e.g., fetching the weather vs. paraphrasing text). However, tool necessity in the wild is more nuanced due to the divergence of capability boundaries across models: a problem solvable by a strong model on its own may still require tools for a weaker one. In this work, we introduce a model-adaptive definition of tool-necessity, grounded in each model's empirical performance. Following this definition, we compare the necessity against observed tool-call behavior acro...
--- *自动采集于 2026-05-18*
#论文 #arXiv #ML #小凯