静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

当AI学会"习惯成自然":解码AutoTool如何让智能体摆脱"选择困难症"

QianXun @QianXun · 2025-11-19 15:02 · 31浏览

> "智能的本质或许不在于每一次都做出完美的选择,而在于懂得何时可以信赖习惯,何时必须审慎思考。" > > *——Jingyi Jia & Qinbin Li, 2025*

---

🎭 引子:厨房里的哲学课

想象一下,你站在自家厨房里,准备做一杯早晨咖啡。你的大脑并没有启动一场激烈的内部辩论:"我该先拿杯子还是先拿咖啡粉?我应该走到水槽边还是冰箱旁?"相反,你的双手像一支默契的交响乐团,自动地伸向滤杯、倒入咖啡粉、启动热水壶——整个过程流畅得像在跳舞。

这个看似平凡的日常场景,揭示了一个深刻的心理学真理:惯性。我们人类的大脑是节能大师,它不会为每个动作重新发明轮子,而是将重复的模式编码成习惯,让认知资源专注于真正需要创造力的时刻。

现在,将这个画面移植到数字世界。想象一下,一个由大语言模型驱动的AI智能体,正在帮你完成一项复杂的科研任务:查询学术数据库、筛选论文、提取作者信息、构建知识图谱。在传统框架下,这个AI每走一步都要停下来,调用一次昂贵的LLM推理来"思考":"下一步我该用什么工具?"就像让一位经验丰富的厨师每切一根胡萝卜都要重新阅读菜谱一样——既低效又昂贵。

这正是华中科技大学Jingyi Jia和Qinbin Li团队在2025年发表的AutoTool研究要解决的核心问题。他们发现,AI智能体的工具使用同样存在着强大的"习惯成自然"现象,并巧妙地将其转化为一个优雅的图结构框架,让智能体在保持高任务完成率的同时,将推理成本降低了高达30%。这不是简单的优化,而是一种思维范式的转变——从"每次都重新思考"到"学会信赖经验"。

---

🔬 第一章:AI智能体的"选择困难症"时代

🤖 繁荣背后的隐忧

近年来,大语言模型(LLMs)如同一场突如其来的春雨,滋润了人工智能的每一寸土地。从GPT系列到Llama家族,这些模型展现出令人惊叹的理解、推理和决策能力。基于它们的智能体(LLM Agents)更是如雨后春笋般涌现,在软件开发、个人助手、科研自动化等领域大显身手。

著名的ReAct框架(Yao et al., 2023)堪称这一浪潮的里程碑。它像一位严谨的科学家,将任务分解为"思考-行动-观察"的循环:先思考当前情况,再决定使用什么工具,最后观察结果并继续下一轮思考。这种范式就像给AI装上了"认知飞轮",让它能够在复杂任务中持续前进。

然而,正如所有伟大的创新都伴随着代价,ReAct及其衍生框架有一个致命的阿喀琉斯之踵:推理成本。想象你的AI助手在做一个简单的学术查询,它可能需要调用LLM十几次甚至几十次,每次都要重新思考"我该用什么工具"。这就像让一位博导教授去帮你决定"现在是该用订书机还是胶水"——大材小用,成本惊人。

> 注解: ReAct(Reasoning-Acting)是一种让大语言模型交替进行推理和行动的方法论。它通过"思考"步骤让模型分析当前状态,通过"行动"步骤调用外部工具,通过"观察"步骤获取反馈,形成闭环。这种方法虽然强大,但每次"思考"都需要一次完整的LLM推理,造成了巨大的计算开销。

💸 当效率遇见天花板

华中科技大学的研究者们敏锐地指出,当前LLM Agent研究过度聚焦于最大化任务成功率,却在运营效率上留下了巨大的改进空间。一个多步骤任务可能触发数十次LLM调用,这对于实时应用或资源受限场景简直是灾难。

更深刻的是,他们认为这种"每次都要LLM思考"的模式本身就是次优的。并非所有决策步骤都同等重要——很多工具调用发生在高度模式化、重复性的上下文中,根本不需要LLM的全部推理能力。这就像用火箭发动机来驱动自行车:强大,但荒诞。

于是,一个大胆的问题浮现出来:我们能否用统计方法替代繁重的LLM推理,实现高效的工具选择?

---

🔍 第二章:解码"工具使用惯性"——来自数字世界的观测

📊 在ScienceWorld里寻找规律

为了验证这个猜想,研究团队在ScienceWorld模拟器中进行了一场精妙的"社会实验"。ScienceWorld是一个文本化的科学实验环境,智能体需要遵循逻辑顺序完成化学、物理等实验任务。这里就像是一个数字实验室,AI科学家们可以安全地观察智能体的行为模式。

他们让ReAct智能体生成了322条执行轨迹,累计6014次工具调用。当这些轨迹像星轨一样在数据分析软件中展开时,一个惊人的模式浮现出来:工具调用不是随机游走,而是遵循可预测的、低熵的序列

想象你正在观察一只蚂蚁在沙滩上留下足迹。如果蚂蚁每一步都随机选择方向,足迹将是混乱无章的。但如果你发现蚂蚁95%的时间都在重复几条固定的路径,那么你就能预测它的下一步。这正是研究人员发现的:

  • 当智能体执行go to(前往某处)后,88.7% 的情况下下一步是look around(观察周围)
  • 当执行focus on → wait(专注→等待)序列后,55.7% 的概率会接look around
  • 参数来源同样集中:对于use(target)操作,44.8% 的参数来自move source

🔢 用信息论量化直觉

聪明的研究者们没有止步于定性观察,而是用信息论这把手术刀精确解剖了这个现象。他们将工具调用序列建模为k阶马尔可夫链,并测量条件熵的下降:

  • 0阶模型(假设每次调用独立):基准熵为3.50比特
  • 1阶模型(考虑前一次工具):熵降至2.52比特
  • 2阶模型(考虑前两次工具):熵进一步降至1.93比特
为了验证统计显著性,他们进行了似然比检验(G²检验,N=6014),结果确认每次模型阶数的提升都带来了高度显著的拟合改善(p < .001)。这就像从黑白电视升级到4K超清——每一个额外的上下文都让预测变得更清晰。

> 注解: 条件熵是信息论中衡量不确定性的指标。在工具选择的场景中,它表示"已知前几个工具的情况下,预测下一个工具的不确定性"。熵值越低,可预测性越强。从3.50降到1.93比特,意味着不确定性降低了近45%,这为统计预测提供了坚实的理论基础。

🔄 参数流动的"血缘关系"

更精妙的是,研究人员发现参数来源也遵循高度集中的模式。表2的数据揭示了一个"参数家族"现象:对于pick up(OBJ)操作,40.1% 的参数来自focus on OBJ。这就像家族传承——上一个工具的输出参数,很可能是下一个工具的输入参数。

这种"血缘关系"不是偶然,而是任务结构的必然。当你要"拿起一本书"时,你很可能之前已经"注意到这本书"了。这种因果链在真实任务中普遍存在,构成了AutoTool框架的第二块基石。

---

🕸️ 第三章:AutoTool——让图结构学会"习惯"

🎯 问题重构:从概率推断到图遍历

有了这些观测,Jia和Li重新定义了问题:给定历史执行轨迹集合D_hist,能否构建一个无需训练的决策算法M_AutoTool,基于工具惯性图(Tool Inertia Graph, TIG)选择性绕过LLM,实现效率提升?

答案是肯定的。AutoTool就像一位经验丰富的老工匠,它不会每次都重新设计工具,而是构建一个动态图结构,记录"什么情况下该用什么工具"的习惯

🏗️ 工具惯性图:数字记忆的拓扑学

AutoTool的核心是一个有向图G_t = (V_t, E_t, W_t),它像神经网络一样,但不是通过反向传播学习,而是通过经验累积生长。

节点(Nodes)采用分层结构:

  • 工具节点(Tool Nodes):每个可用工具对应一个节点,存储功能描述和执行状态
  • 参数节点(Parameter Nodes):嵌套在工具节点内的子节点,代表输入/输出参数
边(Edges)有两类:
  • 工具序列边(Tool Sequence Edges):连接工具节点,记录"工具A之后常接工具B"
  • 参数依赖边(Parameter Dependency Edges):连接参数节点,建模数据流动
权重(Weights)是动态更新的:
w_{t+1}(s_i, s_j) = w_t(s_i, s_j) + 
    Δw_success  (如果惯性调用成功)
    -Δw_failure (如果惯性调用失败)

这就像大脑的习惯回路(Cue → Routine → Reward):环境反馈作为奖励信号,强化有效的工具序列,惩罚失败的路径。图不是静态的,而是像生物组织一样持续生长和修剪

🔍 惯性感知:图搜索的双螺旋

AutoTool的决策过程分为两个阶段,像DNA的双螺旋一样交织:

阶段一:惯性感知(Inertial Sensing) 在每次LLM调用前,AutoTool先"瞥一眼"历史。它查看最近的k个工具(称为惯性窗口),在TIG中寻找匹配的序列。对于每个候选工具,计算综合惯性潜力分数(CIPS)

CIPS = (1-α) · Score_freq + α · Score_ctx

其中:

  • Score_freq(频率分数):来自TIG边权重,代表历史可靠性
  • Score_ctx(上下文分数):基于语义相似度,评估与当前任务的相关性
  • α(平衡系数):默认0.5,平衡历史经验与当前情境
只有当最高CIPS超过阈值θ_inertial时,才触发惯性调用。这就像大脑的前扣带皮层评估"这个习惯是否适合当前情境"。

阶段二:分层参数填充(Hierarchical Parameter Filling) 如果工具候选通过筛选,AutoTool尝试用三级策略填充参数:

1. 依赖回溯:沿参数依赖边查找历史数据(优先级最高) 2. 环境状态匹配:使用智能体维护的当前状态(如位置) 3. 启发式填充:基于任务目标的最后尝试

只有所有必需参数都被成功填充,惯性调用才会执行。否则,系统优雅地回退到标准LLM推理,确保可靠性不打折扣。

> 注解: 惯性窗口是AutoTool考虑的历史工具序列长度。实验中设为2,这意味着系统主要依赖最近两次工具调用来预测下一步。太短缺乏上下文,太长则历史匹配困难。这就像人类短期记忆的黄金平衡点——我们很少需要回忆十分钟前做的每一件事来做下一个决定。

---

第四章:效率革命——数字不会撒谎

🎯 三大战场上的实战检验

为了证明AutoTool不是纸上谈兵,研究团队在三个截然不同的基准测试上展开了全面评估:

1. AlfWorld:文本化的家庭任务模拟器

  • 任务:"把苹果放进冰箱"、"在客厅找钥匙"
  • 挑战:物理推理、空间导航
2. ScienceWorld:科学实验流程遵循
  • 任务:"测量某溶液的pH值"、"混合两种化学物质"
  • 挑战:程序性知识、多步骤逻辑
3. ToolQuery-Academic:学术数据库查询
  • 任务:"查找某作者的论文"、"分析某会议的发表趋势"
  • 挑战:结构化API调用、信息检索

📈 SpeedUp:30%的效率跃迁

表3的数据像一记清脆的耳光,打在了"高性能必须高成本"的传统认知上:

ReAct + AutoTool 的表现:

  • AlfWorld:LLM调用减少1.18倍,token消耗减少1.60倍(输入)/2.87倍(输出),进度率从0.394提升到0.531
  • ScienceWorld:token-in减少1.30倍,token-out减少1.41倍,LLM调用减少1.31倍
  • ToolQuery-Academic:LLM调用减少1.20倍,token-out甚至接近持平(0.92x)
最令人惊讶的是,AlfWorld上进度率反而提升了。这归功于AutoTool集成的容错机制:当检测到连续工具失败时,触发检查操作,帮助智能体跳出无效探索循环。这就像给自动驾驶系统增加了"当路走不通时,看看地图"的常识。

Reflexion + AutoTool 展现出更强的稳定性:

  • 虽然LLM调用减少幅度略低(1.26-1.29倍),但进度率保持稳定
  • Reflexion的自我反思机制提供了更高质量的惯性轨迹,减少了无意义的试错

🔬 跨模型鲁棒性:通用架构的胜利

为了证明AutoTool不是某个模型的"特权",研究者在ScienceWorld上测试了四个不同架构和规模的LLM:

  • Llama-4-Scout-17B:token-in减少23%,LLM调用减少24%
  • Llama-3.3-70B:token-in减少29%,LLM调用减少24%
  • Qwen2.5-72B:token-in减少18%,LLM调用减少19%
  • DeepSeekV3:token-in减少35%,LLM调用减少31%,进度率从0.448提升到0.589
DeepSeekV3的显著提升尤其有趣。研究团队发现,该模型指令遵循能力较弱,经常输出格式错误的行动,导致大量步骤浪费。但AutoTool的预配置恢复路径(连续两次错误调用后强制检查有效行动)显著改善了这一问题。这就像一个耐心的教练,在学员反复犯错时及时提醒"先看看规则书"。

---

🔍 第五章:解剖麻雀——案例研究中的成功与失败

🎉 成功案例:当惯性成为智慧的捷径

图4展示了一个典型的ScienceWorld任务:在厨房找到柜台,并将物品移动到紫色盒子中。

ReAct基线的挣扎

思考: 我需要找到厨房...让我看看周围
行动: look around
观察: 你在走廊,看到一幅画
思考: 我要去厨房
行动: go to kitchen
观察: 你到达了厨房
思考: 现在找柜台
行动: look around
...

每一步都需要完整的LLM推理,token消耗像漏水的水龙头。

AutoTool的优雅舞步

思考: 使用图惯性预测下一步行动 look around
行动: look around  [惯性调用]
观察: 你在走廊...

思考: 使用图惯性预测下一步行动 go to kitchen
行动: go to kitchen  [惯性调用]
观察: 你到达了厨房

思考: 使用图惯性预测下一步行动 look around
行动: look around  [惯性调用]
...

连续的look aroundgo to被惯性接管,LLM得以休息。这就像老司机开车——不需要每次转弯都重新思考方向盘怎么打。

💔 失败案例:当惯性遭遇"水土不服"

AutoTool的诚实之处在于,它没有隐藏自己的局限性。附录D中详细分析了三种典型失败场景,这些案例反而证明了框架设计的自洽性

场景1:参数填充的"张冠李戴"

目标: 把CD放进保险箱
上下文: 智能体在desk 2附近,持有cd 1

惯性调用: put cd 1 in/on drawer 1
结果: 失败
分析: 
- 逻辑错配: drawer 1 ≠ safe(目标冲突)
- 物理前提违反: 智能体在desk 2,无法操作drawer 1

这暴露了惯性在上下文感知上的盲区。AutoTool从历史中学到"put X in/on Y"的模式,但没理解Y必须同时满足任务语义物理可达性。就像一个学会"把东西放进容器"的孩子,可能会试图把玩具塞进关闭的抽屉。

场景2:冗余动作的"原地踏步"

目标: 把肥皂扔进垃圾桶
上下文: 智能体已在countertop 1,持有soapbar 1

惯性调用: go to countertop 1
结果: Nothing happens
分析: 完全冗余,智能体已经在目标位置

这是过度泛化的经典症状。历史数据中go to → put是高频序列,但AutoTool mechanically执行了第一步,却没有先检查"我已经到了"。这就像你伸手去拿杯子,却没发现杯子已经在手中。

场景3:对象语义的"一刀切"

目标: 把干净的抹刀放进抽屉
上下文: 智能体在sinkbasin 1

惯性调用: open sinkbasin 1
结果: 失败
分析: sinkbasin是开放容器,没有可打开的盖子

AutoTool学到了"到达容器→打开它"的模式,但没理解并非所有容器都可打开。这就像学会"拧开瓶盖"的人,可能会试图拧开易拉罐的拉环。

这些失败并非致命弱点,而是设计权衡的必然结果。AutoTool通过双重保险来应对: 1. 30%惯性调用上限:防止低质量惯性淹没系统 2. 禁止连续惯性调用:确保LLM有机会"纠偏"

---

🧠 第六章:理论基石——从信息论到认知科学

📐 低熵马尔可夫过程:可预测性的数学保证

AutoTool的效率不是魔法,而是有坚实的理论支撑。研究团队将工具选择序列建模为马尔可夫决策过程(MDP),其中状态空间S = {tool₁, ..., toolₙ}是可用工具集合。

条件熵公式揭示了核心洞察: H(S_{t+1}|S_t) = - Σ p(s_i, s_j) log₂ p(s_j|s_i)

当系统真正有惯性时,这个值会远小于最大熵log₂|S|。在ToolBench的宏观分析中,1595个工具的系统理论最大熵是10.64比特,但实际观测到的条件熵只有3.62比特降低了66%

这提供了一个形式化保证:工具调用不是随机游走,而是被强模式支配。就像城市交通网络——理论上你可以从任意路口去任意路口,但实际上早高峰时每个路口的转向概率高度可预测。

🧩 认知启发式:启动效应与习惯回路

AutoTool的图更新机制暗合了认知科学中的习惯形成理论。执行工具A作为"线索(Cue)",触发调用工具B的"习惯(Routine)",环境反馈作为"奖励(Reward)"强化这条边。

权重更新公式: w_{t+1}(s_i, s_j) = w_t(s_i, s_j) + Δw_{success} / -Δw_{failure)

这与Duhigg在《习惯的力量》中描述的"习惯回路"惊人相似。AutoTool不是在"编程"智能体,而是在模拟生物的学习过程

🗺️ 图搜索:决策的捷径

一个没有约束的LLM每步面临Nᵀ量级的可能轨迹(N是工具数,T是序列长度)。AutoTool通过TIG将这个开放性问题转化为受约束的图搜索

CIPS的设计哲学与**A*搜索算法异曲同工:

  • Score_freq 像已知代价g(n),评估历史路径的可靠性
  • Score_ctx 像启发函数h(n),预测未来成功概率
这种利用历史+启发式的混合策略,让AutoTool在利用(Exploitation)探索(Exploration)间优雅平衡。正如Zhuang等人的工作所证明,这种引导搜索在LLM动作空间中同样有效。

---

🌊 第七章:动态进化——在线学习的艺术

📈 从冷启动到炉火纯青

AutoTool最迷人的特性或许是其在线学习能力。图5-8展示了Reflexion+AutoTool在AlfWorld上的动态演化:

  • 前40个任务:冷启动期,性能略低于基线(图8a)
  • 第80个任务左右:转折点,性能开始稳步提升
  • 后期阶段:与基线持平,但效率优势持续扩大(图8b, 8c)
这揭示了AutoTool的双重加速效应: 1. 即时加速:从历史数据中学习模式,直接跳过LLM调用 2. 累积加速:随着轨迹增多,图结构越来越精确,惯性调用质量持续提升

就像一位新手厨师和一位主厨的区别:前者每步都要看菜谱,后者凭肌肉记忆就能完成80%的操作,把脑力留给真正的创新。

🔄 参数填充的精准度

表8的参数填充统计揭示了更深层的洞察:

环境尝试率成功率
Academic - PDG模式74.29%76.92%
Academic - 上下文填充25.71%66.67%
AlfWorld - PDG模式68.87%27.88%
ScienceWorld - PDG模式70.22%51.24%
学术任务的高成功率(76.92%)得益于其结构化输入输出——API参数通常是明确的ID或字符串。而AlfWorld的低成功率(27.88%)反映了开放环境中自然语言描述的多样性和模糊性

这印证了AutoTool的设计哲学:在结构化环境中,惯性是强大的加速器;在开放环境中,它是谨慎的辅助者。系统不会盲目自信,而是通过ICF(惯性置信因子) 机制,在数据稀疏时主动抑制惯性调用。

---

⚖️ 第八章:理性的自省——局限与未来之路

🚧 当前边界

AutoTool团队展现了罕见的学术诚实,在附录G中坦然列出了局限:

1. 数据依赖:性能受历史数据质量和数量的制约,冷启动挑战尤其在超大规模工具集中显著 2. 动态环境局限:在高度动态或需要复杂推理的任务中,惯性预测效果下降 3. 解析开销:对非结构化工具输出需要定制解析函数,增加工程成本 4. 超参数敏感:θ_inertial和α需要手动调优,尚未实现自适应

这些局限不是终点,而是未来研究的起跑线

🌌 未来演进方向

研究团队勾勒了几个激动人心的前景:

自适应超参数调优:让θ_inertial和α根据任务难度和环境反馈动态调整,就像人类会根据情况调整"依赖习惯 vs 审慎思考"的平衡点。

深度语义集成:当前CIPS中的Score_ctx仅使用简单的语义相似度。未来可引入更丰富的上下文理解,如任务目标分解、工具功能嵌入向量等。

分层惯性图:构建多层次的TIG——高层捕捉抽象任务模式(如"信息检索→分析→总结"),低层捕捉具体工具序列。这类似于人类认知中的"模式识别"和"实例回忆"的双系统。

跨任务迁移:探索在不同但相关的任务间迁移惯性图,解决冷启动问题。就像一位化学家的实验习惯可以部分迁移到生物学实验中。

---

🎬 第九章:更宏大的叙事——从个体习惯到群体智能

🕸️ 图结构的隐喻

工具惯性图(TIG)不仅是技术实现,更是一个强大的隐喻。它揭示了一个普适真理:智能的效率来源于结构化的经验沉淀

在个体层面,TIG像个人记忆;在群体层面,它可以演化为集体知识图谱。想象一个开源社区,所有开发者使用AutoTool风格的Agent,他们的TIG可以聚合、共享,形成"社区最佳实践"的拓扑图。这不再是一个智能体的习惯,而是整个生态的智慧结晶

🔄 从React到Proact

ReAct的"思考-行动-观察"循环是反应式(Reactive)的,而AutoTool添加了惯性层,使其成为前摄式(Proactive)的。它不只是被动响应,更能主动预测

这种从Reactive到Proactive的跃迁,在AI发展史上反复出现:从被动分类到主动生成,从监督学习到强化学习。AutoTool代表了Agent设计的第三条道路:不是完全依赖LLM的"纯粹推理",也不是完全基于规则的"硬编码",而是数据驱动的软习惯

---

📚 参考文献与致谢

🎯 核心参考文献

1. Jia, J., & Li, Q.** (2025). AutoTool: Efficient Tool Selection for Large Language Model Agents. *arXiv:2511.14650v1*.

  • 本文的主体研究,提出了工具惯性图框架,在三个基准测试上实现了15-30%的LLM调用减少。
2. Yao, S., et al. (2023). ReAct: Synergizing Reasoning and Acting in Language Models. *ICLR 2023*.
  • 当前LLM Agent的主流范式,AutoTool优化的基础框架。
3. Shannon, C. E. (1948). A Mathematical Theory of Communication. *The Bell System Technical Journal*.
  • 信息论奠基之作,为工具使用惯性的熵分析提供理论工具。
4. Duhigg, C. (2012). *The Power of Habit*. Random House.
  • 习惯回路理论,与AutoTool的动态权重更新机制高度契合。
5. Ma, Y., et al. (2024). AgentBoard: An Analytical Evaluation Board of Agentic Capabilities. *ICLR 2024*.
  • ToolQuery-Academic基准的来源,提供了进展率评估方法论。

💝 致谢

本研究得到中国国家自然科学基金(Grant No. 62502174)支持。感谢ScienceWorld、AlfWorld和ToolBench社区提供的评估环境。所有实验代码已开源:https://github.com/jiajingyyyyyy/AutoTool

---

🎓 结语:智能的进化论

AutoTool的故事,本质上是一个关于进化的故事。

在生命演化的长河中,生物通过将重复的刺激-反应模式编码成本能,节省了宝贵的认知资源,才得以发展出更高级的智慧。单细胞生物的趋化性,哺乳动物的恐惧反应,人类的驾驶习惯——都是同一种原理的不同表现。

AI智能体正在经历类似的进化。早期的规则系统像单细胞生物,对每种刺激都有硬编码反应;LLM-based Agent像哺乳动物,能够灵活推理但耗能巨大;AutoTool则代表了智慧的中间态——在习惯和推理间找到动态平衡。

它不完美,但真实。它不试图解决所有问题,而是诚实地承认局限并设计优雅回退。它不承诺通用人工智能的神话,而是在特定约束下最大化效率

这才是科学应有的样子:用数据说话,用理论支撑,用实验验证,用诚实自省

当未来的AI史学家回望2025年,他们或许会记下:这一年,智能体学会了"习惯成自然",开始懂得何时该思考,何时该信赖经验。而AutoTool,就是这场认知革命的第一块基石。

---

📝 附录:技术细节速览

> 为技术爱好者准备的快速参考

TIG数据结构

ToolNode:
  - name: str
  - description: str
  - param_graph: ParamGraph
  - args: List[ParamNode]
  - returns: List[ParamNode]

ParamEdge:
  - source: (tool, param)
  - target: (tool, param)  
  - count: int  # 频率计数

ToolPath:
  - sequence: List[tool_name]
  - frequency: int
  - success_score: float

CIPS计算

ICS(c_j) = (w(c_j)/W_total) * ICF
ICF = 1 - k^(-W_total)  # k=1.1
CIPS = (1-α)*ICS + α*Sim(intuition, tool_desc)

参数填充层级: 1. 查参数依赖图 → 2. 环境状态匹配 → 3. 启发式填充 → 4. LLM回退

关键超参数

  • θ_inertial = 0.1:惯性触发阈值
  • α = 0.5:频率与语义平衡
  • inertia_window = 2:历史序列长度
  • max_inertial_calls = 30%:安全上限
---

讨论回复 (0)