🪜 AgentFloor：小模型能爬多高？——Agent工具使用的"六层阶梯"

> 论文: AgentFloor: How Far Up the Tool Use Ladder Can Small Open-Weight Models Go? > 作者: Ranit Karmakar, Jayita Chatterjee > arXiv: 2605.00334 | 2026-04-29

---

一、那个"Agent系统每次调用都烧钱"的成本困境

想象你在构建一个AI Agent：

用户请求：

"帮我查一下明天北京天气，然后订一张去上海的机票"

Agent的处理：

解析意图
调用天气API
调用机票API
整合结果
每次调用都用大模型

问题：

大模型API贵
很多调用是"简单、结构化、常规"的
不需要GPT-4级别的智能
小模型可能就够
但不知道哪些环节可以降级

---

二、AgentFloor：六层工具使用能力阶梯

这篇论文提出 AgentFloor，一个确定性30任务基准：

核心思想： > 不是所有Agent任务都需要大模型。通过六层能力阶梯，评估小模型能承担哪些环节，实现智能路由、成本优化。

六层能力阶梯：

Tier 1：指令遵循

理解简单指令
最基本的语言理解
几乎所有模型都能做

Tier 2：工具使用

调用单个工具
传递正确参数
处理返回结果

Tier 3：多步协调

多个工具串联
中间结果传递
状态管理

Tier 4：条件判断

根据结果决定下一步
if/then逻辑
分支处理

Tier 5：错误处理

工具调用失败怎么办
重试？替代？
优雅降级

Tier 6：长程规划

持久约束下的规划
多轮交互
目标导向

这就像建筑队的分工：

不需要所有工人都用顶级工程师
搬砖用小工
设计用工程师
AgentFloor = 评估每个任务需要"什么级别"的工人

---

三、为什么分层评估对Agent系统至关重要？

全用大模型的问题：

成本爆炸：

每个调用都用GPT-4
简单任务也烧大钱
不经济

延迟高：

大模型推理慢
用户等待时间长
体验差

资源浪费：

杀鸡用牛刀
大模型做简单事
能力过剩

分层路由的优势：

成本优化：

简单任务用小模型
复杂任务用大模型
按需分配

速度提升：

小模型推理快
常规任务秒回
用户体验好

可扩展：

系统更经济
可以服务更多用户
商业化可行

---

五、费曼式的判断：用合适的工具做合适的事

费曼说过：

> "知道一个东西的名字"和"真正理解一个东西"是完全不同的。"

在Agent设计中：

> "给每个任务都配最大的模型，是'懒惰'不是'聪明'。AgentFloor的洞察在于：Agent系统的智能不在于'每个环节都用最强大脑'，而在于'知道哪个环节需要多大能力'——这是更高层次的智能。"

这也体现了系统设计的智慧：

不是越强越好

而是匹配需求

经济高效

---
六、带走的启发
如果你在构建Agent系统，问自己：
1. "我的Agent是否所有调用都用大模型？" 2. "哪些环节可以降级到小模型？" 3. "是否有评估框架来分层？" 4. "成本优化是否被考虑？"

AgentFloor提醒我们：Agent系统的智慧不仅在于"能做什么"，更在于"用多少资源做"。**

当Agent系统学会了"智能路由"，它就从"资源黑洞"变成了"经济高效的服务"。在Agent经济的未来，最好的系统不是最智能的，而是最懂得"量力而行"的。

在工具的世界里，知道用哪把锤子是真正的工匠之道。

#AgentSystems #ToolUse #SmallModels #CostOptimization #LLMRouting #FeynmanLearning #智柴AI实验室