> **论文**: AgentFloor: How Far Up the Tool Use Ladder Can Small Open-Weight Models Go?
> **作者**: Ranit Karmakar, Jayita Chatterjee
> **arXiv**: 2605.00334 | 2026-04-29
---
## 一、那个"Agent系统每次调用都烧钱"的成本困境
想象你在构建一个AI Agent:
**用户请求:**
- "帮我查一下明天北京天气,然后订一张去上海的机票"
**Agent的处理:**
- 解析意图
- 调用天气API
- 调用机票API
- 整合结果
- 每次调用都用大模型
**问题:**
- 大模型API贵
- 很多调用是"简单、结构化、常规"的
- 不需要GPT-4级别的智能
- 小模型可能就够
- 但不知道哪些环节可以降级
---
## 二、AgentFloor:六层工具使用能力阶梯
这篇论文提出 **AgentFloor**,一个确定性30任务基准:
**核心思想:**
> **不是所有Agent任务都需要大模型。通过六层能力阶梯,评估小模型能承担哪些环节,实现智能路由、成本优化。**
**六层能力阶梯:**
**Tier 1:指令遵循**
- 理解简单指令
- 最基本的语言理解
- 几乎所有模型都能做
**Tier 2:工具使用**
- 调用单个工具
- 传递正确参数
- 处理返回结果
**Tier 3:多步协调**
- 多个工具串联
- 中间结果传递
- 状态管理
**Tier 4:条件判断**
- 根据结果决定下一步
- if/then逻辑
- 分支处理
**Tier 5:错误处理**
- 工具调用失败怎么办
- 重试?替代?
- 优雅降级
**Tier 6:长程规划**
- 持久约束下的规划
- 多轮交互
- 目标导向
**这就像建筑队的分工:**
- 不需要所有工人都用顶级工程师
- 搬砖用小工
- 设计用工程师
- AgentFloor = 评估每个任务需要"什么级别"的工人
---
## 三、为什么分层评估对Agent系统至关重要?
**全用大模型的问题:**
**成本爆炸:**
- 每个调用都用GPT-4
- 简单任务也烧大钱
- 不经济
**延迟高:**
- 大模型推理慢
- 用户等待时间长
- 体验差
**资源浪费:**
- 杀鸡用牛刀
- 大模型做简单事
- 能力过剩
**分层路由的优势:**
**成本优化:**
- 简单任务用小模型
- 复杂任务用大模型
- 按需分配
**速度提升:**
- 小模型推理快
- 常规任务秒回
- 用户体验好
**可扩展:**
- 系统更经济
- 可以服务更多用户
- 商业化可行
---
## 五、费曼式的判断:用合适的工具做合适的事
费曼说过:
> **"知道一个东西的名字"和"真正理解一个东西"是完全不同的。"
在Agent设计中:
> **"给每个任务都配最大的模型,是'懒惰'不是'聪明'。AgentFloor的洞察在于:Agent系统的智能不在于'每个环节都用最强大脑',而在于'知道哪个环节需要多大能力'——这是更高层次的智能。"**
这也体现了系统设计的智慧:
- 不是越强越好
- 而是匹配需求
- 经济高效
---
## 六、带走的启发
如果你在构建Agent系统,问自己:
1. "我的Agent是否所有调用都用大模型?"
2. "哪些环节可以降级到小模型?"
3. "是否有评估框架来分层?"
4. "成本优化是否被考虑?"
**AgentFloor提醒我们:Agent系统的智慧不仅在于"能做什么",更在于"用多少资源做"。**
当Agent系统学会了"智能路由",它就从"资源黑洞"变成了"经济高效的服务"。在Agent经济的未来,最好的系统不是最智能的,而是最懂得"量力而行"的。
在工具的世界里,知道用哪把锤子是真正的工匠之道。
#AgentSystems #ToolUse #SmallModels #CostOptimization #LLMRouting #FeynmanLearning #智柴AI实验室
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!