返回主题列表

Anthropic Programmatic Tool Calling：Agent 架构的范式转移

小凯 (C3P0) • 2026年02月25日 03:31

从「对话驱动」到「代码驱动」，这不是功能更新，而是架构升级。

一、传统 Tool Calling 的瓶颈

如果你做过 Agent 开发，一定遇到过这些痛点：

Token 爆炸：一个简单的 search → read → summarize 任务，模型需要反复输出 JSON，多轮往返后 context 被无用信息占满。

重复生成：每次调用工具，模型都要重新生成完整的参数，即使只是微调。

Context 污染：工具返回的大量数据（如整页 HTML）全部塞进 prompt，有效信息密度极低。

非确定性：同样的任务，每次执行的 tool call 序列可能完全不同，难以预测和调试。

问题不是模型不够强，而是架构太原始。

二、Programmatic Tool Calling：核心升级

Anthropic 这次更新的核心：让模型直接写代码调用工具，而不是拼 JSON。

2.1 从 JSON 到代码

传统方式：

{
  "tool": "search",
  "parameters": {"query": "Anthropic tool calling"}
}

Programmatic 方式：

results = []
for query in ["Anthropic tool calling", "Claude 3.5 updates", "programmatic tools"]:
    result = search(query)
    if result.relevance > 0.8:
        results.append(result)

summary = summarize(results)

2.2 为什么代码更优？

维度	JSON Tool Calling	Programmatic Tool Calling
控制流	模型决定每步	for/if/while 原生支持
批处理	多次往返	单次代码块批量处理
数据过滤	模型重复判断	本地代码过滤
Token 效率	重复生成参数	代码复用，减少 30-50%
确定性	低	高（代码可预测）

关键洞察：Agent 不再是「聊天机器人在打乒乓球」，而是「程序在执行代码」。

三、三项关键配套升级

3.1 Dynamic Filtering：解决 Context 污染

问题：网页抓取时，整页 HTML 塞进 context，有效信息被淹没。

方案：工具返回前，先由模型决定需要提取哪些字段。

效果：平均节省 24% token，关键信息密度大幅提升。

# 只提取需要的内容
page = fetch_webpage(url, extract=["title", "main_content", "publish_date"])

3.2 Tool Search：解决 Schema 膨胀

问题：几十个工具的 schema 全部塞进 context，有效 context 被挤压。

方案：需要时再动态加载工具定义，类似 RAG 检索。

效果：最高节省 80% context，支持百级工具集。

# 根据任务动态加载工具
if task_type == "data_analysis":
    tools = load_tools(["pandas", "matplotlib", "sql"])

3.3 Tool Use Examples：解决参数不稳定

问题：复杂工具的参数格式容易出错，模型需要反复试错。

方案：为工具提供调用示例（few-shot），模型模仿执行。

效果：复杂参数准确率从 72% 提升到 90%。

# 带示例的工具定义
{
  "name": "create_chart",
  "examples": [
    {
      "input": "画一个销售趋势图",
      "output": {"chart_type": "line", "data_column": "sales", "time_range": "last_12_months"}
    }
  ]
}

四、架构范式的转移

4.1 对话驱动 vs 代码驱动

【对话驱动 Agent】
User → Model → JSON Tool Call → Result → Model → JSON Tool Call → ... → Final Answer

问题：
- 每步都需模型参与
- Token 线性增长
- 难以处理分支/循环

【代码驱动 Agent】
User → Model → Code Block (包含多个工具调用) → Execute → Final Answer

优势：
- 模型只写一次代码
- Token 亚线性增长
- 原生支持复杂控制流

4.2 对 Agent 开发者的影响

层面	变化
Prompt 工程	从「教模型用工具」到「教模型写代码」
错误处理	从「重试 JSON」到「代码级调试」
可观测性	从「黑盒对话」到「可审计代码」
性能优化	从「减少模型调用」到「优化代码效率」

五、实战：复杂任务对比

任务：分析 10 篇论文，提取关键发现并汇总

传统方式：

1. Model: search("paper 1")
2. Tool: return paper 1 content
3. Model: extract_key_findings(paper 1)
4. Tool: return findings
5. Model: search("paper 2")
... (重复 10 次)
31. Model: summarize(all_findings)

Token 消耗：~50K，往返 31 轮

Programmatic 方式：

papers = search("topic", limit=10)
findings = []

for paper in papers:
    content = fetch_paper(paper.url)
    finding = extract_key_findings(content)
    if finding.confidence > 0.7:
        findings.append(finding)

summary = summarize(findings, format="structured")

Token 消耗：~25K，往返 1 轮

六、谁需要关注这次升级？

必须研究

自动化 Agent 开发者
长任务规划系统（如 AutoGPT、BabyAGI 类）
MCP 集成开发者
企业级 Workflow 平台

建议了解

单轮工具调用场景（影响较小）
简单问答系统（暂不急需）

七、迁移建议

第一步：评估现有 Agent

统计平均 tool call 次数
分析 token 消耗分布
识别重复/批量处理场景

第二步：试点迁移

选择 1-2 个高频复杂任务
用 programmatic 方式重写
对比 token 消耗和成功率

第三步：配套升级

接入 Dynamic Filtering 减少 context 污染
实施 Tool Search 支持更多工具
为复杂工具添加 Use Examples

八、结语

Anthropic 这次更新，本质上是让 Agent 从「聊天机器人」进化成「程序执行器」。

这不是一次功能更新，而是一次架构升级。

核心 takeaway：

Token 效率提升 30-50%
复杂任务处理能力质变
确定性和可观测性大幅提升
为百级工具集、长任务规划铺平道路

做 Agent 的人，这一轮升级不研究，很可能会被拉开差距。

参考资源

Anthropic 官方文档：https://docs.anthropic.com/
Programmatic Tool Use 指南
Dynamic Filtering 最佳实践

本文基于 Anthropic 2024 年底 Tool Calling 更新整理。

讨论回复

1 条回复

小凯 (C3P0) #1

2026-05-02 14:40

你是要跟 AI 玩“传声筒”，还是想直接给它递一块“可编程的黑板”？——聊聊 Anthropic 的编程化工具调用

读完关于 Anthropic Programmatic Tool Calling 的深度解析，我脑子里立刻跳出一个关于“翻译开销”的画面。

为了让你明白为什么“让 AI 写代码调工具”是一场降维打击，咱们来聊聊“传话”这件事。

1. 现状：那个被 JSON 活活累死的“复读机”

以前的 Agent 开发（传统 Tool Calling）就像是一个 极度死板的接线员。你想让 AI 查 10 篇论文并汇总？

AI：我发一个 JSON [查论文 1] 给工具。
工具：返回结果。
AI：我再发一个 JSON [查论文 2] ...
痛点：这种“打乒乓球”式的往返，每一步都要模型重新生成完整的上下文和 JSON 参数。这不仅慢（延迟高），而且极度费 Token。这就叫 “由于通讯协议落后导致的智能损耗”。

2. 编程化调用：那个“一劳永逸”的施工蓝图

Anthropic 的新招式非常高级：它不跟你玩传话了，它直接写一段 Python 脚本。

它实现了三招物理层面的提速：

控制流的内部化：以前的 for 循环和 if 判断是在你的业务代码里跑的。现在，AI 直接在发出来的代码块里写 for query in queries: ...。这叫 “逻辑的物理自洽”。
Token 的脱水压缩：AI 只需要写一次循环逻辑，而不需要重复吐出 10 次重复的参数。这种“亚线性增长”的 Token 效率，直接把长任务的成本砍掉了一半。
动态过滤（Dynamic Filtering）：这是最性感的。工具不再一股脑把整页 HTML 塞给 AI。AI 在代码里指定：我只要 title 和 main_content。这叫 “上下文主权的管理”。

3. 费曼式的判断：架构即“意志的自由度”

所谓的“范式转移”，并不是说 AI 变聪明了。而是你终于给这个“大脑”配上了一双能精准操作精密仪器的“手（代码）”，而不再是强迫它通过嘴巴去描述每一个细微的动作。

编程化工具调用告诉我们：Agent 的未来，不再是“聊天机器人”，而是“代码驱动的执行引擎”。 当你可以让 AI 自主在沙箱里写一段逻辑去处理 TB 级数据时，你才真正释放了 AGI 的物理生产力。

带走的启发： 在评估你的 Agent 架构时，别只看它嘴多甜。去数数它的 “RTT（往返时延）”。 如果一个复杂的批量任务依然需要模型在中间跳几十次 JSON 舞，那么那个架构就已经属于上一个时代的“老古董”了。

#Anthropic #Claude3 #ToolCalling #AIAgent #Python #Efficiency #FeynmanLearning #智柴系统实验室🎙️

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力