从玩具到工具: Agent 基础设施的成人礼

还记得早期的聊天机器人吗?

大约十年前，如果你说"我要做个能自动帮我订机票的 AI"，人们会觉得你在科幻电影里。那时的"智能助手"基本上就是: 你问天气，它告诉你"今天晴"; 你让它订机票，它给你发个链接让你自己去点。

这就是早期 AI 的常态——问答可以，但行动不行。

2023 年，当 ChatGPT 横空出世，情况开始变化。人们发现 AI 不仅能回答问题，还能写代码、做分析、甚至"假装"在帮你做事。但"假装"和"真正做"之间，有一道巨大的鸿沟。

今天，我们正在跨越这道鸿沟。Agent——能真正执行任务的 AI——正在从概念变成产品，从玩具变成工具。

Hermes Agent: 开源界的新星

Nous Research 推出的 Hermes Agent，代表了开源 Agent 的一个重要进化。

传统上，如果你想用 AI 自动完成一些任务，你有几个选择: 1. 用 OpenAI 的 GPT-4 配合各种 API 调用——效果好，但贵，而且依赖单一供应商 2. 用开源模型自己搭建——便宜，但能力弱，而且要自己处理很多工程问题

Hermes Agent 试图打破这种两难。它把 Hugging Face 集成成了"一等公民"——你可以直接用它接入 28 个精选的开源模型，还能自己添加更多。

这听起来可能没什么大不了，但实际意义深远。

首先，它降低了成本。开源模型虽然单看能力不如 GPT-4，但如果选对了模型、用对了场景，性价比可能更高。对于预算有限的团队，这是一个真正的选择。

其次，它提供了灵活性。不同的任务适合不同的模型。写代码可能用 Codellama 更好，处理文本可能用 Mistral 更适合。Hermes Agent 让你可以为不同任务选择最优解，而不是一刀切。

最重要的是，它开始像一个"正经产品"了。

早期的开源 Agent 项目往往像个技术 Demo——能跑通流程，但用起来磕磕绊绊。Hermes Agent 则在用户体验上下了功夫: 记忆功能、持久会话、合理的交互设计。社区反馈说，它比起依赖浏览器自动化的方案，更像一个真正的开发工具。

Agent 工程的软件化

更有趣的变化发生在"幕后"。Agent 正在从一个"实验性技术"变成一个"可工程化的软件品类"。

Hugging Face 提出了开放 Agent trace 数据集的概念，并推广 Agent Data Protocol。这是什么意思?

想象你正在调试一个传统软件。你可以看到每一步发生了什么: 哪个函数被调用了，传入什么参数，返回什么结果。这让调试和优化变得可能。

但早期的 Agent 像个黑盒。你让它"帮我整理邮件"，它可能中间调用了 20 个工具，但你很难知道具体发生了什么。出了问题，也很难定位是哪里出了错。

开放的 Agent trace，就是要解决这个问题。通过标准化记录 Agent 的执行轨迹，开发者可以:

复盘 Agent 的决策过程
发现错误并改进
对比不同 Agent 策略的效果

这就像给 AI 装上了"飞行记录器"——不仅能让它飞，还能知道它为什么摔。

LangChain 也在推动类似的工程化。他们提供:

Agent 上线前的评估清单
IDE 式的开发界面
多环境管理和回滚能力

这些都是成熟软件工程的基本要素。Agent 领域正在补上这一课。

新的评测基准: AA-AgentPerf

评价 Agent 的能力，正在变得越来越精细化。

Artificial Analysis 推出的 AA-AgentPerf 基准，不再简单地测"能不能完成任务"，而是测"在真实工作负载下的效率"。

具体来说，它关注:

代码 Agent 在长序列(10 万+ token)任务上的吞吐
每块 GPU、每千瓦电力、每美元成本、每机架能服务多少并发用户

这反映了 Agent 应用的一个现实: 在实验室里跑得好，不代表在生产环境能用。

一个 Agent 可能在短任务上表现完美，但面对复杂、长时的真实工作负载就崩溃了。AA-AgentPerf 就是要暴露这种差距。

对于企业来说，这提供了更实用的选型依据。选 Agent 方案时，不仅要看"能不能做"，还要看"做得多快、多贵、多稳定"。

多 Agent 协作: 虚拟程序员团队

当单个 Agent 开始成熟，下一个问题自然浮现: 如果让一个 Agent 团队一起工作会怎样?

这听起来像科幻，但已经有人在实践了。

目前的共识是，管理多 Agent 应该像管理一个虚拟程序员团队:

看板式任务卡: 每个 Agent 有自己的任务列表
独立工作树: 不同 Agent 可以并行处理不同分支
Diff 审核: 最终结果通过类似代码审核的机制合并

配套工具也在跟上: 浏览器调试面板、实时会话监控、多 Agent 状态可视化。

这不是"一个超级聪明的 AI 做所有事"，而是"多个各有所长的 AI 协作完成复杂任务"。就像真实团队一样——有人擅长架构，有人擅长实现，有人擅长测试。

OpenAI Codex 插件: 从聊天到工作流

OpenAI 的 Codex 插件生态，展示了另一个方向: 让 Agent "长"在工作流里。

传统的 AI 交互是"一问一答": 你输入 prompt，AI 返回结果。这种方式适合探索性任务，但对于重复性、流程化的工作，效率不高。

Codex 插件的目标是: 让 Agent 常驻在你的工作环境中。

Box 发布的 Codex 插件就是一个例子。它可以自动处理存储在 Box 中的文档工作流——不需要你每次手动触发，而是像后台进程一样持续运行。

开发者反馈说，重心正在从"写一个好的 prompt"转向"设计一个好的工作流"。这是一个重要的范式转变:

以前，你要学会"和 AI 对话"
现在，你要学会"让 AI 工作"

对行业的意义

Agent 基础设施的成熟，标志着 AI 正在进入一个新的阶段。

第一阶段是"玩具期": AI 能做一些酷炫的演示，但很难真正落地。 第二阶段是"工具期": AI 开始成为可依赖的生产力工具。

我们正处在这个转折点上。

对于开发者，这意味着新的机会。Agent infra(基础设施)是一个正在形成的赛道，还有很多空白需要填补。

对于企业，这意味着需要重新评估 AI 策略。不仅要看"有没有用 AI"，还要看"AI 能不能真正融入工作流"。

对于普通用户，这意味着更好的体验。当 Agent 变得更可靠、更易用，它们会越来越多地出现在我们日常使用的工具中——可能是一个智能邮件助手，可能是一个自动化的代码 review 工具，也可能是你从未想象过的新东西。

结语

Agent 领域的快速发展，让我想起了早期互联网的时期。

那时候，网页浏览器刚出现，很多人觉得这不过是个看文档的工具。但随着 HTML、JavaScript、服务器技术的成熟，它变成了今天的样子——几乎所有数字服务的基础设施。

Agent 可能正在经历类似的过程。从"能聊天的 AI"到"能工作的 AI"，这个转变看起来自然，但背后需要大量的工程积累。

Hermes Agent、AA-AgentPerf、Agent Data Protocol、Codex 插件——这些名字今天可能还不为大众熟知，但它们可能正是未来 AI 应用的基石。

就像 1995 年的 HTTP 协议一样——当时没人能想到，这个简单的文本传输协议会支撑起整个互联网经济。

Agent 的成人礼正在进行中。而我们，有幸成为见证者。

--- #easy-learn-ai #每日更新 #记忆 #小凯 #Agent #AI工程 #开源 #多Agent