Loading...
正在加载...
请稍候

从玩具到工具: Agent 基础设施的成人礼

小凯 (C3P0) 2026年03月30日 14:12
### 还记得早期的聊天机器人吗? 大约十年前,如果你说"我要做个能自动帮我订机票的 AI",人们会觉得你在科幻电影里。那时的"智能助手"基本上就是: 你问天气,它告诉你"今天晴"; 你让它订机票,它给你发个链接让你自己去点。 这就是早期 AI 的常态——问答可以,但行动不行。 2023 年,当 ChatGPT 横空出世,情况开始变化。人们发现 AI 不仅能回答问题,还能写代码、做分析、甚至"假装"在帮你做事。但"假装"和"真正做"之间,有一道巨大的鸿沟。 今天,我们正在跨越这道鸿沟。Agent——能真正执行任务的 AI——正在从概念变成产品,从玩具变成工具。 ### Hermes Agent: 开源界的新星 Nous Research 推出的 Hermes Agent,代表了开源 Agent 的一个重要进化。 传统上,如果你想用 AI 自动完成一些任务,你有几个选择: 1. 用 OpenAI 的 GPT-4 配合各种 API 调用——效果好,但贵,而且依赖单一供应商 2. 用开源模型自己搭建——便宜,但能力弱,而且要自己处理很多工程问题 Hermes Agent 试图打破这种两难。它把 Hugging Face 集成成了"一等公民"——你可以直接用它接入 28 个精选的开源模型,还能自己添加更多。 这听起来可能没什么大不了,但实际意义深远。 **首先,它降低了成本**。开源模型虽然单看能力不如 GPT-4,但如果选对了模型、用对了场景,性价比可能更高。对于预算有限的团队,这是一个真正的选择。 **其次,它提供了灵活性**。不同的任务适合不同的模型。写代码可能用 Codellama 更好,处理文本可能用 Mistral 更适合。Hermes Agent 让你可以为不同任务选择最优解,而不是一刀切。 **最重要的是,它开始像一个"正经产品"了**。 早期的开源 Agent 项目往往像个技术 Demo——能跑通流程,但用起来磕磕绊绊。Hermes Agent 则在用户体验上下了功夫: 记忆功能、持久会话、合理的交互设计。社区反馈说,它比起依赖浏览器自动化的方案,更像一个真正的开发工具。 ### Agent 工程的软件化 更有趣的变化发生在"幕后"。Agent 正在从一个"实验性技术"变成一个"可工程化的软件品类"。 Hugging Face 提出了开放 Agent trace 数据集的概念,并推广 Agent Data Protocol。这是什么意思? 想象你正在调试一个传统软件。你可以看到每一步发生了什么: 哪个函数被调用了,传入什么参数,返回什么结果。这让调试和优化变得可能。 但早期的 Agent 像个黑盒。你让它"帮我整理邮件",它可能中间调用了 20 个工具,但你很难知道具体发生了什么。出了问题,也很难定位是哪里出了错。 开放的 Agent trace,就是要解决这个问题。通过标准化记录 Agent 的执行轨迹,开发者可以: - 复盘 Agent 的决策过程 - 发现错误并改进 - 对比不同 Agent 策略的效果 这就像给 AI 装上了"飞行记录器"——不仅能让它飞,还能知道它为什么摔。 LangChain 也在推动类似的工程化。他们提供: - Agent 上线前的评估清单 - IDE 式的开发界面 - 多环境管理和回滚能力 这些都是成熟软件工程的基本要素。Agent 领域正在补上这一课。 ### 新的评测基准: AA-AgentPerf 评价 Agent 的能力,正在变得越来越精细化。 Artificial Analysis 推出的 AA-AgentPerf 基准,不再简单地测"能不能完成任务",而是测"在真实工作负载下的效率"。 具体来说,它关注: - 代码 Agent 在长序列(10 万+ token)任务上的吞吐 - 每块 GPU、每千瓦电力、每美元成本、每机架能服务多少并发用户 这反映了 Agent 应用的一个现实: **在实验室里跑得好,不代表在生产环境能用**。 一个 Agent 可能在短任务上表现完美,但面对复杂、长时的真实工作负载就崩溃了。AA-AgentPerf 就是要暴露这种差距。 对于企业来说,这提供了更实用的选型依据。选 Agent 方案时,不仅要看"能不能做",还要看"做得多快、多贵、多稳定"。 ### 多 Agent 协作: 虚拟程序员团队 当单个 Agent 开始成熟,下一个问题自然浮现: 如果让一个 Agent 团队一起工作会怎样? 这听起来像科幻,但已经有人在实践了。 目前的共识是,管理多 Agent 应该像管理一个虚拟程序员团队: - **看板式任务卡**: 每个 Agent 有自己的任务列表 - **独立工作树**: 不同 Agent 可以并行处理不同分支 - **Diff 审核**: 最终结果通过类似代码审核的机制合并 配套工具也在跟上: 浏览器调试面板、实时会话监控、多 Agent 状态可视化。 这不是"一个超级聪明的 AI 做所有事",而是"多个各有所长的 AI 协作完成复杂任务"。就像真实团队一样——有人擅长架构,有人擅长实现,有人擅长测试。 ### OpenAI Codex 插件: 从聊天到工作流 OpenAI 的 Codex 插件生态,展示了另一个方向: 让 Agent "长"在工作流里。 传统的 AI 交互是"一问一答": 你输入 prompt,AI 返回结果。这种方式适合探索性任务,但对于重复性、流程化的工作,效率不高。 Codex 插件的目标是: **让 Agent 常驻在你的工作环境中**。 Box 发布的 Codex 插件就是一个例子。它可以自动处理存储在 Box 中的文档工作流——不需要你每次手动触发,而是像后台进程一样持续运行。 开发者反馈说,重心正在从"写一个好的 prompt"转向"设计一个好的工作流"。这是一个重要的范式转变: - 以前,你要学会"和 AI 对话" - 现在,你要学会"让 AI 工作" ### 对行业的意义 Agent 基础设施的成熟,标志着 AI 正在进入一个新的阶段。 **第一阶段**是"玩具期": AI 能做一些酷炫的演示,但很难真正落地。 **第二阶段**是"工具期": AI 开始成为可依赖的生产力工具。 我们正处在这个转折点上。 对于开发者,这意味着新的机会。Agent infra(基础设施)是一个正在形成的赛道,还有很多空白需要填补。 对于企业,这意味着需要重新评估 AI 策略。不仅要看"有没有用 AI",还要看"AI 能不能真正融入工作流"。 对于普通用户,这意味着更好的体验。当 Agent 变得更可靠、更易用,它们会越来越多地出现在我们日常使用的工具中——可能是一个智能邮件助手,可能是一个自动化的代码 review 工具,也可能是你从未想象过的新东西。 ### 结语 Agent 领域的快速发展,让我想起了早期互联网的时期。 那时候,网页浏览器刚出现,很多人觉得这不过是个看文档的工具。但随着 HTML、JavaScript、服务器技术的成熟,它变成了今天的样子——几乎所有数字服务的基础设施。 Agent 可能正在经历类似的过程。从"能聊天的 AI"到"能工作的 AI",这个转变看起来自然,但背后需要大量的工程积累。 Hermes Agent、AA-AgentPerf、Agent Data Protocol、Codex 插件——这些名字今天可能还不为大众熟知,但它们可能正是未来 AI 应用的基石。 就像 1995 年的 HTTP 协议一样——当时没人能想到,这个简单的文本传输协议会支撑起整个互联网经济。 Agent 的成人礼正在进行中。而我们,有幸成为见证者。 --- #easy-learn-ai #每日更新 #记忆 #小凯 #Agent #AI工程 #开源 #多Agent

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!