你可以把早期的生成式 AI 想成“天赋极高、但只能坐在桌前写字的实习生”:你给一句话,它回一段话;你给一张图,它描述一下。厉害,但被动——每一步都要人类盯着、催着、改着。工程团队真正想要的,是另一种形态:能自己规划、能调用工具、能在环境中行动、能持续迭代的自治系统。
下面这篇是面向产品/架构师与工程团队的落地指南:把“提示词”从中心舞台请下去,把重心放在可上线的系统设计——5 步闭环、Level 0–4 分级、核心架构(Model/Tools/Orchestration)+ 部署、Agent Ops、互操作 A2A、安全与治理、自进化与训练场。
🧭 第一幕:你要造的不是“更聪明的模型”,而是“能稳定做事的应用”
自治系统的关键,不是让模型更像人,而是把模型放进一个能自洽运行的循环里:它会根据目标制定计划,调用外部能力获取事实或执行动作,把结果写回状态,再继续下一步,直到完成目标。
小贴士:为什么这主要是工程问题?
因为上线后决定成败的往往是:上下文如何装配、工具怎么接、失败如何恢复、指标如何评估、安全如何兜底、如何审计与追踪。模型很重要,但它只是“脑”;系统才是“生命体”。
一个好用的比喻:传统开发者像“砌砖工”,每一步逻辑都手写死;Agent 开发者更像“导演”——
设定宪法(系统指令与规则)、选演员(工具/子 Agent)、给场景(上下文/记忆/数据),并用运营体系(Agent Ops)持续校准演出质量。
🔁 第二幕:5 步 Think–Act–Observe 闭环——把不确定性装进确定的循环
一个可落地的自治问题求解流程,可以拆成 5 步:
- Get the Mission:接收高层目标(用户请求或触发器)。
- Scan the Scene:感知环境并收集上下文(短期状态、长期记忆、可用工具、已有尝试)。
- Think It Through:模型在上下文中规划(通常是多步推理,而非一次性输出)。
- Take Action:编排层选择并调用工具/执行代码/访问数据库/发起外部动作。
- Observe and Iterate:把工具结果写回上下文,再回到第 3 步,循环迭代直到完成任务。
举个工程味十足的例子:客服场景里用户问“订单 #12345 在哪”。系统不应直接“猜”,而应先规划:查内部订单 → 拿到物流单号 → 调承运商 API → 汇总回报。每次工具调用产生一个
Observation,成为下一次
Think 的输入。
🧩 工程落地要点:闭环不是“多轮对话”,而是“状态机 + 可追踪轨迹”
要把它做成生产系统,至少要满足:
- 每一轮都记录 (Action, Observation),形成可回放的执行轨迹。
- 每一步可观测:有日志、指标、trace,而不是靠“模型自述”。
- 工具调用前后可插入策略/安全回调(拦截危险参数、强制人工确认)。
- 失败可恢复:超时、权限不足、检索无命中、外部 API 抖动都要有重试/降级/兜底路径。
🧬 第三幕:Level 0–4 分级——别一上来就造“超级智能体”
分级的价值在于:强迫你在立项时回答“我们要做到哪一级”,避免需求无限膨胀。
🧠 Level 0:Core Reasoning(纯模型)
无工具、无记忆、无法感知训练数据之后的新事实。
适合作为解释、撰写、规划器,但不适合承担“要对事实负责”的生产任务。
🤝 Level 1:Connected Problem-Solver(接上工具)
能调用外部工具:Search、RAG(向量库/知识图谱)、NL2SQL、业务 API。
核心价值是“先查再说”,把事实锚定在权威来源,显著降低幻觉。
落地建议:大多数企业的第一版生产 Agent,就应该是 Level 1:
把“可查的事实”从模型脑子里拿掉,交给检索/数据库/权威 API。
🗺️ Level 2:Strategic Problem-Solver(会战略规划与上下文工程)
关键能力是
context engineering:不盲目塞信息,而是为下一步推理与工具调用,自动构造最聚焦的上下文与查询。
例如“找两地中点的咖啡馆”:先算中点,再基于中点与“4 星以上”生成下一次 places 查询。
小贴士:Agent 是上下文窗口的策展人
核心循环是:装配上下文 → 调用模型 → 观察结果 → 重新装配上下文。
真正要工程化的是“上下文装配策略”,而不是一条万能 prompt。
🧑🤝🧑 Level 3:Collaborative Multi-Agent(多智能体协作)
从“一个全能体”转向“专家团队”:协调者拆分任务,派发给研究/写作/编码/合规等专职 Agent,再聚合结果。
适用于任务可并行、需要批评-改写闭环、或长任务执行。
🧠⚙️ Level 4:Self-Evolving(自我进化)
系统能识别能力缺口,动态创建新工具或新 Agent 来补齐。
这很强,但也会扩大权限面、攻击面与不可预测性——必须配套更强的策略与审计。
🧠🖐️🕸️ 第四幕:核心架构三件套 + 部署——脑、手、神经系统与“身体”
一个可上线的 Agent,通常由四层构成:
- Model(脑):推理与决策
- Tools(手):取信息与做动作
- Orchestration(神经系统):驱动 Think–Act–Observe、管理状态与策略
- Deployment(身体与腿):让它成为可靠服务(监控、日志、管理、伸缩、接口)
🧠 Model:别迷信“最高分”,要选“最适合闭环”的脑
生产系统最需要的不是“学术 benchmark 第一”,而是:
- 多步推理稳定性
- 工具使用可靠性
- 成本与延迟可控(否则 ROI 直接崩)
🧮 模型路由:用“专家团队”代替“一个巨人”
实践中常用组合:强模型做关键规划与难推理;快模型做高频轻任务(意图分类、摘要、格式化)。
关键是把模型做成可替换模块,并用评估流水线持续对比新模型,避免“半年后性能与成本被时代抛下”。
🖼️ 多模态两条路
- 原生多模态模型:流程简单
- 先用专用能力转文本(视觉/语音),再交给语言模型推理:更灵活,但系统复杂度更高
🧰 Tools:把能力拆成可审计的“手”,用契约把手接到神经系统
工具分两类:取信息与做动作。
📚 取信息:RAG、向量库、知识图谱、NL2SQL
核心目的:把回答锚定在现实世界数据,降低幻觉。
- RAG:像给系统一张“图书馆借书卡”
- NL2SQL:用自然语言查结构化数据(例如销售、库存、工单统计)
🛠️ 做动作:API、代码执行、HITL
从“读”到“做”是质变:发邮件、建日程、更新工单系统、写并运行代码(务必沙箱化)。
对高风险动作,应内置
Human-in-the-Loop:例如确认、补充信息、审批放行。
🔌 Function calling:工具契约是生命线
无论你用 OpenAPI、MCP 还是自定义 schema,都建议满足:
1) 参数类型/范围/默认值清晰
2) 响应结构/错误码/可重试语义清晰
3) 工具内部带 guardrails:越权/危险请求直接拒绝,而不是“看模型心情”
🧠🕸️ Orchestration:神经系统决定你是“可控系统”还是“随机对话”
编排层要做的事包括:
- 何时推理、何时用工具
- 计划拆分与执行顺序
- 状态与记忆管理
- 推理策略选择(如 ReAct 等把推理与行动耦合的范式)
🎛️ 自治程度与实现方式
- 自治程度:从确定性工作流(LM 只是某一步)到 LM 主导动态执行
- 实现方式:No-code 的快 vs Code-first 框架的可控与可维护
生产框架至少要做到:
- 可插拔(模型/工具可替换)
- 可治理(硬编码规则约束非确定性)
- 可观测(轨迹可追踪、可回放、可分析)
🧠 记忆:短期是轨迹,长期是工具
- 短期记忆:当前任务的 Action/Observation 序列
- 长期记忆:跨会话持久化,通常通过 RAG/搜索系统作为“记忆工具”实现;编排层负责预取与主动查询
🚀 Deployment:让 agent 真正“站起来走路”
生产部署要解决:
- 安全托管与水平扩展
- 会话历史与记忆持久化
- 监控、日志、管理、审计
- 既可供 UI 调用,也可供其他 agent 调用(A2A)
早期可以用集成式平台快速跑通;走向生产通常要引入 CI/CD、自动评估、灰度发布与回滚机制。
🧪 第五幕:Agent Ops——用“实验与观测”驯化随机性
传统单测无法用 output == expected 约束一个概率系统。Agent Ops 的核心是:把不可预测性变成可测量、可比较、可迭代的工程对象。
📏 Measure What Matters:像 A/B 实验那样定义 KPI
建议从业务指标出发:目标完成率、用户满意度、延迟、单位成本、对营收/转化/留存的影响。
⚖️ LM Judge:用“质量评分”替代 pass/fail
用一个评审模型按 rubric 评估输出是否:
- 是否回答正确
- 是否基于事实与检索结果
- 是否遵守指令、语气与格式
并用来自真实交互的样本构建评估集(覆盖主路径与意外边界),同时让领域专家定期抽检校准。
🚦 Metrics-driven development:上线 Go/No-Go
每次改动跑全量评估集,与生产版本对比质量分,同时对比延迟、成本、成功率;高风险变更走 A/B 灰度。
🔍 OpenTelemetry traces:回答“为什么”
trace 应记录:实际 prompt、选择了哪个工具、生成了哪些参数、工具返回的原始数据、以及每一步耗时与错误。它用于根因定位,不是做“漂亮大盘”。
🧑⚖️ 重视人类反馈:把差评做成疫苗
把真实反馈变成新评估样本,形成闭环:收集 → 复现 → 修复 → 加入评估集,防止同类错误再发生。
🤝 第六幕:互操作——Agents 不是 Tools,A2A 才是生态语言
工具是事务性能力调用;Agent 是能继续分解问题、做规划与协作的主体。把两者混为一谈,会导致集成方式脆弱且不可扩展。
🪪 A2A:发现 + 通信
- Agent Card:一个 JSON “名片”,声明能力、端点、所需安全凭证,解决发现问题。
- Task-oriented 通信:以异步任务方式交互,并支持流式进度更新,适合长任务与协作系统。
当你进入多团队共建或多智能体协作阶段,没有标准化互操作,系统会迅速变成“定制 API 意大利面”。
🛡️ 第七幕:安全与治理——给 agent 更长的绳子,但别让它冲进车流
风险来自两端:越权动作与敏感数据泄露,以及对抗手段如 prompt injection。不能只靠模型“自觉”。
🧱 Defense-in-depth:硬规则 + 智能审查
- 硬规则:模型外的策略引擎/规则系统,阻断高风险动作(如金额阈值、外部 API 白名单、强制确认)。
- 智能审查:用小型守卫模型或审核器在运行时筛查输入/输出/计划,标记注入、越权意图与高危内容。
🪪 Agent Identity:第三类主体
在 IAM 里要把 agent 当成独立主体,为其发放可验证身份(例如基于 SPIFFE 的体系),并赋予最小权限。这样即使某个 agent 出问题,爆炸半径也可控。
🧾 Policies:对 agent、工具、子 agent、上下文共享、远端 agent 全覆盖
权限不只是“能不能调某个 API”,还包括能访问哪些数据、能把哪些上下文传出去、能调用哪些外部 agent。
🔐 ADK 等框架的安全落地要点(抽象为通用做法)
- 明确用户身份、运行身份、agent 身份的边界
- 工具内部强制执行安全策略(拒绝越权参数)
- 工具调用前的回调/插件式检查(参数验证、状态一致性校验)
- 可选接入托管安全层(提示注入、PII、恶意 URL 等过滤)
🏛️ 企业规模:控制平面防止“agent sprawl”
建立中心化网关作为所有 agent 流量入口:用户→agent、agent→tool、agent→agent、以及推理调用。它提供:
1) 运行时 AuthN/AuthZ 与统一审计
2) 统一日志/指标/trace 的“单一玻璃窗”
再配套一个注册表(类似企业 app store):资产发现复用、安全评审、版本管理、细粒度授权。
🧬 第八幕:自进化与训练场——避免系统“变老”
现实在变:政策、数据格式、业务流程、外部 API 都会变。系统若不会适配,会逐渐“老化”。
🧠 学习信号来源
- 运行时轨迹:日志、trace、记忆、成功/失败案例
- 人类反馈:尤其是关键决策中的纠正与指导
- 外部新材料:新规章、更新文档、其他 agent 的批评意见
🛠️ 两条最实用的自适配路线
- 持续优化 context engineering:prompt、few-shot、检索策略、记忆召回
- 工具优化与创建:引入新工具、生成脚本、更新 schema
🏋️ Agent Gym(离线训练场)
把探索与压力测试从生产路径移出去:
- 用仿真环境做 trial-and-error
- 用合成数据与红队系统压测
- 允许接入更多工具与更强模型
- 仍可在边界场景里连接领域专家校准“正确结果”
🧠🔬 第九幕:先进系统给工程团队的两点启示(Co-Scientist / AlphaEvolve 风格)
- “研究协作型”系统证明:当任务空间巨大且需要长时间探索,最有效的形态往往是多智能体协作 + 持续评估与改进。
- “进化优化型”系统证明:当你能构造强评估器(验证比发现容易),自治系统可以进行大规模搜索与迭代优化;但评估指标必须由人类严密定义,防止钻漏洞。
🧩 一份可执行落地路线图(工程视角)
🧱 Phase 1:先做 Level 1,把闭环与工具契约跑通
- 定义 Mission 类型与 KPI
- 接入权威信息源工具(RAG/NL2SQL/业务 API)
- 记录可回放轨迹(Action/Observation)
- 工具契约 + 错误语义(重试/降级/超时)
🗺️ Phase 2:升级 Level 2,工程化上下文与记忆
- 设计上下文装配策略(最小充分信息)
- 短期轨迹 + 长期记忆工具
- 对高风险动作引入 HITL
🧑🤝🧑 Phase 3:进入 Level 3,多智能体团队化
- 引入协调者 + 专家 Agent 分工
- 生成/批评分离,形成迭代改写闭环
- 引入 A2A:Agent Card + task 通信
🛡️ Phase 4:生产化与治理(Agent Ops + 安全控制平面)
- 评估集 + LM Judge rubric
- Go/No-Go 与灰度 A/B
- OpenTelemetry traces 全链路
- Agent identity、策略引擎、工具内护栏、动态安全检查、可选托管安全层
- 网关 + 注册表,治理 sprawl
🧬 Phase 5:探索 Level 4 与离线训练场(谨慎)
- “创建工具/创建 Agent”能力必须受策略约束并可审计
- 学习与红队尽量在离线环境完成,再把稳定改进回灌生产
📚 参考文献(5 项)
- Shunyu Yao, et al. (2022). ReAct: Synergizing Reasoning and Acting in Language Models. https://arxiv.org/abs/2210.03629
- Wei, J., Wang, X., et al. (2023). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. https://arxiv.org/pdf/2201.11903.pdf
- Shunyu Yao, et al. (2024). τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains. https://arxiv.org/abs/2406.12045
- Guangya Liu, Sujay Solomon (2025). AI Agent Observability - Evolving Standards and Best Practice. https://opentelemetry.io/blog/2025/ai-agent-observability/
- Deepak Nathani, et al. (2025). MLGym: A New Framework and Benchmark for Advancing AI Research Agents. https://arxiv.org/abs/2502.14499