如果你习惯了传统软件工程的节奏,你会本能地相信:把需求写清楚、把逻辑写对、把单元测试铺满,质量就会像保险箱一样“咔哒”一声锁住。可当你把一个 LLM 放进循环里,让它规划、调用工具、读写记忆、与环境交互之后,质量就不再是一把锁,而更像一辆 F1——同样能跑,但你必须用持续的遥测与赛道级评估,才能知道它是否会在下一个弯道冲出护栏。
《Agent Quality》这份白皮书的核心态度非常直接:Agent 质量是架构支柱,不是上线前的最后一道测试工序。因为 Agent 的失败往往不会“崩溃”,而会以“看似合理却悄悄偏航”的方式出现:幻觉、偏见、漂移、意外策略……API 仍然 200 OK,用户却在不知不觉中失去信任。
下面这篇续写,会沿着白皮书给出的主线,把“为什么旧 QA 失效、我们应该怎么评、如何把评估工程化并形成闭环”讲成一条可落地的叙事线:从四大质量支柱,到“Outside-In”评估层级,再到可观测性三支柱,最后落在那个最有工程味道的结论——Agent Quality Flywheel(质量飞轮)。
白皮书用了一个非常精准的比喻:传统软件像卡车,AI Agent 像 F1。卡车按固定路线走,你关心“引擎启动没?路线对不对?”;F1 的胜负来自动态判断:燃油策略、刹车点、轮胎管理、对突发状况的反应。Agent 的质量同样不在“能不能跑”,而在“每一步怎么想、怎么做”。
传统 QA 的失败点在于:它擅长发现显性错误(崩溃、异常、确定性计算错),却很难捕捉 Agent 的“隐性劣化”。Agent 可能持续输出“像真的一样”的答案,但事实完全错误;可能不崩溃却不断绕圈;可能没有违反语法却违反业务伦理。更棘手的是:这些行为常常不稳定、不可复现、与上下文/环境强耦合。
白皮书列举的典型失败模式,几乎都是“系统还活着,但已经在作恶或失效”:
小贴士:Agent 的失败常是“判断失误”而不是“代码 bug” 所以你很难用断点调试去抓幻觉,也很难靠单元测试消灭偏见。你要做的是:把“判断过程”变成可观测、可评价、可回流的工程对象。
白皮书把 AI 的演化拆成五层,层层扩大评估面:
1) 传统 ML:用 Precision/Recall/F1 等对着 test set
2) 被动 LLM:输出概率化,人评/模型对比开始登场
3) LLM + RAG:错误可能出在检索,也可能出在生成
4) 主动 Agent:规划 + 多步推理 + 工具交互 + 记忆演化 → 轨迹非确定性累积
5) 多 Agent 系统:系统级涌现失效、协作与竞争评价都变复杂
关键结论写得很硬:Trajectory is the Truth(轨迹即真相)。
因为 Agent 的输出只是长链条最后一环。你要评估的不是一句话,而是:
Thought → Action → Observation → Thought → … → Final Answer一旦你接受“轨迹是评估单位”,后面所有方法论(Outside-In、Observability、Judge、Flywheel)就顺理成章了。
白皮书把 Agent 质量拆成四个互相关联的支柱,它们不是漂亮口号,而是为了把“业务价值—用户体验—工程约束—安全底线”放进同一个评价框架里:
这四根柱子共同指向同一个工程要求:只看最终答案,你无法可靠衡量其中任何一根。你不看轨迹就无法数步数、无法定位失败工具调用、无法验证安全策略是否在关键点起效。
白皮书给的路径非常工程化:不要一上来就沉迷组件指标,要按层级推进。
1) LLM 规划/推理(Thought):跑题、循环、上下文污染、幻觉
2) 工具选择与参数化:选错工具、缺参、类型错、JSON 格式错
3) 工具结果理解(Observation):读错数值、漏实体、没识别 404/错误态
4) RAG 表现:检索错、信息陈旧、或模型无视检索结果照样胡编
5) 效率与鲁棒性:过多调用、冗余循环、异常未处理
6) 多 Agent 动力学:通信误解、角色漂移、互相打架
小贴士(来自白皮书的 ADK 实操建议):
用 ADK Web UI 交互到一个“理想响应”,把当前 session 存成 Eval Case(包含最终答案与工具轨迹),之后用 adk eval/pytest 做回归测试。这样每一次线上失败都可以被“固化”为一个永久用例。
评估不仅是“看什么”,更是“谁来裁决”。白皮书强调一个现实:质量判断需要混合机制。
白皮书用了另一个厨房类比:传统软件像流水线厨师,Agent 像“神秘食材挑战”的大厨。你不能只尝成品,你要看到他每一步怎么选材、怎么改方案、怎么应对缺糖。
白皮书最后把所有要素焊成一个闭环:定义目标 → 打通可见性 → 评估过程 → 建立反馈回路。这就是质量飞轮:
1) Define Quality:用四支柱确定方向
2) Instrument for Visibility:Logs + Traces 把证据采出来
3) Evaluate the Process:Outside-In + Judge + HITL 对证据判分
4) Architect the Feedback Loop:把线上失败自动转成回归用例,沉淀进 Golden Eval Set
飞轮的狠点在于:它把“事故复盘”从人为仪式变成工程机制——每次失败都会变成系统下一轮的免疫记忆,让质量改进获得惯性。
白皮书将“可信任 Agent”的三条原则写得像工程宣言:
还没有人回复