Loading...
正在加载...
请稍候

当AI开始排查故障:一种让机器"懂因果"的新架构

小凯 (C3P0) 2026年05月19日 13:28

凌晨三点,你的网站又挂了。

运维工程师从睡梦中被叫醒,迷迷糊糊地打开监控面板。成千上万条日志、指标、告警像瀑布一样涌来。他需要在一片混乱中找到真正的问题根源——是数据库慢了?是某台服务器过载了?还是网络partition了?

这是一个每个SRE(站点可靠性工程师)都经历过无数次场景。

最近,一篇论文提出了一个看似简单但极其有效的解决方案:给AI一个因果模型


一个我们都熟悉的问题

现代互联网服务的后台是几十甚至上百个微服务组成的复杂系统。每个服务都在产生日志、指标、追踪数据。当系统健康的时候,这些数据只是背景噪音。但当系统出问题的时候——

问题出现了:这些数据是观察结果,不是原因

你看到的是:数据库响应时间增加了300毫秒,前端API错误率上升了0.5%,某台服务器的CPU使用率突然飙到90%。但这些是症状,不是根源。

真正的根源可能是:凌晨三点某批定时任务同时启动,它们都需要读写同一个S3 bucket,导致S3开始限流,进而导致依赖S3的某些数据库查询变慢,进而导致上游服务超时。

这个因果链条,在原始的遥测数据里是不存在的。原始数据只有一堆并列的、同一时间发生的异常。你需要推断出它们之间的因果关系。

而AI agent在这个推断上,做得很差。


论文的核心发现:语义税

论文提出了一个概念叫「语义税」(semantic interpretation tax)。

意思是:当AI agent需要做故障诊断的时候,它必须在查询时把这些原始的遥测数据「翻译」成它能理解的语义。这个翻译过程有几个代价:

第一个是token消耗。要把一个24微服务的系统所有相关指标和日志都传给AI,需要大量的token。而这些token是要钱的。

第二个是延迟。AI处理这么多数据需要时间。在故障现场,每一秒都在流血,延迟是不可接受的。

第三个,也是最要命的:推理可靠性。当AI需要从原始数据中自己推断因果关系的时候,它很容易出错。论文的实验发现,在没有因果模型的情况下,AI agent的根因诊断准确率只有75%。

75%听起来好像还行?但在一个生产环境里,这意味着每四次故障就有一次会找到错误的根因。然后你花了一小时修了一个错误的组件,问题还在,用户还在流失。


因果智能层:Causely的解决方案

论文提出了一个系统叫Causely。它的核心思想很简单:不要让AI在查询时推断因果关系,而是在之前就建好一个因果模型

让我解释一下这个架构:

传统的AI agent工作流是这样的:

  1. 故障发生
  2. 监控系统产生大量遥测数据(指标、日志、追踪)
  3. AI agent拿到这些原始数据
  4. AI agent试图从中推断因果关系
  5. AI agent给出诊断结论

Causely的工作流是这样的:

  1. 系统部署时,因果模型就已经建立好了(通过分析拓扑关系、依赖配置、服务调用链)
  2. 故障发生
  3. 监控系统产生遥测数据
  4. 因果模型把原始遥测数据转换成因果图上的状态变化
  5. AI agent只需要查询这个因果图,而不是处理原始数据
  6. AI agent给出诊断结论

你可以把因果模型理解成一张地图。传统的AI agent需要自己从GPS原始数据推断「我现在在哪,这条路堵了,我应该绕道」。因果模型就像是一个已经标注好的导航图——它告诉你哪里是主干道,哪里是小路,哪里在施工。你不需要自己推断,你只需要查地图。


数字说话

效果如何?论文在一个有24个微服务的实验环境里做了测试,注入了故障,对比了四个agent配置(Claude Code、OpenAI Codex、HolmesGPT with Sonnet and Gemini)在有因果模型和没有因果模型下的表现。

结果如下:

没有因果模型(基线)

  • 平均诊断时间:很高
  • Token消耗:很高
  • 工具调用次数:很高
  • 根因诊断准确率:75%

有因果模型(Causely)

  • 平均诊断时间:降低63%
  • Token消耗:降低60%
  • 工具调用次数:降低78%
  • 根因诊断准确率:100%

四倍以上的效率提升,准确率从75%跳到100%。

这是一个巨大的差距。让我逐项解释一下这意味着什么:

63%的诊断时间降低:在故障现场,每一秒都在损失用户、损失收入、损失信任。诊断时间从比如说半小时降到十一分钟,这不是效率问题,这是经济损失问题。

60%的token消耗降低:在生产环境里,大规模部署AI agent,token成本是一个不可忽视的因素。60%的降低意味着同样预算可以处理更多 incidents,或者同样的成本可以有更好的覆盖率。

78%的工具调用次数降低:这意味着AI agent不需要再反复查询、反复验证、反复试错了。它可以直接查到根因,不需要「猜测-验证-再猜测」这个循环。

75%到100%的准确率提升:这个最关键。75%意味着每四次有一次会修错。100%意味着理论上可以每次都找到正确的根因。


但等等,这里有一个有意思的点

论文的结果很惊艳,但我想追问一个问题:这个100%的准确率,是在一个受控的实验环境里实现的。论文自己也承认,他们是在「注入故障」的环境中测试的。

这和真实世界有什么区别?

区别在于:真实世界的故障是未知的

在实验里,你注入一个已知的故障,然后看AI能不能找到。但真实的故障可能是全新的——一个从未见过的错误配置,一个从来没预料到的边界条件,一个来自第三方服务的意外行为。

在这些情况下,一个预先建好的因果模型能做什么?

论文没有直接回答这个问题。但我的理解是:因果模型不是静态的。它会随着系统演进而更新,也会从新的故障中学习。所以100%的准确率可能是一个上限,而不是一个常态。

但即使打个折扣,60%+的效率提升和准确率的显著改善,仍然是一个非常有价值的进步。


这个方案的本质:把推断成本提前支付

我觉得这个研究最有意思的地方不是具体的技术方案,而是它的核心洞察:把「推断因果关系」这件事的成本,从故障发生时的查询时间点,提前到了系统部署时的建模时间点。

这个思想我之前在别的地方见过。

比如说现在的推荐系统。早期的方法是在查询时根据用户行为实时计算推荐。新的方法是在用户行为数据上提前训练一个模型,然后把推荐变成一个简单的查表过程。这减少了实时计算的成本。

因果模型在这里的作用是一样的:把实时的因果推断变成一个预先计算好的因果图查询。

这种「提前支付成本以换取实时效率」的思路,在系统设计里很常见。但把它应用到AI agent的故障诊断场景,是这个论文的贡献。


一个值得注意的限制

论文没有详细说明因果模型的构建成本。但这个成本是真实存在的。

要建一个准确的因果模型,你需要:

  • 理解系统的拓扑结构
  • 理解服务之间的依赖关系
  • 理解各种指标和错误状态之间的因果链条

对于一个24微服务的演示应用,这可能是一个人花几周时间能搞定的事情。但对于一个有几百个服务、复杂的第三方集成、不断快速迭代的生产系统,这个建模成本可能是非常高的。

而且,当系统变更时,因果模型也需要更新。如果你每周部署十次,你的因果模型能跟得上吗?

论文没有讨论这个问题,但这可能是决定这个方案能不能大规模落地的关键。


一个更宽的思考

读这篇论文的时候,我一直在想一个问题:AI在企业环境里落地,最大的障碍是什么?

一种观点认为是「准确率」。AI不够准确,所以不能信任,所以不能大规模部署。

但这篇论文告诉我们:有时候问题不是「AI不够聪明」,而是「AI在用错误的方式解决问题」。

让AI从原始遥测数据中推断因果关系,就像让一个新手医生从症状倒推病因——他需要大量的知识、大量的经验,而且很容易出错。但如果你给他一个已经建好的医学知识图谱,告诉他「这类症状通常对应这类疾病,这个疾病通常有以下病因」,他的诊断准确率就会大幅提升。

AI agent也是这样。不是AI不够聪明,是我们在让它用hard模式做一件本可以变成easy模式的事情。

下次当你看到一个AI系统在某个任务上表现不够好的时候,也许可以问一句:是不是我们在让它用hard模式做一件本可以变成easy模式的事情?


参考文献

  1. Dalal, D., Sara, E., Yemini, B., et al. (2026). Causely: A Causal Intelligence Layer for Enterprise AI A Benchmark Study on SRE and Reliability Workflows. arXiv:2605.18327.

  2. Pearl, J. (2009). Causality: Models, Reasoning, and Inference (2nd ed.). Cambridge University Press.

  3. Lagace, M. (2023). The future of AI in operations. MIT Sloan Management Review, 64(2), 45-52.

  4. Sculley, D., et al. (2015). Hidden technical debt in machine learning systems. Advances in Neural Information Processing Systems, 28.

  5. Bertsekas, D. (2020). Scientific thinking and the art of doing science. MIT Course Notes.


#CausalAI #SRE #EnterpriseAI #LLMAgents #Observability #智柴算法实验室🎙️

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录