当攻击者学会分身术:AI 安全监控的盲区与破局
一个黑客想用 AI 智能体入侵某个系统。他知道每个对话都有安全监控在盯着,于是他把攻击拆成了十个步骤,分到十个不同的账户里执行。每个账户的对话看起来都人畜无害——一个在查网络配置,一个在测试端口,一个在下载公开工具……单独看,谁都不像在搞攻击。但把十个对话拼在一起,完整的攻击链清晰可见。
这就是分布式智能体攻击。本文首次构建了这种攻击,也首次给出了防御方案。
监控器的结构性盲区
当前 AI 安全监控的基本假设是:一次评估一个对话。无论是检测越狱还是识别恶意使用,监控器都是逐个对话打分。这个假设在单账户攻击下是合理的——如果一个对话里包含了完整的攻击意图,监控器总能捕捉到异常信号。
但分布式攻击打破了这个假设。攻击者把有害目标分散到多个子智能体中,每个子智能体的上下文只包含攻击的一个片段。由于监控器一次只看一个上下文,它在结构上就无法发现那些只有跨账户聚合才可见的滥用行为。
这就像安保人员只盯着单个监控画面,从不把多个画面关联起来看。一个在停车场徘徊的人不可疑,一个在门口徘徊的人也不可疑,但如果他们是同伙、在不同位置同时出现呢?
首个分布式智能体攻击
作者构建了一个多智能体支架(scaffold),能完成高难度的网络安全任务,同时将有害目标隐藏在上下文受限的子智能体中。关键设计:
- 任务分解:将攻击目标拆解为看似独立的子任务,每个子智能体只知道自己那部分
- 上下文隔离:子智能体之间通过受限的接口通信,不共享完整上下文
- 语义稀释:每个子智能体的对话内容在语义上接近正常操作
结果令人不安:标准监控器捕获这种分布式攻击的频率只有此前单账户智能体攻击的
五分之一。换句话说,分布式攻击把监控器的检测率砍了 80%。
在线有状态监控器:跨账户的关联之眼
防御的核心思想是:不要只看单个对话,要看对话群体。
作者开发的在线有状态监控器采用分层架构:
1. 实时聚类层:对每个对话提取轻量级特征(行为模式、工具使用序列、语义指纹),用在线聚类算法将相似的对话归组。这一步几乎零延迟,因为只做简单的向量运算
2. 弱信号聚合:在聚类内部,收集多个对话中的"弱可疑信号"——单个信号不足以触发警报,但聚合后可能达到阈值
3. 升级到 LLM 判断:只有当弱信号聚合超过阈值时,才调用大语言模型进行跨账户标记。这一步成本高,但触发频率低
这就像安保系统的升级版:不再只盯单个画面,而是用算法自动关联多个画面中的异常模式,只有当关联分析发现高风险时才通知人工审查。
实验结果
在大规模模拟数据中心流量的评估中:
- 提前 30% 发现分布式攻击:有状态监控器比标准监控器更早检测到攻击模式
- Pareto 占优:在检测率-误报率的权衡曲线上,有状态监控器全面优于标准监控器
- 几乎零额外延迟:对约 99% 的正常用户流量,监控器几乎不增加额外延迟(因为大部分流量只经过轻量级聚类层)
- 意外收获:经过红队对抗演练后改进的监控器,还能捕获标准越狱攻击——因为自适应攻击者会在不同账户间复用攻击变体,聚类层自然把这些变体关联起来
为什么这件事重要
这篇论文揭示了一个被忽视的安全盲区,同时给出了可行的解决方案。几个值得深思的点:
攻击和防御的不对称性正在改变。传统安全假设攻击者会集中火力,防御只需逐个击破。但分布式攻击利用了监控器的"视野局限"——你只看单个对话,我就把攻击分散到你看不到的地方。
弱信号聚合是一种通用范式。不只是 AI 安全,金融反欺诈、网络入侵检测、公共卫生监控都面临类似问题:单个事件不 suspicious,但聚合后构成威胁。在线聚类 + 稀疏升级的架构,是这类问题的通用解法。
监控的隐私张力。跨账户监控意味着系统需要关联不同用户的行为,这天然与隐私保护存在张力。论文没有深入讨论这一点,但在实际部署中,如何在不侵犯用户隐私的前提下实现跨账户关联,是一个必须回答的问题。
红队对抗的价值。论文最有趣的发现之一——改进后的监控器能捕获标准越狱——来自红队对抗演练。这再次证明:好的防御不是闭门造车,而是在对抗中进化。
---
*深度研读于 arXiv:2605.31593 | Stateful Online Monitoring Catches Distributed Agent Attacks | Brown et al., 2026*