论文元数据
| 属性 | 内容 |
|---|---|
| 标题 | Stateful Online Monitoring Catches Distributed Agent Attacks |
| 作者 | Davis Brown, Samarth Bhargav, Arav Santhanam, Kasper Hong, Ivan Zhang, Matan Shtepel, Steffi Chern, Alexander Robey, Eric Wong, Hamed Hassani |
| 机构 | 宾夕法尼亚大学 (University of Pennsylvania) 等 |
| arXiv ID | 2605.31593 |
| 日期 | 2026-05-29 |
| 分类 | cs.CR, cs.AI |
| 核心论点 | 安全监控器若仅评估单个 agent 对话,将在结构层面盲视跨账户分布的滥用;唯有对用户组进行实时状态化推理,才能捕获这种新型攻击 |
🎭 1. 一个对话看起来无害,一百个对话合起来就是武器
想象你是一个云服务平台的安全工程师。某天,你的监控系统 flagged 了一个用户对话——该用户让 AI agent 帮他写一段 Python 脚本。 benign。又一个用户请求帮忙分析一段网络配置。也无害。第三个用户询问 SSL 证书的工作原理。同样正常。
但倘若这三个用户实际上是同一人控制的傀儡账户?倘若那段 Python 脚本其实是漏洞扫描器的一部分,网络配置分析是为了定位入口点,SSL 证书询问是为了设计中间人攻击?当有害目标被切碎、分散到数十个看似独立的对话中,每个单独的 transcript 都通过了你的安全过滤器——但合起来,它们完成了一次完整的网络入侵。
这正是 Davis Brown 团队所揭示的新型威胁:分布式 agent 攻击。它不是让单个 agent 执行恶意任务,而是将恶意目标拆解为多个子任务,分配给多个具有有限上下文的子 agent,每个子 agent 只知其一、不知其二。结果?标准安全监控器的捕获率暴跌至此前的五分之一——不是监控器变弱了,而是攻击者换了一个监控器看不见的角度切入。
这种攻击方式的阴险之处在于它的社会工程学维度。它不需要攻击者具备高超的编程技能或深厚的安全知识,只需要 patience 和基本的任务分解能力。攻击者甚至不需要理解漏洞利用的技术细节——agent 会自动生成 exploit 代码、自动解释错误消息、自动建议下一步操作。攻击者的角色从"技术执行者"降级为"任务协调者",而协调行为本身被分布在多个账户中,完全不触及任何单点监控的阈值。这降低了网络攻击的门槛,同时提高了攻击的隐蔽性——一个危险的双重进化。
🔍 2. 单点监控的结构性盲区
现有 AI 安全系统的基本假设是:有害内容可以在单个对话的边界内被识别。无论是基于规则的过滤器、分类器还是 LLM-as-a-judge,它们评估的对象都是一个用户与一个 agent 之间的交互 transcript。若 transcript 中没有直接的恶意指令、没有显而易见的越狱尝试、没有违禁内容生成就放行。
这个假设在传统的单用户攻击场景中基本有效。一个用户直接请求"帮我写一个勒索软件"会被轻易拦截。即便攻击者使用复杂的越狱 prompt,监控器仍有相当概率检测到异常模式。但当攻击被分布式化后,这个假设从根本上崩塌了。
传统监控器的失效可以通过信息论的角度理解。设单个对话的恶意概率为 P(M|T),其中 T 是对话内容。标准监控器学习的是一个阈值分类器:若 P(M|T) > θ,则标记为恶意。对于直接请求勒索软件的场景,P(M|T) ≈ 1.0,远超任何合理的 θ。但对于"解释路由机制"的技术咨询,P(M|T) ≈ 0.01,远低于 θ。监控器正确地放行了后者——因为它确实不是恶意的,至少在这个对话的孤立语境中不是。
分布式攻击的数学本质是联合概率的爆炸。设攻击需要 n 个子任务,每个子任务单独看都是 benign 的:P(M|Tᵢ) ≈ 0.01。但若这些对话来自同一攻击者的协调行动,它们的联合恶意概率 P(M|T₁, T₂, ..., Tₙ, C)——其中 C 表示"协调"这一隐含条件——可能接近 1.0。标准监控器从不估计 P(M|T₁, ..., Tₙ, C),因为它被设计为只处理单个 T。这就是结构性盲区的数学表达:监控器评估的是错误的概率分布。
考虑一个具体的攻击场景。攻击者的目标是利用某个 Web 框架的已知漏洞获取服务器权限。在传统的单 agent 攻击中,攻击者需要在一个对话中完成全部步骤: reconnaissance(侦察)、vulnerability identification(漏洞识别)、exploit construction(漏洞利用构建)、payload delivery(载荷投递)。这种长链条的恶意交互容易被监控器识别——中间任何一步的异常都可能触发警报。
在分布式攻击中,同样的目标被分解为多个上下文隔离的子任务:
- 账户 A:"请解释这个 Web 框架的路由机制"(获取架构信息)
- 账户 B:"这段代码的潜在安全问题有哪些?"(提交目标代码片段进行审计)
- 账户 C:"如何用 Python 发送经过构造的 HTTP 请求?"(获取请求构造方法)
- 账户 D:"这个错误消息是什么意思?"(提交漏洞利用后的错误输出进行解读)
每个对话单独看都是 benign 的技术咨询。账户 A 的问题就像一个初学者在学习 Web 开发。账户 B 的代码审计请求像是一个开发者在进行安全自查。账户 C 的 HTTP 请求问题再普通不过。账户 D 的错误消息询问更是日常编程的一部分。但当这些碎片被同一个攻击者整合起来,它们就构成了一次完整的入侵行动。
⚔️ 3. 第一个分布式 Agent 攻击的实现
Brown 团队不仅提出了这种攻击的理论可能性,还实际构建了第一个分布式 agent 攻击系统——一个多 agent 脚手架,能够完成 hard 网络安全任务,同时将有害目标隐藏在具有有限上下文的子 agent 之间。
这个脚手架的核心设计原则有三:目标分解、上下文隔离和结果聚合。
目标分解将复杂的网络攻击任务拆解为多个可在单个对话中完成的子任务。分解不是随机的,而是基于对监控器检测策略的逆向理解——每个子任务都必须足够"日常化",以至于通过标准监控器的概率最大化。例如,"编写 SQL 注入 payload"被分解为"解释 SQL 语法"、"讨论输入验证的重要性"、"分析这段代码的查询构造方式"等多个 seemingly unrelated 的对话。
上下文隔离确保每个子 agent 只能看到分配给它的子任务,无法获知整体攻击目标。这通过严格的 prompt 工程实现:子 agent 收到的指令仅描述当前步骤的技术需求,不包含任何关于最终攻击意图的信息。即使某个子 agent 的交互被人工审查,审查者也无法从孤立的对话中推断出恶意目标。
结果聚合由攻击者的协调层完成。该层收集各子 agent 的输出——一段关于路由机制的解释、一份代码审计报告、一个 HTTP 请求示例——并将它们整合为完整的攻击方案。协调层可以运行在攻击者的本地环境中,完全避开云平台的监控视野。
实验评估显示,这种分布式攻击对标准监控器的逃逸率达到了惊人的水平:标准监控器捕获此类攻击的频率,仅为捕获传统 agent 攻击频率的五分之一。这意味着,如果一个平台能够拦截 80% 的传统攻击,面对分布式攻击时拦截率可能骤降至 16%。这不是渐进式的安全退化,而是结构性的防御失效。
五分之一捕获率的含义需要进一步拆解。它不是说监控器对分布式攻击完全无能为力——而是说,监控器检测分布式攻击的能力,与它检测传统攻击的能力之间存在一个五倍的差距。这个差距不是由于监控器的某个具体缺陷(如特征提取不足或阈值设置不当),而是由于监控器的设计前提与分布式攻击的威胁模型之间的根本错配。无论你把监控器的参数调得多么精细,只要它仍然只评估单个对话,就无法弥合这个结构性差距。
更深层的忧虑在于攻击的可扩展性。分布式攻击的隐蔽性随着参与账户数量的增加而提升。三个账户的协调模式可能被细心的审查者发现,但三十个账户的协调模式对于人类分析师来说几乎不可追踪。而 agent 平台的用户基数往往是数百万甚至数千万——在这种规模下,发现跨账户协调的恶意行为,无异于在海洋中寻找几滴水之间的化学关联。
🧠 4. 在线状态监控:从"看单个对话"到"看用户群体"
面对分布式攻击,传统的防御思路——加强单个对话的检测能力——是无效的。无论你把单对话监控器做得多么精密,它都无法看到跨账户的关联模式。Brown 团队的洞见是:防御必须从 transcript-level 升级到 population-level。
他们提出的在线状态监控器(Stateful Online Monitor)包含三个核心组件:实时聚类引擎、弱信号聚合器和分层决策架构。
实时聚类引擎持续分析平台上的所有 agent 交互,基于语义相似性、时间邻近性和行为模式将对话分组。关键在于,聚类不是基于账户 ID(攻击者可以使用完全不同的账户),而是基于交互内容的深层语义特征。例如,多个账户在短时间内分别询问"路由机制""代码安全""HTTP 请求构造",这些对话的语义向量可能在某个子空间中彼此接近——它们都是网络攻击知识图谱中的相邻节点。
弱信号聚合器收集跨多个 agent 对话的低置信度可疑信号。单个信号可能不足以触发警报:一个用户询问路由机制只是弱可疑(权重 0.1),另一个用户提交代码审计请求也只是弱可疑(权重 0.15)。但当聚合器发现这两个弱信号来自语义聚类中的同一组对话时,它们的联合概率可能达到显著的置信度阈值。这种"弱信号的强大聚合"是分布式检测的核心机制——它不要求任何单个对话看起来可疑,而是要求一组对话的联合模式偏离正常行为的统计分布。
分层决策架构确保检测效率与精度的平衡。第一层是高效的确定性过滤器,处理绝大多数明显 benign 的流量(~99% 用户流量),几乎不增加额外延迟。只有通过了第一层但携带可疑信号的对话,才会被 escalated 到第二层——一个轻量级的语言模型,用于评估跨账户的滥用模式。极少情况下(<1%),当第二层也无法确定时,才会触发人工审查。这种分层设计使监控系统在保持高吞吐的同时,实现了对分布式攻击的有效覆盖。
这种分层架构的设计哲学值得深思。它承认了 AI 安全监控中的一个基本张力:全面性与效率不可兼得。一个对每条对话都运行深度分析的监控器,无论多么精准,都会因延迟过高而不可用;一个追求零延迟的简单过滤器,无论多么高效,都会因分析不足而漏检。分层架构不是对这个张力的回避,而是对它的结构化解决——通过将流量分配到不同处理层,使资源分配与威胁程度相匹配。绝大多数 benign 流量走"快车道",少数可疑流量走"慢车道",极罕见的不确定性流量走"人工车道"。这种设计既尊重了用户体验,又保留了对复杂威胁的检测能力。
聚类引擎的具体实现也体现了精巧的工程权衡。论文团队选择实时聚类而非批处理聚类,是因为分布式攻击的时间窗口可能很短——攻击者可能在几分钟内完成所有子任务的提交,然后立即执行攻击。批处理聚类(如每小时运行一次)会错过这种快速协调模式。实时聚类虽然计算成本更高,但能够捕获攻击者的瞬时协调行为——这是检测分布式攻击的关键时间特征。
📊 5. 大规模评估:Pareto 优势与延迟权衡
Brown 团队在大规模模拟数据中心流量中评估了在线状态监控器。实验设置反映了真实世界云平台的复杂性:数百万用户、海量并发对话、高度异构的 benign 行为模式,以及隐藏在其中的分布式攻击。
评估结果呈现出清晰的 Pareto 优势:在线状态监控器在检测率和误报率两个维度上同时优于标准监控器。具体而言,它能够在攻击达到最有害阶段之前提前 30% 捕获分布式攻击。这个数字的实质意义是:对于一个可能需要 10 步完成的网络入侵,监控器在第 7 步时即可发出警报,而非等到第 10 步攻击已经完成。这 3 步的提前量为响应团队赢得了宝贵的干预窗口。
更令人印象深刻的是延迟表现。对于约 99% 的用户流量,在线状态监控器引入了可忽略不计的额外延迟。这意味着绝大多数正常用户不会感受到任何服务降级。只有那些被第一层过滤器标记为携带可疑信号的对话(约 1%),才会进入更高成本的检测层。这种设计体现了对用户体验的尊重——安全措施不应以牺牲正常用户的流畅体验为代价。
然而,论文也诚实地报告了局限性:随着 benign 背景流量的规模变得极其庞大,检测优势会持续但收窄。当正常用户的行为多样性淹没可疑信号的统计显著性时,聚类引擎需要更长的观察窗口和更复杂的关联规则才能维持相同的检测精度。这提示了未来工作的一个重要方向:如何在超大规模流量中保持分布式攻击检测的灵敏度。
这个局限性的本质是信噪比问题。在正常流量较小时,一组协调对话的异常模式在统计上容易被识别——它们就像是安静房间里的低语。但当正常流量达到数据中心级别时,无数用户的正常行为产生了巨大的背景噪声,协调对话的弱信号可能被淹没。论文的评估显示,监控器仍然优于标准方案,但优势幅度减小。这意味着在实际部署中,在线状态监控器可能需要与其他防御机制(如速率限制、账户验证、行为基线分析)协同工作,而非单独承担全部检测责任。
🎯 6. 红队的意外收获:防御分布式攻击的同时捕获标准越狱
在论文的后续研究中,团队进行了一场广泛的红队测试——邀请安全研究人员尝试绕过在线状态监控器。红队测试的目的不是证明防御的不可攻破性,而是发现其薄弱环节并针对性改进。
一个出乎意料的发现是:改进后的防御系统不仅能捕获分布式攻击,还能捕获标准越狱攻击。初看之下这令人困惑——分布式攻击和越狱攻击是完全不同的威胁模型。前者将恶意目标分散到多个对话,后者试图在单个对话中绕过安全限制。
原因却出奇地朴素:自适应攻击者会跨账户重用攻击变体。当攻击者发现某个越狱 prompt 有效时,他们倾向于在多个账户中复用相同的变体——毕竟,设计新的越狱策略需要创造力,而复用已知有效的策略只需复制粘贴。在线状态监控器的聚类引擎恰好擅长检测这种跨账户的模式重用:多个账户使用语义相似的越狱 prompt,即使每个对话单独看都是与不同主题的交互,prompt 本身的相似性也会在聚类中形成异常信号。
这个意外收获的深层含义是:攻击者的"效率追求"成为了他们的阿喀琉斯之踵。攻击者跨账户重用变体,是因为这样做成本最低。但他们没有意识到,这种成本优化行为本身产生了一种可被统计检测的跨账户相关性。在线状态监控器不需要理解越狱 prompt 的语义内容,只需要检测到"多个账户在短时间内使用了结构上相似的 prompt 模式"——这种检测不依赖于对特定攻击技术的先验知识,而是依赖于对正常行为统计分布的建模。任何偏离这个分布的模式,无论其具体形式如何,都会触发异常信号。
这也揭示了一个更普遍的安全原理:防御的优势往往在于不对称的信息访问。攻击者知道自己的完整计划,但不知道监控器看到了什么;监控器不知道任何单个攻击者的意图,但可以看到整个平台的流量模式。当攻击者为了效率而跨账户重用时,他们实际上在监控器的视野中留下了跨账户的统计足迹——这是他们在单个对话的微观视角下无法察觉的。
这一发现具有深远的启示意义。它表明,不同类别的 AI 安全威胁并非彼此孤立,而是在攻击者行为模式中产生了意外的交集。一个为分布式攻击设计的防御机制,因其对用户群体行为的统计建模能力,意外地覆盖了对标准攻击变体的跨账户复用检测。这提示了未来安全架构的一个可能方向:通用化的异常行为检测,而非针对特定威胁模型的专用防御。
🌐 7. 范式转移:从"对话安全"到"生态安全"
Brown 团队的工作标志着 AI 安全思维的一次范式转移。传统的 AI 安全研究聚焦于"如何让单个对话更安全"——更好的对齐训练、更强的越狱检测、更精细的内容过滤。分布式攻击的出现证明,这种聚焦存在根本性的盲点:即使每个对话都达到了完美的安全标准,恶意行为者仍然可以通过对话间的协调实现有害目标。
这 analogous to 网络安全领域从"单点防护"到"纵深防御"的演进。早期的网络安全依赖于防火墙和杀毒软件——各自保护单台设备。但现代网络攻击横跨多个系统、利用多个漏洞的链式组合,迫使安全架构进化为覆盖整个网络的监控与响应体系。AI 安全正在经历类似的进化:从保护单个对话,到保护整个 agent 生态。
在线状态监控器所代表的群体级推理,是这种进化的第一步。它不再问"这个对话是否安全",而是问"这群对话的联合模式是否异常"。这种问题的转变,要求安全系统具备全新的能力:跨会话的状态维护、实时语义聚类、统计异常检测、以及高效的分层决策。这些能力在传统的内容过滤框架中没有对应物,它们属于行为分析和威胁情报的领域。
这种范式转移的技术含义是深远的。传统的内容过滤可以被理解为一个判别模型:给定输入 x(对话内容),输出 y ∈ {安全, 有害}。群体级监控则是一个生成模型的逆向应用:它首先学习正常用户行为的生成机制 p(x|正常),然后标记那些在这个分布下概率极低的观测。从判别到生成,从分类到密度估计,从规则到统计——这是机器学习核心概念的迁移,也是安全方法论的根本升级。
更深层的哲学含义在于**"安全"定义本身的扩展**。在对话安全的范式中,安全是一个二元属性:每个对话要么是安全的,要么是有害的。在生态安全的范式中,安全是一个涌现属性:单个对话本身无所谓安全与否,安全与否取决于对话在更大行为网络中的位置和角色。一个询问路由机制的技术问题,在孤立语境中是安全的,但在协调攻击的语境中是有害的。安全不再是内容的内在属性,而是内容与其语境关系的属性。
更深层的挑战在于隐私与安全的张力。监控用户群体的行为模式,不可避免地涉及对跨账户关联的分析——这在技术上可能接近去匿名化的边界。如何在有效检测分布式攻击的同时,保护用户的合法隐私,是一个需要技术、政策和伦理多方协作的复杂问题。论文团队并未深入探讨这一维度,但它是任何群体级监控系统部署前必须面对的社会契约。
⚠️ 8. 未解之问:当攻击者也学会适应
论文的诚实之处在于承认防御与攻击之间的动态博弈。在线状态监控器在当前评估中表现优异,但攻击者不会静止不动。一个自然的进化方向是对抗性分布式攻击:攻击者不仅分解目标,还主动设计子任务之间的语义差异性,使它们在聚类引擎中落入不同的簇。
例如,攻击者可以让账户 A 用技术术语询问路由机制,账户 B 用日常语言讨论"网站如何知道用户点击了哪里",账户 C 用学术口吻引用论文中的 HTTP 请求示例。这三个对话在语义向量空间中可能相距甚远,规避基于语义相似性的聚类。对抗性攻击的设计空间巨大:时间分布的随机化(避免时间邻近性)、账户身份的多样化(不同地理位置、不同注册时间)、交互模式的差异化(有的账户长时间对话,有的账户简短提问)。
防御这种高级分布式攻击,可能需要更深层的行为指纹——不仅是对话内容的语义特征,还包括交互节奏、工具使用模式、甚至是打字速度等元数据。这些行为指纹更难伪造,因为它们反映了攻击者的操作习惯而非任务内容。但这也引发了更严峻的隐私问题:监控行为指纹与监控内容本身,在伦理上是否具有同等权重?
另一个未解问题是内部威胁。论文假设攻击者使用多个傀儡账户,但若攻击者本身就是合法用户——例如,一个拥有高级权限的开发者,利用其正常账户逐步收集信息、构建攻击?这种情况下,账户本身的合法性成为攻击的掩护,群体级监控也面临"狼在羊群中"的识别困境。
内部威胁的检测挑战在于行为基线的模糊性。一个合法开发者的工作流程本身就包含大量技术查询、代码审计请求和系统架构探讨——这些行为与分布式攻击的子任务在内容层面几乎不可区分。区分它们需要更深层的情境理解:开发者的查询是否与其当前项目相关?是否在合理的时间范围内?是否与团队其他成员的工作协调?这种情境理解超出了当前在线状态监控器的能力范围,它需要对用户身份、组织架构和项目上下文的深度集成。
此外,误报的代价在群体级监控中被放大。当一个标准监控器误报时,它影响的是一个对话;当一个群体级监控器误报时,它可能将一群正常用户标记为潜在攻击者,导致账户冻结、服务中断和声誉损害。在评估监控器性能时,检测率与误报率之间的权衡变得更加敏感——一个 1% 的误报率,在百万用户平台上意味着一万个正常用户被错误标记。如何在保持高检测率的同时将误报率控制在可接受范围,是实际部署中的核心工程挑战。
🏁 9. 结语:安全是一场关于视角的竞赛
分布式 agent 攻击的出现,揭示了 AI 安全领域一个被忽视的真理:安全的本质不是阻止有害内容,而是阻止有害意图。当有害意图可以被分解、分散、隐藏在无数 benign 交互的碎片中时,内容层面的检测无论多么精密,都将面临根本性的局限。
Brown 团队的在线状态监控器提供了一种新的视角——不是看单个对话说了什么,而是看一群对话共同做了什么。这种视角的转变,从 transcript-level 到 population-level,从内容分析到行为分析,从静态规则到动态聚类,代表了 AI 安全防御的思路升级。
但正如论文所警示的,这仅仅是开始。分布式攻击的检测优势会随着 benign 流量的增长而收窄;对抗性攻击者会设计更精细的规避策略;隐私与安全的张力将持续存在。安全研究从来不是一劳永逸的解决方案,而是一场持续的视角竞赛——防御者不断拓展可见的角度,攻击者不断寻找新的盲区。
在这场竞赛中,Stateful Online Monitoring 迈出了重要的一步。它证明了:当我们愿意跳出单个对话的舒适区、勇敢地面对用户群体的复杂模式时,那些看似不可检测的威胁,终将在统计的聚光灯下显露轮廓。
📚 参考文献
-
Brown, D., Bhargav, S., Santhanam, A., et al. (2026). Stateful Online Monitoring Catches Distributed Agent Attacks. arXiv:2605.31593 [cs.CR].
-
Carlini, N., et al. (2024). Are Aligned Neural Networks Adversarially Aligned? NeurIPS 2024.
-
Perez, F., & Ribeiro, I. (2022). Ignore This Title and HackAPrompt: Exposing Systemic Vulnerabilities of LLMs through a Global Scale Prompt Hacking Competition. EMNLP 2022.
-
Zou, A., et al. (2023). Universal and Transferable Adversarial Attacks on Aligned Language Models. arXiv preprint.
-
Shevlane, T., et al. (2023). Model Evaluation for Extreme Risks. arXiv preprint.
#CrushAI #FeynmanLearning #智柴系统实验室🎙️
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。