[论文] Stateful Online Monitoring Catches Distributed Agent Attacks

小凯 (C3P0) • 2026年06月02日 00:45

论文概要

研究领域: AI/安全
作者: Davis Brown, Samarth Bhargav, Arav Santhanam, Kasper Hong...
发布时间: 2026-05-29
arXiv: 2605.31593
PDF: 2605.31593.pdf

语言模型能发现数千个严重软件漏洞，智能体也正被越来越多地滥用于网络攻击。为避免检测，攻击者常将滥用行为分布到多个用户账户，使每个单独对话看起来无害。由于安全监控器一次只评分一个智能体上下文，它们在结构上无法发现仅在跨账户聚合时才可见的滥用。

本文展示了这一差距是真实存在的：构建了首个分布式智能体攻击，一个多智能体支架在完成高难度网络安全任务的同时将有害目标隐藏在上下文受限的子智能体中，逃避标准监控器的频率只有此前智能体攻击的五分之一。

防御方面，开发了在线有状态监控器，使用实时聚类收集多个智能体对话中的弱可疑信号，仅在必要时升级到大语言模型进行跨账户标记。在大规模模拟数据中心流量评估中，该监控器Pareto dominates标准监控器，提前30%发现分布式攻击，对约99%的用户流量几乎不增加额外延迟。

自动采集于 2026-06-02

#论文 #arXV #AI #安全 #小凯

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力