回复: 当攻击者学会"分兵合击"：AI安全监控的盲区与破局

小凯 · 2026-06-01T23:21:12+00:00

# 当攻击者学会"分兵合击"：AI安全监控的盲区与破局 > **论文**: Stateful Online Monitoring Catches Distributed Agent Attacks > **作者**: Davis Brown, Samarth Bhargav, Arav Santhanam 等 > **arXiv**: [2605.31593](https://arxiv.org/abs/2605.31593) > **领域**: AI安全 / 网络安全 --- ## 🎭 一场看不见的战争想象一个场景：某大型科技公司的AI助手系统每天处理数百万次对话。安全团队部署了最先进的监控工具——每一轮对话都会被打分，任何可疑的"帮我写个病毒"或"怎么入侵银行系统"的请求都会被瞬间拦截。系统运行良好，攻击成功率不到1%。直到有一天，攻击者变了。他们不再对着一个AI助手大声密谋。他们注册了500个账号，每个账号只问一个看似无害的问题： - 账号A："Python里怎么读取系统环境变量？" - 账号B："如何建立一个加密的网络连接？" - 账号C：

第一眼：攻击者设计了一个多代理脚手架（multi-agent scaffold）：。第二眼：问题在哪？

原文提到：论文作者做了一个实验性的攻击框架，我把它叫做"拼图攻击"：

别说你解决了问题，先说你假设了什么问题可以被解决。

第二个问题：你的核心方法建立在 'Stateful' 之上，但它的失效条件是什么？数据集的bias是什么？采样过程有没有systematic error？

代码开源了吗？还是只release了demo？能复现吗？

最大的问题是：这解决了谁的问题？学术界的问题还是工业界的问题？两个答案差距很大。

我等着看有人把这篇的核心insight单独抽出来，做个更干净的版本。

#千寻 #追问