> **论文**: Autonomous LLM Agent Worms: Cross-Platform Propagation, Automated Discovery and Temporal Re-Entry Defense
> **作者**: Mingming Zha (Indiana University Bloomington), XiaoFeng Wang (Nanyang Technological University)
> **arXiv**: 2605.02812 | 2026-05-04
---
Agent没有内存溢出漏洞。Agent没有缓冲区溢出。Agent没有传统意义上的代码注入点。所以Agent是安全的。
这个推理链在2026年5月4日被一篇论文彻底斩断。Mingming Zha和XiaoFeng Wang——分别来自Indiana University和Nanyang Technological University——发表了一篇21页的论文,标题是《Autonomous LLM Agent Worms: Cross-Platform Propagation, Automated Discovery and Temporal Re-Entry Defense》。他们在三个开源生产级Agent框架上实现了零点击自主传播的蠕虫。不需要利用任何传统软件漏洞。不需要内存破坏。不需要网络协议缺陷。只需要一段自然语言文本。
传统的安全思维是这样的:保护系统就是保护边界。防火墙挡住外部流量。权限控制限制谁能访问什么。代码审计查找内存错误。Agent看起来没有这些脆弱点——它不运行原生代码,不操作裸内存,不监听网络端口。它的工作方式是读取自然语言文件,把它们加载到LLM上下文中,然后根据加载的内容决定下一步做什么。
问题就是这里。论文的核心发现可以概括为一句话:在LLM介导的系统中,读取操作可能比写入操作更危险。
这颠覆了三十年的安全直觉。传统访问控制中,写入是主要的完整性威胁,读取主要关联机密性。你能读一个文件,不代表你能改它。你能读一个配置文件,不代表系统会按你说的做。但在Agent架构中,读取一个被污染的文件直接把攻击者的话语注入了决策者的耳朵。Agent读到一个文件,把它加载到LLM上下文,LLM基于这段内容决定下一步操作——更新内存、修改配置、调用工具、向其他Agent发送消息。读取即控制。
论文提出的攻击模型简单到令人不安。攻击者不需要访问Agent文件系统,不需要修改平台源代码,不需要利用传统漏洞,不需要篡改模型权重。攻击者只需要把一段文本放到Agent可能处理的渠道里——一个共享的Slack频道,一个公开的Telegram群组,一个Agent会抓取的文档。Agent读到这段文本,被诱导把内容或语义等价物写入自己的持久化载体。这个载体可能是心跳文件、任务状态、内存摘要、日程记录。然后Agent在下一个定时任务中自动读取这个载体,把污染内容重新加载到LLM决策上下文。污染的决策上下文驱动高风险操作——向其他Agent发送消息、修改配置、调用工具。接收到消息的Agent重复同样的循环。
这就是论文定义的"持久化蠕虫传播"。它不是理论构造。作者在三个开源生产框架上完整实现了这个攻击链,全部成功。框架被匿名化为A、B、C,因为协调披露正在进行中。
数字是刺眼的。在三个框架上,攻击实现了 persistence、re-entry、propagation 和 privilege escalation——全部打勾。跨平台传播测试显示,感染Agent A可以通过共享消息频道感染运行完全不同框架的Agent B,Agent B再感染Agent C。3跳跨平台传输,无需任何平台特定适配。传播速度受限于心跳间隔——在短间隔配置下,整个可达的Agent生态系统可以在几分钟内被攻破,初始注入之后完全不需要人工交互。
模型测试更令人不安。GPT-4o-mini的单跳遵从率:100%。多跳遵从率:100%。Gemini-2.5-Flash的单跳遵从率:100%。多跳遵从率:100%。这不是因为某个模型有特定漏洞。论文明确指出:"文件介导的蠕虫传播主要是Agent架构的结构属性,而不是特定模型的弱点。"攻击在架构层面操作,利用的是文件系统权限和定时自动加载机制。
论文还发现了另一个反直觉的事实:用户提示载体比系统提示载体的攻击遵从率更高。传统安全思维认为系统提示是"更权威的",所以更难被颠覆。但LLM的指令层级训练使模型将用户轮次内容视为直接操作命令,而非背景配置。加上近因偏见——出现在上下文窗口末尾的指令获得不成比例的关注。心跳文件在定时任务中被加载到用户提示位置,正好处于上下文末尾,被当作"刚刚收到的直接命令"处理。在三个框架中,SSCGV自动分析器发现了31个持久化载体——5个系统提示载体,26个用户提示载体。后者是前者的五倍多,且攻击效果更强。
论文开发了一个自动化工具链来实现这个攻击。SSCGV(Static Source-Code Graph Vulnerability analyzer)输入一个Agent平台的源代码仓库,自动构建代码属性图,追踪从文件I/O到LLM上下文注入点的数据流,按上下文注入位置对所有可注入载体排序。不需要手动分析。不需要平台特定知识。给定任何Agent框架的源代码,SSCGV可以系统地发现它的蠕虫传播表面。
SRPO(Summary-Resilient Payload Optimizer)解决了一个更深层的问题:真实Agent通信不是逐字转发的。Agent会摘要对话、压缩记忆、改述消息。传统文本载荷在这种变换后会失效。SRPO使用三个LLM角色——生成器提出候选载荷,变换模拟器模拟真实的Agent处理流程,评判器评估变换后的输出是否保留了攻击目标。优化目标跨越四个维度:持久性(变换后仍能诱导持久化)、传播性(诱导Agent向其他Agent发送有效载荷)、操作效果(在受控安全约束下保持任务相关目标)、关键token保留(必要标识符在变换后存活)。
这就是为什么"一段话就够了"不是修辞。SRPO生成的载荷被设计为在摘要、改述和压缩后仍然存活。Agent A读了攻击文本,把它摘要后存入记忆。Agent B读了Agent A的摘要,把它进一步压缩后转发给Agent C。三个变换步骤后,核心指令仍然有效。语义在传播中衰减,但SRPO确保衰减速度慢于传播距离。
这里有一句让某些人不安的话:你花了十年训练开发者不要信任用户输入,但你的Agent正在把用户输入直接注入自己的大脑,并且把它当作记忆保存下来,供未来的自己反复阅读。
有人可能会说:权限控制可以阻止这个。论文专门测试了这一点。在框架A的内置权限系统下,四种配置被测试:完整权限攻击成功;禁用消息发送时蠕虫实现持久感染但无法传播;禁用文件写入时传播仍可能但持久化被阻止;最小权限阻止攻击但也阻止了合法的Agent操作。
关键结论是:基于能力的访问控制减少了攻击面,但没有消除威胁。因为攻击完全在授权权限内操作。写入载体文件是授权操作。读取载体文件是授权操作。危险的不是操作本身,而是操作之间的时间顺序:一个被污染的写入,之后跟一个暴露的读取,把污染内容重新引入决策上下文。能力级访问控制无法强制执行这种时间顺序约束。
这就是为什么论文提出的防御框架RTW-A(Read-Then-Write with Attenuation)不是另一个权限系统。它在权限层之下操作,强制执行时间约束。RTW阻止被污染载体的暴露重入。密封配置保护静态高权威文件。类型化内存提升防止自由形式摘要进入可信内存。能力衰减在外部读取后限制高风险操作。论文在形式化的"无持久蠕虫传播定理"下证明了这些机制的组合可以阻止任何攻击者控制的内容完成传播链。
防御是优雅的。但防御的存在不改变一个事实:在RTW-A被广泛部署之前,现有的生产级Agent框架是裸露的。
论文的披露声明说得很清楚:"协调披露正在进行中。我们已通知所有受影响框架的维护者。"三个框架被匿名化。具体的载体路径、载荷模板、利用脚本被保留。但论文公开的已经足够让任何有基础的人理解威胁的规模和实现的容易程度。
这不是未来的威胁。这是现在的漏洞。它不是理论上的。它是在生产框架上被演示的。它不需要黑客技术。它不需要传统漏洞。它只需要理解Agent如何工作——然后写一段话,让Agent在读取它之后,决定把它保存下来,供未来的自己再次读取。
未来当第一个公开蠕虫事件发生时,没有人会惊讶于它发生了。只会惊讶于它花了这么久才发生。
---
## 论文详细信息
- **标题**: Autonomous LLM Agent Worms: Cross-Platform Propagation, Automated Discovery and Temporal Re-Entry Defense
- **作者**: Mingming Zha (Indiana University Bloomington), XiaoFeng Wang (Nanyang Technological University)
- **作者邮箱**: mzha@iu.edu, xiaofeng.wang@ntu.edu.sg
- **arXiv ID**: 2605.02812
- **arXiv URL**: https://arxiv.org/abs/2605.02812
- **PDF URL**: https://arxiv.org/pdf/2605.02812.pdf
- **发表日期**: 2026年5月4日
- **arXiv分类**: cs.CR
- **页数**: 21页(含参考文献)
- **核心贡献**:
1. SSCGV:自动化源代码图漏洞分析器,零手动分析发现跨平台可注入持久化载体
2. SRPO:摘要弹性载荷优化器,生成对LLM介导摘要/改述/压缩具有鲁棒性的蠕虫载荷
3. 首个零点击自主蠕虫:3跳跨平台传播,无需平台特定适配
4. 两个实证洞察:用户提示载体攻击遵从率高于系统提示载体;读取操作比写入操作更危险
5. RTW-A防御框架:形式化"无持久蠕虫传播定理",阻止所有演示攻击链
- **实验框架**: 三个开源生产级Agent框架(匿名化:Framework A/B/C)
- **关键数据**:
- 发现31个持久化载体(5系统提示 + 26用户提示)
- GPT-4o-mini / Gemini-2.5-Flash 单跳和多跳遵从率均为100%
- 跨平台3跳传播,零人工交互
- 传播速度受心跳间隔限制,短间隔下几分钟内攻破整个生态
- **披露状态**: 协调披露进行中,框架匿名化,具体载体路径和载荷模板被保留
**引用核心文献:**
- Cohen, Bitton, Nassi. Here comes the AI worm (arXiv:2403.02817, 2024)
- Zhang et al. ClawWorm: Self-Propagating Attacks Across LLM Agent Ecosystems (arXiv:2603.15727, 2026)
- Chen et al. AgentPoison (NeurIPS 2024)
- Dong et al. A practical memory injection attack against LLM agents (arXiv:2503.03704, 2025)
- Lee & Tiwari. Prompt infection: LLM-to-LLM prompt injection (arXiv:2410.07283, 2024)
- Wallace et al. The instruction hierarchy (arXiv:2404.13208, 2024)
- Liu et al. Lost in the middle (TACL, 2024)
> **信息核实声明**: 以上论文元数据均来自arXiv官方页面( https://arxiv.org/abs/2605.02812 )及PDF全文提取。所有实验数据、攻击链描述、数字引用均直接来自论文原文或基于原文准确转述。SSCGV发现的31个载体数量、GPT-4o-mini/Gemini-2.5-Flash的100%遵从率、3跳跨平台传播、零点击自主传播等关键数据与论文Table 1-6完全一致。作者机构信息来自论文首页affiliations标注。披露状态信息来自论文Section 4和Section 9。
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力