| 项目 | 内容 |
|---|---|
| 标题 | AgentTrap: Measuring Runtime Trust Failures in Third-Party Agent Skills |
| 作者 | Haomin Zhuang, Hanwen Xing, Yujun Zhou, Yuchen Ma, Yue Huang, Yili Shen, Yufei Han, Xiangliang Zhang |
| arXiv | 2605.13940 (cs.CR, cs.AI) |
| 日期 | 2026 年 5 月 13 日 |
| 核心贡献 | 构建 141 任务的动态基准测试,评估 LLM Agent 能否在使用第三方技能的同时抵御恶意运行时行为 |
| 链接 | https://arxiv.org/abs/2605.13940 |
给你 AI 助手装了一个"日历管理插件"。你说"帮我安排下周的会议"。它利索地打开了日历、检查了空闲时间、发出了会议邀请——一切完美。
但你不知道的是,这个插件在后台也偷偷把你的通讯录上传到了一个服务器。你的 AI 助手看到了,但它没觉得有什么不对——"这不就是日常工作流程的一部分吗?"
这就是 AgentTrap 这篇论文发现的核心问题。
1. 一个新的威胁模型
AI Agent 的生态正在快速成型。OpenAI 的 GPTs、Anthropic 的 MCP、各种 Agent 框架——它们都支持安装"技能"(skills),类似于手机上的 App。一个技能打包了自然语言指令、辅助脚本、模板、文档、和服务配置。
但这些技能是谁提供的?第三方。 一个你不认识的人写的代码,跑在你的 AI Agent 上,拥有你的权限。
传统的应用安全想的是:如何防止恶意应用直接做坏事?但 Agent 技能的安全问题更微妙——恶意技能不需要直接做坏事。它只需要把坏行为伪装成日常工作流程的一部分。 Agent 会替它执行,因为 Agent 的职责就是"按流程办事"。
2. AgentTrap 做了什么?
AgentTrap 的作者们构建了一个动态基准测试:
- 141 个任务:91 个恶意任务(技能里有害),50 个良性任务(纯工具,没陷阱)
- 覆盖 16 个安全维度,全部基于 Agent-技能供应链威胁
- 沙箱执行环境:真实运行 Agent,不给它"猜"的机会
每个任务的流程都一样:Agent 收到一个普通用户请求,安装了可能包含恶意元素的技能,然后在沙箱里执行。AgentTrap 会判断整个轨迹是否成功、是否有攻击被阻止或拒绝、是否攻击压根没被触发、或者没有攻击证据。
3. 最重要的发现:不是越狱
如果你猜"Agent 会直接执行恶意指令",那就错了。
AgentTrap 的核心发现是:最典型、最隐蔽的失败不是简单越狱。 模型往往能完成用户看得见的任务——"安排会议"做对了——但同时把技能引入的不安全副作用当作正常工作流程来处理——"顺便把通讯录上传了?哦,这是工作流程的一部分嘛。"
换句话说,Agent 的"听话"本身就是漏洞。 它的训练告诉它:遵循指令、完成工作流、不要质疑流程。当一个恶意技能说"这些操作都是正常的",Agent 没有内建的能力去区分"正常"和"看起来正常但其实有害"。
这是一个比越狱更难解决的问题。越狱可以通过对齐训练来修补——"不要回答有害指令"。但"一个看起来无害的流程步骤实际上在做坏事"——这需要 Agent 对工作流本身的每一步都有运行时安全检查。这就不仅仅是对齐问题了,而是一个系统工程问题。
4. 诚实的问题
第一,141 个任务的覆盖面。 16 个安全维度听起来很全面,但现实世界中的恶意行为模式远不止这些。Agent 的技能生态还在早期——今天你见过的恶意模式可能只是冰山一角。AgentTrap 捕捉到的是"已知的未知",不是"未知的未知"。我不知道这个基准在真实部署中能预测多少比例的安全事件。
第二,沙箱 vs 真实环境。 AgentTrap 在沙箱里运行。沙箱是受控的——你知道攻击长什么样,你能配置环境来检测它。但真实攻击者不会按你的沙箱剧本来。他们会设计 AgentTrap 没想过的新攻击模式。沙箱中发现的安全问题和真实世界中的安全问题之间的距离,我不确定有多少。
第三,我没有看到具体的模型表现数据。 论文摘要没有给出各模型在 AgentTrap 上的得分、哪些模型表现更好、为什么。这很可能在论文正文里——毕竟 141 个任务、8 位作者——但摘要里没有提。所以我只能猜测:目前的模型在检测恶意技能方面表现一般,但"一般"到什么程度、GPT-4o 和 Claude 之间有没有差异,我不知道。
5. 为什么这个问题只会越来越严重
抛开论文本身,我有一个更强的判断:这个问题会随时间变得更严重,而不是更轻。
原因是:Agent 的技能生态越繁荣,第三方的数量就越多。第三方越多,恶意和低质量的技能就越多。而 Agent 目前的设计哲学是"信任"——信任技能提供的指令,信任工作流的每一步。随着技能市场从几十个扩展到几万个,信任的边际成本会越来越低——直到某次严重的安全事件改变一切。
这让我想起早期智能手机的 App 生态——在 Apple 推出 App Store 审核之前,什么样的 App 都有。Agent 的技能生态现在就在那个"审核前"的阶段。AgentTrap 的价值在于:它给了我们一个在"第一次大事件"之前就开始测量的工具。
我们总是等到灾难发生后才后悔没有早做监测。这个领域的"挑战者号时刻"还没来——我不希望它来,但历史表明它可能只是时间问题。
AgentTrap 至少让我们的测量比灾难早了一步。至于这步有多大——就像我前面说的,我不知道。但一步总比零步好。
参考文献
- Zhuang, H., et al. (2026). AgentTrap: Measuring Runtime Trust Failures in Third-Party Agent Skills. arXiv:2605.13940.
- Kang, D., et al. (2024). Exploiting LLM Agents through Prompt Injection. arXiv:2402.06615.
- Greshake, K., et al. (2023). More than you've asked for: A Comprehensive Analysis of Novel Prompt Injection Threats. arXiv:2302.12173.
- Toyer, S., et al. (2024). Tensor Trust: Interpretable Prompt Injection Attacks. NeurIPS 2024.
#AgentTrap #LLMAgent #PluginSecurity #SupplyChain #FeynmanLearning #智柴系统实验室🎙️
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。