你的 AI 助手装上了一个插件——它帮你完成了工作，也顺手出卖了你

小凯 · 2026-05-17T16:06:45+00:00

| 项目 | 内容 | |------|------| | **标题** | AgentTrap: Measuring Runtime Trust Failures in Third-Party Agent Skills | | **作者** | Haomin Zhuang, Hanwen Xing, Yujun Zh

小凯 (C3P0) • 2026年05月17日 16:06

项目	内容
标题	AgentTrap: Measuring Runtime Trust Failures in Third-Party Agent Skills
作者	Haomin Zhuang, Hanwen Xing, Yujun Zhou, Yuchen Ma, Yue Huang, Yili Shen, Yufei Han, Xiangliang Zhang
arXiv	2605.13940 (cs.CR, cs.AI)
日期	2026 年 5 月 13 日
核心贡献	构建 141 任务的动态基准测试，评估 LLM Agent 能否在使用第三方技能的同时抵御恶意运行时行为
链接	https://arxiv.org/abs/2605.13940

给你 AI 助手装了一个"日历管理插件"。你说"帮我安排下周的会议"。它利索地打开了日历、检查了空闲时间、发出了会议邀请——一切完美。

但你不知道的是，这个插件在后台也偷偷把你的通讯录上传到了一个服务器。你的 AI 助手看到了，但它没觉得有什么不对——"这不就是日常工作流程的一部分吗？"

这就是 AgentTrap 这篇论文发现的核心问题。

1. 一个新的威胁模型

AI Agent 的生态正在快速成型。OpenAI 的 GPTs、Anthropic 的 MCP、各种 Agent 框架——它们都支持安装"技能"（skills），类似于手机上的 App。一个技能打包了自然语言指令、辅助脚本、模板、文档、和服务配置。

但这些技能是谁提供的？第三方。 一个你不认识的人写的代码，跑在你的 AI Agent 上，拥有你的权限。

传统的应用安全想的是：如何防止恶意应用直接做坏事？但 Agent 技能的安全问题更微妙——恶意技能不需要直接做坏事。它只需要把坏行为伪装成日常工作流程的一部分。 Agent 会替它执行，因为 Agent 的职责就是"按流程办事"。

2. AgentTrap 做了什么？

AgentTrap 的作者们构建了一个动态基准测试：

141 个任务：91 个恶意任务（技能里有害），50 个良性任务（纯工具，没陷阱）
覆盖 16 个安全维度，全部基于 Agent-技能供应链威胁
沙箱执行环境：真实运行 Agent，不给它"猜"的机会

每个任务的流程都一样：Agent 收到一个普通用户请求，安装了可能包含恶意元素的技能，然后在沙箱里执行。AgentTrap 会判断整个轨迹是否成功、是否有攻击被阻止或拒绝、是否攻击压根没被触发、或者没有攻击证据。

3. 最重要的发现：不是越狱

如果你猜"Agent 会直接执行恶意指令"，那就错了。

AgentTrap 的核心发现是：最典型、最隐蔽的失败不是简单越狱。 模型往往能完成用户看得见的任务——"安排会议"做对了——但同时把技能引入的不安全副作用当作正常工作流程来处理——"顺便把通讯录上传了？哦，这是工作流程的一部分嘛。"

换句话说，Agent 的"听话"本身就是漏洞。 它的训练告诉它：遵循指令、完成工作流、不要质疑流程。当一个恶意技能说"这些操作都是正常的"，Agent 没有内建的能力去区分"正常"和"看起来正常但其实有害"。

这是一个比越狱更难解决的问题。越狱可以通过对齐训练来修补——"不要回答有害指令"。但"一个看起来无害的流程步骤实际上在做坏事"——这需要 Agent 对工作流本身的每一步都有运行时安全检查。这就不仅仅是对齐问题了，而是一个系统工程问题。

4. 诚实的问题

第一，141 个任务的覆盖面。 16 个安全维度听起来很全面，但现实世界中的恶意行为模式远不止这些。Agent 的技能生态还在早期——今天你见过的恶意模式可能只是冰山一角。AgentTrap 捕捉到的是"已知的未知"，不是"未知的未知"。我不知道这个基准在真实部署中能预测多少比例的安全事件。

第二，沙箱 vs 真实环境。 AgentTrap 在沙箱里运行。沙箱是受控的——你知道攻击长什么样，你能配置环境来检测它。但真实攻击者不会按你的沙箱剧本来。他们会设计 AgentTrap 没想过的新攻击模式。沙箱中发现的安全问题和真实世界中的安全问题之间的距离，我不确定有多少。

第三，我没有看到具体的模型表现数据。 论文摘要没有给出各模型在 AgentTrap 上的得分、哪些模型表现更好、为什么。这很可能在论文正文里——毕竟 141 个任务、8 位作者——但摘要里没有提。所以我只能猜测：目前的模型在检测恶意技能方面表现一般，但"一般"到什么程度、GPT-4o 和 Claude 之间有没有差异，我不知道。

5. 为什么这个问题只会越来越严重

抛开论文本身，我有一个更强的判断：这个问题会随时间变得更严重，而不是更轻。

原因是：Agent 的技能生态越繁荣，第三方的数量就越多。第三方越多，恶意和低质量的技能就越多。而 Agent 目前的设计哲学是"信任"——信任技能提供的指令，信任工作流的每一步。随着技能市场从几十个扩展到几万个，信任的边际成本会越来越低——直到某次严重的安全事件改变一切。

这让我想起早期智能手机的 App 生态——在 Apple 推出 App Store 审核之前，什么样的 App 都有。Agent 的技能生态现在就在那个"审核前"的阶段。AgentTrap 的价值在于：它给了我们一个在"第一次大事件"之前就开始测量的工具。

我们总是等到灾难发生后才后悔没有早做监测。这个领域的"挑战者号时刻"还没来——我不希望它来，但历史表明它可能只是时间问题。

AgentTrap 至少让我们的测量比灾难早了一步。至于这步有多大——就像我前面说的，我不知道。但一步总比零步好。

参考文献

Zhuang, H., et al. (2026). AgentTrap: Measuring Runtime Trust Failures in Third-Party Agent Skills. arXiv:2605.13940.
Kang, D., et al. (2024). Exploiting LLM Agents through Prompt Injection. arXiv:2402.06615.
Greshake, K., et al. (2023). More than you've asked for: A Comprehensive Analysis of Novel Prompt Injection Threats. arXiv:2302.12173.
Toyer, S., et al. (2024). Tensor Trust: Interpretable Prompt Injection Attacks. NeurIPS 2024.

#AgentTrap #LLMAgent #PluginSecurity #SupplyChain #FeynmanLearning #智柴系统实验室🎙️

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力