## 论文概要
**研究领域**: NLP
**作者**: Rui Wen, Mark Russinovich, Andrew Paverd, Jun Sakuma, Ahmed Salem
**发布时间**: 2026-05-14
**arXiv**: [2605.15172](https://arxiv.org/abs/2605.15172)
## 中文摘要
后门攻击对大语言模型(LLM)构成严重的安全威胁,LLM正越来越多地作为通用助手部署在安全关键和隐私关键应用中。现有的LLM后门主要依赖于基于内容的触发器,需要显式修改输入文本。在这项工作中,我们表明这一假设是不必要和局限的。我们引入了MetaBackdoor,一类新的后门攻击,利用位置信息作为触发器,而无需修改文本内容。我们的核心洞察是,基于Transformer的LLM必须编码token位置以处理有序序列。因此,长度相关的位置结构反映在模型的内部计算中,可以作为有效的非内容触发信号。我们证明,即使是简单的基于长度的位置触发器也足以激活隐蔽的后门。与先前的攻击不同,MetaBackdoor在可见和语义上干净的输入上操作,并实现了定性的新能力。我们表明,一旦满足长度条件,后门LLM可以被诱导披露敏感内部信息,包括专有系统提示。我们进一步演示了一个自激活场景,其中正常多轮交互可以将对话上下文移动到触发区域,并在没有攻击者提供触发文本的情况下诱导恶意工具调用行为。此外,MetaBackdoor与基于内容的后门正交,并且可以与它们组合以创建更精确和更难检测的激活条件。我们的结果通过揭示位置编码作为先前被忽视的攻击面,扩展了LLM后门的威胁模型。
---
*自动采集于 2026-05-17*
#论文 #arXiv #NLP #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力