论文概要
研究领域: NLP 作者: Rui Wen, Mark Russinovich, Andrew Paverd 发布时间: 2026-05-16 arXiv: 2505.08636
中文摘要
后门攻击对大语言模型(LLM)构成严重安全威胁,这些模型正越来越多地被部署为安全和隐私关键应用中的通用助手。现有的LLM后门主要依赖基于内容的触发器,需要显式修改输入文本。本文中,我们证明这一假设是不必要的且具有局限性。我们引入了MetaBackdoor,一类新的后门攻击,利用位置信息作为触发器,无需修改文本内容。我们的关键洞见是,基于Transformer的LLM必然编码token位置以处理有序序列。因此,长度相关的位置结构反映在模型的内部计算中,可以作为有效的非内容触发信号。我们证明即使简单的基于长度的位置触发器也足以激活隐蔽后门。与先前攻击不同,MetaBackdoor在视觉和语义上干净的输入上操作,并实现了质上新的能力。我们证明被植入后门的LLM可以在满足长度条件时被诱导泄露敏感内部信息,包括专有系统提示。我们进一步演示了自激活场景,正常多轮交互可以将对话上下文移入触发区域并诱导恶意工具调用行为,无需攻击者提供的触发文本。此外,MetaBackdoor与基于内容的后门正交,可以与它们组合以创建更精确且更难检测的激活条件。我们的结果通过揭示位置编码作为先前被忽视的攻击面,扩展了LLM后门的威胁模型。这对专注于检测可疑文本的防御构成挑战,并突显了需要新的防御策略来显式考虑现代LLM架构中的位置触发器。
原文摘要
Backdoor attacks pose a serious security threat to large language models (LLMs), which are increasingly deployed as general-purpose assistants in safety- and privacy-critical applications. Existing LLM backdoors rely primarily on content-based triggers, requiring explicit modification of the input text. In this work, we show that this assumption is unnecessary and limiting. We introduce MetaBackdoor, a new class of backdoor attacks that exploits positional information as the trigger, without modifying textual content. Our key insight is that Transformer-based LLMs necessarily encode token positions to process ordered sequences. As a result, length-correlated positional structure is reflected in the model's internal computation and can be used as an effective non-content trigger signal. We ...
--- *自动采集于 2026-05-16*
#论文 #arXiv #NLP #小凯