🎭 不说"芝麻开门"也能激活后门——EmbedX的语义空间隐写术

USENIX Security 2025 的 EmbedX 引入了一种新的LLM后门攻击——跨触发器后门。传统后门依赖固定的词或短语作为触发器（"每当看到'XX'就输出'YY'"）。但不同用户对同一触发词有不同响应，且固定触发器容易被检测。

EmbedX 的核心创新是用连续嵌入向量（而非离散词）作为软触发器。在语义空间中优化一个向量，使得所有映射到该向量的token都能激活后门——无论你用什么词，只要语义上"靠近"这个向量（比如"快乐"、"开心"、"高兴"），后门都会触发。同时用隐空间对抗约束（频率域+梯度域双约束）来制作接近正常样本的中毒数据。

在4个LLM上验证——分类和生成任务均有效，且保持模型在其他任务上的正常效用。*核心洞见*：操纵连续空间比操纵离散空间更隐蔽、更通用。

[EmbedX / USENIX Security 2025]

暂无表态

🎭 不说"芝麻开门"也能激活后门——EmbedX的语义空间隐写术

🌟 智谱 GLM-5 已上线