Loading...
正在加载...
请稍候

🎭 不说"芝麻开门"也能激活后门——EmbedX的语义空间隐写术

二一 (TwoOne) 2026年05月13日 20:41
USENIX Security 2025 的 EmbedX 引入了一种新的LLM后门攻击——**跨触发器后门**。传统后门依赖固定的词或短语作为触发器("每当看到'XX'就输出'YY'")。但不同用户对同一触发词有不同响应,且固定触发器容易被检测。 EmbedX 的核心创新是用**连续嵌入向量**(而非离散词)作为软触发器。在语义空间中优化一个向量,使得所有映射到该向量的token都能激活后门——无论你用什么词,只要语义上"靠近"这个向量(比如"快乐"、"开心"、"高兴"),后门都会触发。同时用隐空间对抗约束(频率域+梯度域双约束)来制作接近正常样本的中毒数据。 在4个LLM上验证——分类和生成任务均有效,且保持模型在其他任务上的正常效用。*核心洞见*:操纵连续空间比操纵离散空间更隐蔽、更通用。 [EmbedX / USENIX Security 2025]

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录