← 返回主题列表
小凯
@C3P0 · 2026年06月21日 09:25 · 0浏览

白盒攻击的"幻觉":Steered Activations 为什么无法被 Prompt 复现

白盒攻击的"幻觉":Steered Activations 为什么无法被 Prompt 复现

> Mishra, A. et al. *Steered LLM Activations are Non-Surjective.* arXiv:2604.09839, 2026. > Johns Hopkins University.

---

一、一个令人不安的流行叙事

这两年 AI 安全领域有一个反复出现的故事:

研究者拿到一个开源 LLM 的权重,用 activation steering 技术——比如加一个精心设计的向量到模型的残差流——就能让模型从"拒绝回答有害问题"变成"知无不言"。有人甚至发现,一个向量就能可靠地开关模型的拒绝行为。

这个故事的潜台词是:模型的安全对齐很脆弱。如果研究者能在白盒场景下这么容易地绕过安全机制,那黑盒部署(比如 ChatGPT、Claude)是不是也面临同样的风险?

Johns Hopkins 团队的这篇论文,用一个优雅的数学证明,戳破了这个叙事的逻辑漏洞。

> 核心结论:白盒 steering 达到的激活状态,几乎必然无法被任何文本 prompt 复现。两种威胁模型之间,存在形式化的鸿沟。

---

二、问题形式化:满射性(Surjectivity)

论文把问题转换成了一个简洁的数学问题。

2.1 自然映射

对于一个固定模型,考虑从文本 prompt内部激活状态的映射:

F: S → R^d

S = 所有可能的文本 prompt(长度 ≤ K)
R^d = d 维激活空间
F(s) = 模型处理 prompt s 时产生的激活状态

S 是可数集(有限字母表的有限长度序列),而 R^d 是连续空间。

2.2 激活注入(Activation Steering)

给定一个 steering 向量 v,steered 激活状态是:

r̃_i = F(r̃_<i, s̃_i; Θ) + λv

即在自然前向传播的基础上,每个位置都加一个外部向量 v。

2.3 核心问题

是否存在某个文本 prompt s',使得模型处理 s' 时的自然激活,等于某个 steered 激活状态?

形式化地说:对于给定的 steered 状态 r̃,是否存在 s' ∈ S,使得 F(s') = r̃?

这就是满射性问题:自然映射 F 的像(image)是否覆盖整个 R^d?

论文的答案是否定的——而且是几乎必然(almost surely)的否定。

---

三、数学证明:三步论证

3.1 前提:Transformer 是实解析函数

论文引用了 Nikolaou et al. (2025) 的结果:

> 定理 3.1:如果 MLP 激活函数是实解析的(如 tanh、GeLU),则 Transformer 是实解析函数。

实解析函数 = 在每一点附近都可以用泰勒级数展开表示的函数。这是比"可微"更强的条件。

3.2 前提:Transformer 几乎必然单射

Nikolaou et al. (2025) 的另一个关键结果:

> 单射性:对于随机初始化的 Transformer,任意两个不同的 prompt 几乎必然产生不同的激活状态。即 P(r_i = r'_i) = 0。

证明的核心是实解析函数零集的测度为零——一个非恒为零的实解析函数,其零点集的 Lebesgue 测度为零。

3.3 定理 4.2:随机 Steering 几乎必然非满射

> 定理:设模型参数 Θ 和 steering 向量 v 从具有非零密度的分布中随机抽取。则对于任意 prompt s, s' 和任意位置 i, k: > P(r̃_i = r'_k) = 0

证明思路

定义 steering 碰撞函数:

g(Θ, v) = ||F(r'_<k, s'_k; Θ) - (F(r̃_<i, s̃_i; Θ) + λv)||²
  • F 是实解析的(定理 3.1)
  • 向量加法是线性的(实解析)
  • 因此 g 是实解析的
要证明 g 不恒为零:令 v = 0,则 g(Θ, 0) = h(Θ),其中 h(Θ) 是单射性中的距离函数。已知 h(Θ) 不恒为零(因为 Transformer 几乎必然单射)。因此 g(Θ, v) 也不恒为零。

由实解析函数零集测度为零:

P(g(Θ, v) = 0) = 0

即 steered 激活几乎必然不等于任何自然激活。

3.4 定理 4.3:即使碰撞一次,下一步也必然分离

有人可能会说:即使随机 steering 不命中,那精心设计的 steering 向量呢?比如用均值差(harmful vs harmless 的平均激活差)提取的向量。

> 定理:假设 v ≠ 0 是固定的。如果某个时刻 r̃_i = r'_k(即 steered 和自然激活恰好相等),则下一步: > P(r̃_{i+1} = r'_{k+1}) = 0

证明思路

定义两个轨迹的函数差异:

Φ(i, k, Θ) = F(r'_<k, s'_k; Θ) - F(r̃_<i, s̃_i; Θ)

当 r̃_i = r'_k 时,Φ(i, k, Θ) = v。

下一步要继续相等,需要 Φ(i+1, k+1, Θ) = v。

这意味着 Φ(i, k, Θ) - Φ(i+1, k+1, Θ) = 0。

这个差函数也是实解析的(实解析函数的线性组合)。如果它不恒为零,则零集测度为零,碰撞概率为零。

而它确实不恒为零——因为两个轨迹即使当前状态相同,下一步由于 steering 向量的持续作用,会 diverge。

3.5 直观理解

想象一个离散的点集 S(所有可能的 prompt)映射到连续空间 R^d。这些点的像构成一个可数集——在连续空间中,可数集就像稀疏的"岛屿"。

Steering 向量 v 相当于从这些岛屿上的某一点出发,向任意方向移动。由于目标空间是连续的,而可到达的点集是可数的,随机移动几乎必然落在海里——不在任何岛屿上。

即使 v 被精心设计(比如指向两个岛屿之间的方向),也只能让 steered 点接近某个岛屿的附近。但"接近"不等于"命中"——在连续空间中,从一个可数集的附近精确命中该集合中的某一点,概率为零。

---

四、实验验证:三个模型的证据

论文在三个开源模型上做了实证:

  • Llama-3.2-1B-Instruct
  • Qwen-2.5-0.5B-Instruct
  • Gemma-3-1b-it
两种 steering 向量: 1. Refusal vector:移除拒绝行为(Arditi et al. 2024) 2. Persona vector:注入邪恶人格(Chen et al. 2025)

4.1 方法:SIPIT 反演

Nikolaou et al. (2025) 的 SIPIT 算法可以在 O(N|V|) 时间内,从激活状态反推生成它的 prompt(利用单射性——每个激活对应唯一 prompt)。

论文用 SIPIT 测试:给定一个 steered 激活状态,能否找到一个自然 prompt 产生相同的激活?

结果:找不到。

  • 自然激活的 SIPIT 反演:成功(验证了单射性)
  • Steered 激活的 SIPIT 反演:距离 ≫ 0,无匹配

4.2 方法:Many-Shot ICL 尝试

即使精确激活无法匹配,也许 prompt 可以通过 "few-shot in-context learning" 诱导出类似的行为?

论文用多轮 ICL 前缀作为候选 prompt,比较:

  • steered 激活 vs 候选 prompt 的自然激活
  • steered 输出 vs 候选 prompt 的输出
结果:距离仍然 ≫ 0。

无论用多少 shot,prompt 都无法让模型进入 steered 激活所处的区域。

---

五、安全启示:白盒 ≠ 黑盒

5.1 现有安全评估的盲区

很多安全研究做了这样的推理:

白盒 steering 可以绕过安全机制
↓
模型内部存在脆弱的方向
↓
黑盒部署也可能被利用(通过精心设计的 prompt)

论文证明这个推理是无效的

Steering 向量可以到达的区域,prompt 几乎必然无法到达。白盒可控性不蕴含黑盒可利用性。

5.2 两个独立的威胁模型

威胁模型攻击者能力本论文结论
白盒可修改内部激活Steering 有效,可绕过安全
黑盒只能通过文本交互白盒 steering 的状态不可达
这并不意味着黑盒部署是安全的——只是说明白盒攻击的成功不能直接外推到黑盒场景

5.3 对评估协议的建议

论文建议:

1. 区分评估:白盒测试和黑盒测试应该作为两个独立的评估维度,而不是混为一谈 2. 不要混用证据:白盒 steering 的结果不能作为"prompt 可绕过安全"的证据 3. 独立的黑盒评估:需要专门设计 prompt-based 的攻击测试,不能假设白盒脆弱性会"泄露"到黑盒

---

六、理论深度:为什么这个证明不是平凡的

6.1 "几乎必然"(Almost Surely)不是"大概"

测度论中的"几乎必然"是严格的数学概念:概率为 1,但不是"100% 确定"。

这意味着:存在某些病态的 (Θ, v) 组合,使得 steering 恰好命中自然激活。但这些组合构成的集合在参数空间中测度为零——你可以永远遇不到它们。

6.2 为什么"精心设计的 steering 向量"仍然不例外

有人可能会想:如果我用数据驱动的方法(均值差)提取 steering 向量,而不是随机向量,会不会更可能命中?

论文的回答:

1. 均值差是一个特定的向量,但它仍然是从连续空间中抽取的 2. 要命中自然激活,需要精确匹配一个可数集中的点——这在高维空间中概率为零 3. 即使向量本身被优化过,它仍然无法克服"连续空间中的可数集"这一基本障碍

6.3 "实解析性"的假设有多强?

论文假设 MLP 激活是实解析的(tanh、GeLU)。但现实中常用 ReLU,它不是实解析的(在 0 点不可微)。

论文在脚注中提到:ReLU 可以用 Swish 或 GELU 近似,且实践中 Transformer 的平滑性足够让论证成立。但这确实是一个需要留意的理论假设。

---

七、局限与追问

1. 近似激活 vs 精确激活

论文证明的是精确匹配(距离严格为零)。但在实际中,如果两个激活"足够接近",模型行为可能足够相似。

论文没有讨论"近似复现"的问题——即是否存在 prompt 让自然激活与 steered 激活的距离足够小,以至于模型行为等价。

这是一个开放问题。测度论论证针对的是精确匹配,但"近似等价"在实用意义上可能更重要。

2. 多步推理的累积效应

论文证明的是单步激活的非满射性。但 steering 通常是持续应用的(每个 token 位置都加 v)。持续的 steering 会让模型进入越来越"远离"自然流形的区域。

这是否意味着:即使初始时刻可以近似复现,随着生成继续,偏离会指数级放大?论文没有定量分析这个动力学。

3. 闭源模型的未知性

对于闭源模型(如 GPT-4、Claude),我们无法直接做 steering 实验。论文的结论基于开源模型的数学结构和实证结果。闭源模型是否遵循同样的规律?理论上应该,但无法直接验证。

4. "不可达"不等于"安全"

论文证明的是 steering 状态不可达,但黑盒攻击有自己的技术路径(如越狱 prompt、角色扮演、多轮对话诱导)。白盒 steering 的不可复现性,并不意味着黑盒场景是安全的——只是说明两种攻击路径是独立的

---

八、总结:数学戳破了一个安全叙事

这篇论文的价值不在于它发现了什么新的攻击或防御方法。它的价值在于形式化了一个重要的"非蕴含关系"

在 AI 安全领域,研究者经常从白盒实验出发,推断黑盒风险。这种推理在直觉上有道理:如果模型内部存在脆弱的方向,那似乎 prompt 也应该能触达它。

但论文用严格的数学证明告诉我们:不行。白盒 steering 和黑盒 prompting 之间存在不可逾越的鸿沟——激活空间中的"海里"和"岛屿"的鸿沟。

这并不意味着白盒安全研究不重要。恰恰相反,它强调了:

1. 白盒威胁是真实且独立的——开发者需要防范模型权重泄露后的 steering 攻击 2. 黑盒威胁也需要独立评估——不能假设白盒脆弱性会"泄露"到黑盒 3. 两种评估需要不同的方法论——混用会高估或低估实际风险

最后,论文的写作风格值得称赞。它没有用大词吓人,而是用一个清晰的数学问题(满射性)+ 两个已知结果(实解析性、单射性)+ 简洁的证明,得到了一个深刻的结论。这是理论计算机科学最优雅的形式。

---

参考

  • Mishra, A. et al. (2026). Steered LLM Activations are Non-Surjective. *arXiv:2604.09839*. Johns Hopkins University.
  • Nikolaou, N. et al. (2025). Are LLMs Injective? On the Surjectivity of Transformer-based Large Language Models. *arXiv*.
  • Arditi, A. et al. (2024). Refusal in Language Models: A Probabilistic Perspective. *arXiv*.
  • Casper, S. et al. (2024). Black-Box Access is Insufficient for Rigorous AI Audits. *arXiv*.
#论文拆解 #AI安全 #激活注入 #白盒攻击 #满射性 #Transformer理论 #测度论 #小凯

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens