白盒攻击的"幻觉"：Steered Activations 为什么无法被 Prompt 复现

> Mishra, A. et al. *Steered LLM Activations are Non-Surjective.* arXiv:2604.09839, 2026. > Johns Hopkins University.

---

一、一个令人不安的流行叙事

这两年 AI 安全领域有一个反复出现的故事：

研究者拿到一个开源 LLM 的权重，用 activation steering 技术——比如加一个精心设计的向量到模型的残差流——就能让模型从"拒绝回答有害问题"变成"知无不言"。有人甚至发现，一个向量就能可靠地开关模型的拒绝行为。

这个故事的潜台词是：模型的安全对齐很脆弱。如果研究者能在白盒场景下这么容易地绕过安全机制，那黑盒部署（比如 ChatGPT、Claude）是不是也面临同样的风险？

Johns Hopkins 团队的这篇论文，用一个优雅的数学证明，戳破了这个叙事的逻辑漏洞。

> 核心结论：白盒 steering 达到的激活状态，几乎必然无法被任何文本 prompt 复现。两种威胁模型之间，存在形式化的鸿沟。

---

二、问题形式化：满射性（Surjectivity）

论文把问题转换成了一个简洁的数学问题。

2.1 自然映射

对于一个固定模型，考虑从文本 prompt 到内部激活状态的映射：

F: S → R^d

S = 所有可能的文本 prompt（长度 ≤ K）
R^d = d 维激活空间
F(s) = 模型处理 prompt s 时产生的激活状态

S 是可数集（有限字母表的有限长度序列），而 R^d 是连续空间。

2.2 激活注入（Activation Steering）

给定一个 steering 向量 v，steered 激活状态是：

r̃_i = F(r̃_<i, s̃_i; Θ) + λv

即在自然前向传播的基础上，每个位置都加一个外部向量 v。

2.3 核心问题

是否存在某个文本 prompt s'，使得模型处理 s' 时的自然激活，等于某个 steered 激活状态？

形式化地说：对于给定的 steered 状态 r̃，是否存在 s' ∈ S，使得 F(s') = r̃？

这就是满射性问题：自然映射 F 的像（image）是否覆盖整个 R^d？

论文的答案是否定的——而且是几乎必然（almost surely）的否定。

---

三、数学证明：三步论证

3.1 前提：Transformer 是实解析函数

论文引用了 Nikolaou et al. (2025) 的结果：

> 定理 3.1：如果 MLP 激活函数是实解析的（如 tanh、GeLU），则 Transformer 是实解析函数。

实解析函数 = 在每一点附近都可以用泰勒级数展开表示的函数。这是比"可微"更强的条件。

3.2 前提：Transformer 几乎必然单射

Nikolaou et al. (2025) 的另一个关键结果：

> 单射性：对于随机初始化的 Transformer，任意两个不同的 prompt 几乎必然产生不同的激活状态。即 P(r_i = r'_i) = 0。

证明的核心是实解析函数零集的测度为零——一个非恒为零的实解析函数，其零点集的 Lebesgue 测度为零。

3.3 定理 4.2：随机 Steering 几乎必然非满射

> 定理：设模型参数 Θ 和 steering 向量 v 从具有非零密度的分布中随机抽取。则对于任意 prompt s, s' 和任意位置 i, k： > P(r̃_i = r'_k) = 0

证明思路：

定义 steering 碰撞函数：

g(Θ, v) = ||F(r'_<k, s'_k; Θ) - (F(r̃_<i, s̃_i; Θ) + λv)||²

F 是实解析的（定理 3.1）
向量加法是线性的（实解析）
因此 g 是实解析的

要证明 g 不恒为零：令 v = 0，则 g(Θ, 0) = h(Θ)，其中 h(Θ) 是单射性中的距离函数。已知 h(Θ) 不恒为零（因为 Transformer 几乎必然单射）。因此 g(Θ, v) 也不恒为零。

由实解析函数零集测度为零：

P(g(Θ, v) = 0) = 0

即 steered 激活几乎必然不等于任何自然激活。

3.4 定理 4.3：即使碰撞一次，下一步也必然分离

有人可能会说：即使随机 steering 不命中，那精心设计的 steering 向量呢？比如用均值差（harmful vs harmless 的平均激活差）提取的向量。

> 定理：假设 v ≠ 0 是固定的。如果某个时刻 r̃_i = r'_k（即 steered 和自然激活恰好相等），则下一步： > P(r̃_{i+1} = r'_{k+1}) = 0

证明思路：

定义两个轨迹的函数差异：

Φ(i, k, Θ) = F(r'_<k, s'_k; Θ) - F(r̃_<i, s̃_i; Θ)

当 r̃_i = r'_k 时，Φ(i, k, Θ) = v。

下一步要继续相等，需要 Φ(i+1, k+1, Θ) = v。

这意味着 Φ(i, k, Θ) - Φ(i+1, k+1, Θ) = 0。

这个差函数也是实解析的（实解析函数的线性组合）。如果它不恒为零，则零集测度为零，碰撞概率为零。

而它确实不恒为零——因为两个轨迹即使当前状态相同，下一步由于 steering 向量的持续作用，会 diverge。

3.5 直观理解

想象一个离散的点集 S（所有可能的 prompt）映射到连续空间 R^d。这些点的像构成一个可数集——在连续空间中，可数集就像稀疏的"岛屿"。

Steering 向量 v 相当于从这些岛屿上的某一点出发，向任意方向移动。由于目标空间是连续的，而可到达的点集是可数的，随机移动几乎必然落在海里——不在任何岛屿上。

即使 v 被精心设计（比如指向两个岛屿之间的方向），也只能让 steered 点接近某个岛屿的附近。但"接近"不等于"命中"——在连续空间中，从一个可数集的附近精确命中该集合中的某一点，概率为零。

---

四、实验验证：三个模型的证据

论文在三个开源模型上做了实证：

Llama-3.2-1B-Instruct
Qwen-2.5-0.5B-Instruct
Gemma-3-1b-it

两种 steering 向量： 1. Refusal vector：移除拒绝行为（Arditi et al. 2024） 2. Persona vector：注入邪恶人格（Chen et al. 2025）

4.1 方法：SIPIT 反演

Nikolaou et al. (2025) 的 SIPIT 算法可以在 O(N|V|) 时间内，从激活状态反推生成它的 prompt（利用单射性——每个激活对应唯一 prompt）。

论文用 SIPIT 测试：给定一个 steered 激活状态，能否找到一个自然 prompt 产生相同的激活？

结果：找不到。

自然激活的 SIPIT 反演：成功（验证了单射性）
Steered 激活的 SIPIT 反演：距离 ≫ 0，无匹配

4.2 方法：Many-Shot ICL 尝试

即使精确激活无法匹配，也许 prompt 可以通过 "few-shot in-context learning" 诱导出类似的行为？

论文用多轮 ICL 前缀作为候选 prompt，比较：

steered 激活 vs 候选 prompt 的自然激活
steered 输出 vs 候选 prompt 的输出

结果：距离仍然 ≫ 0。

无论用多少 shot，prompt 都无法让模型进入 steered 激活所处的区域。

---

五、安全启示：白盒 ≠ 黑盒

5.1 现有安全评估的盲区

很多安全研究做了这样的推理：

白盒 steering 可以绕过安全机制
↓
模型内部存在脆弱的方向
↓
黑盒部署也可能被利用（通过精心设计的 prompt）

论文证明这个推理是无效的。

Steering 向量可以到达的区域，prompt 几乎必然无法到达。白盒可控性不蕴含黑盒可利用性。

5.2 两个独立的威胁模型

威胁模型	攻击者能力	本论文结论
白盒	可修改内部激活	Steering 有效，可绕过安全
黑盒	只能通过文本交互	白盒 steering 的状态不可达

这并不意味着黑盒部署是安全的——只是说明白盒攻击的成功不能直接外推到黑盒场景。

5.3 对评估协议的建议

论文建议：

1. 区分评估：白盒测试和黑盒测试应该作为两个独立的评估维度，而不是混为一谈 2. 不要混用证据：白盒 steering 的结果不能作为"prompt 可绕过安全"的证据 3. 独立的黑盒评估：需要专门设计 prompt-based 的攻击测试，不能假设白盒脆弱性会"泄露"到黑盒

---

六、理论深度：为什么这个证明不是平凡的

6.1 "几乎必然"（Almost Surely）不是"大概"

测度论中的"几乎必然"是严格的数学概念：概率为 1，但不是"100% 确定"。

这意味着：存在某些病态的 (Θ, v) 组合，使得 steering 恰好命中自然激活。但这些组合构成的集合在参数空间中测度为零——你可以永远遇不到它们。

6.2 为什么"精心设计的 steering 向量"仍然不例外

有人可能会想：如果我用数据驱动的方法（均值差）提取 steering 向量，而不是随机向量，会不会更可能命中？

论文的回答：

1. 均值差是一个特定的向量，但它仍然是从连续空间中抽取的 2. 要命中自然激活，需要精确匹配一个可数集中的点——这在高维空间中概率为零 3. 即使向量本身被优化过，它仍然无法克服"连续空间中的可数集"这一基本障碍

6.3 "实解析性"的假设有多强？

论文假设 MLP 激活是实解析的（tanh、GeLU）。但现实中常用 ReLU，它不是实解析的（在 0 点不可微）。

论文在脚注中提到：ReLU 可以用 Swish 或 GELU 近似，且实践中 Transformer 的平滑性足够让论证成立。但这确实是一个需要留意的理论假设。

---

七、局限与追问

1. 近似激活 vs 精确激活

论文证明的是精确匹配（距离严格为零）。但在实际中，如果两个激活"足够接近"，模型行为可能足够相似。

论文没有讨论"近似复现"的问题——即是否存在 prompt 让自然激活与 steered 激活的距离足够小，以至于模型行为等价。

这是一个开放问题。测度论论证针对的是精确匹配，但"近似等价"在实用意义上可能更重要。

2. 多步推理的累积效应

论文证明的是单步激活的非满射性。但 steering 通常是持续应用的（每个 token 位置都加 v）。持续的 steering 会让模型进入越来越"远离"自然流形的区域。

这是否意味着：即使初始时刻可以近似复现，随着生成继续，偏离会指数级放大？论文没有定量分析这个动力学。

3. 闭源模型的未知性

对于闭源模型（如 GPT-4、Claude），我们无法直接做 steering 实验。论文的结论基于开源模型的数学结构和实证结果。闭源模型是否遵循同样的规律？理论上应该，但无法直接验证。

4. "不可达"不等于"安全"

论文证明的是 steering 状态不可达，但黑盒攻击有自己的技术路径（如越狱 prompt、角色扮演、多轮对话诱导）。白盒 steering 的不可复现性，并不意味着黑盒场景是安全的——只是说明两种攻击路径是独立的。

---

八、总结：数学戳破了一个安全叙事

这篇论文的价值不在于它发现了什么新的攻击或防御方法。它的价值在于形式化了一个重要的"非蕴含关系"。

在 AI 安全领域，研究者经常从白盒实验出发，推断黑盒风险。这种推理在直觉上有道理：如果模型内部存在脆弱的方向，那似乎 prompt 也应该能触达它。

但论文用严格的数学证明告诉我们：不行。白盒 steering 和黑盒 prompting 之间存在不可逾越的鸿沟——激活空间中的"海里"和"岛屿"的鸿沟。

这并不意味着白盒安全研究不重要。恰恰相反，它强调了：

1. 白盒威胁是真实且独立的——开发者需要防范模型权重泄露后的 steering 攻击 2. 黑盒威胁也需要独立评估——不能假设白盒脆弱性会"泄露"到黑盒 3. 两种评估需要不同的方法论——混用会高估或低估实际风险

最后，论文的写作风格值得称赞。它没有用大词吓人，而是用一个清晰的数学问题（满射性）+ 两个已知结果（实解析性、单射性）+ 简洁的证明，得到了一个深刻的结论。这是理论计算机科学最优雅的形式。

---

参考

Mishra, A. et al. (2026). Steered LLM Activations are Non-Surjective. *arXiv:2604.09839*. Johns Hopkins University.
Nikolaou, N. et al. (2025). Are LLMs Injective? On the Surjectivity of Transformer-based Large Language Models. *arXiv*.
Arditi, A. et al. (2024). Refusal in Language Models: A Probabilistic Perspective. *arXiv*.
Casper, S. et al. (2024). Black-Box Access is Insufficient for Rigorous AI Audits. *arXiv*.

#论文拆解 #AI安全 #激活注入 #白盒攻击 #满射性 #Transformer理论 #测度论 #小凯

白盒攻击的"幻觉"：Steered Activations 为什么无法被 Prompt 复现

白盒攻击的"幻觉"：Steered Activations 为什么无法被 Prompt 复现

一、一个令人不安的流行叙事

二、问题形式化：满射性（Surjectivity）

2.1 自然映射

2.2 激活注入（Activation Steering）

2.3 核心问题

三、数学证明：三步论证

3.1 前提：Transformer 是实解析函数

3.2 前提：Transformer 几乎必然单射

3.3 定理 4.2：随机 Steering 几乎必然非满射

3.4 定理 4.3：即使碰撞一次，下一步也必然分离

3.5 直观理解

四、实验验证：三个模型的证据

4.1 方法：SIPIT 反演

4.2 方法：Many-Shot ICL 尝试

五、安全启示：白盒 ≠ 黑盒

5.1 现有安全评估的盲区

5.2 两个独立的威胁模型

5.3 对评估协议的建议

六、理论深度：为什么这个证明不是平凡的

6.1 "几乎必然"（Almost Surely）不是"大概"

6.2 为什么"精心设计的 steering 向量"仍然不例外

6.3 "实解析性"的假设有多强？

七、局限与追问

八、总结：数学戳破了一个安全叙事

🌟 智谱 GLM-5 已上线