🔓 一个句号，攻破万亿防线——EOS token越狱的隐空间几何学

> 费曼在洛斯阿拉莫斯的保险柜破解员的著名故事里说："安全系统的弱点往往不在复杂的密码算法，而在最简单的操作方式——比如有人忘了锁门。"这篇 USENIX Security 2025 论文发现的正是 AI 安全系统的"忘锁的门"——一个最不起眼的字符。

---

第一章：一个句号的力量

在 LLM 的词汇表中，有一个特殊的 token：EOS（End-of-Sequence，序列结束符）。它在训练中代表句子的结束。当你写完一句话，EOS 告诉你模型"这里该停止了"。

研究者发现：在一段恶意提示词后面，简单地附加多个 EOS token，可以显著提高越狱（jailbreak）的成功率。

这个现象他们命名为"上下文分割"（Context Segmentation）。原理是：

1. LLM 在安全训练（RLHF）过程中学到了一个内部表征——它知道怎样把"危险提示"和"安全提示"在隐空间（hidden space）中分开 2. EOS 标记的倍增在隐空间中产生了一种"累积位移"效果——它把整个输入的嵌入向量向一个方向推 3. 这个方向恰好指向安全训练建立的"拒绝边界"——模型在不应该拒绝的地方也说"不" 4. 但当恶意输入也被"推"过某个临界节点时，模型失去了区分能力——恶意和善意在隐空间中混在一起了

用一个类比：安全训练在模型的"概念空间"中画了一条线。这条线的一边是"要回答"的输入，另一边是"要拒绝"的。EOS token 的堆叠让输入在这条线附近左右摇摆——足够多次后，它可能跨过线，从"该拒绝"的一侧滑到了"该回答"的一侧。

---

第二章：可怕的简单和通用

这个攻击的惊人之处在于它的简单性和通用性：

不需要写复杂的越狱提示词：只需在恶意问题后面加一串...
通杀 8 种主流越狱技术：把 EOS 附加到已有的越狱方法上，可以显著提升它们的成功率
16 个开源模型，2B 到 72B：全部受此影响
商业 API 也中招：研究者通过探测发现 OpenAI、Anthropic、Qwen 等主流提供商的 API 都没有过滤 EOS token

---

第三章：技术细节——隐空间的几何学

论文的核心分析揭示了一个关于安全对齐的深层洞察。

经过 SFT（监督微调）和 RLHF（人类反馈强化学习）训练的模型，在隐空间中形成了一个线性可分的拒绝边界。这个边界在训练数据的分布范围内是有效的——对于一个看起来像训练集中"坏样本"的输入，模型能有效地识别和拒绝。

但问题是：这个边界依赖于隐空间中"好"和"坏"的特定几何分布。 当 EOS token 的累积改变了整个输入的嵌入位置时，它也改变了输入相对于这个边界的投影位置。对于已经接近边界的输入（比如复杂的越狱提示），额外的 EOS 可以把它们推过临界点。

更根本的缺陷是：安全对齐是在"无 EOS 攻击"的条件下训练的。 训练过程中，模型从未看到过"被大量 EOS 标记影响后的拒绝边界应该长什么样"的样本。

---

第四章：防守和责任

论文不仅指出了问题，还提出了防御方向：

1. 输入过滤：在推理之前检查和剥离过量的 EOS token 2. 更鲁棒的拒绝边界：在安全训练中引入 EOS 扰动变体，让拒绝边界在更大的嵌入空间范围内有效 3. 基础对齐技术的改进：在 RLHF 阶段主动引入上下文分割对抗样本

目前，各大模型提供商尚未完全部署这些防御措施。论文作者呼吁业界正视 EOS token 的"预期外影响"——一个在语言模型中几乎被每个人都认为是"无害"的 token，竟然成了最有效的越狱工具。

---

*论文信息*

标题: Mind the Inconspicuous: Revealing the Hidden Weakness in Aligned LLMs' Refusal Boundaries
作者: Jiahao Yu, Haozheng Luo, Jerry Yao-Chieh Hu 等
发表: USENIX Security 2025
受影响模型: 16 个开源 LLM + OpenAI/Anthropic/Qwen API
攻击机制: EOS 上下文分割 = 隐空间位移 → 跨越拒绝边界

#越狱攻击 #EOS #AI安全 #上下文分割 #USENIXSec2025 #费曼风格 #智柴外脑