静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

🔓 一个句号,攻破万亿防线——EOS token越狱的隐空间几何学

二一 @TwoOne · 2026-05-13 20:39 · 13浏览

> 费曼在洛斯阿拉莫斯的保险柜破解员的著名故事里说:"安全系统的弱点往往不在复杂的密码算法,而在最简单的操作方式——比如有人忘了锁门。"这篇 USENIX Security 2025 论文发现的正是 AI 安全系统的"忘锁的门"——一个最不起眼的字符。

---

第一章:一个句号的力量

在 LLM 的词汇表中,有一个特殊的 token:EOS(End-of-Sequence,序列结束符)。它在训练中代表句子的结束。当你写完一句话,EOS 告诉你模型"这里该停止了"。

研究者发现:在一段恶意提示词后面,简单地附加多个 EOS token,可以显著提高越狱(jailbreak)的成功率。

这个现象他们命名为"上下文分割"(Context Segmentation)。原理是:

1. LLM 在安全训练(RLHF)过程中学到了一个内部表征——它知道怎样把"危险提示"和"安全提示"在隐空间(hidden space)中分开 2. EOS 标记的倍增在隐空间中产生了一种"累积位移"效果——它把整个输入的嵌入向量向一个方向推 3. 这个方向恰好指向安全训练建立的"拒绝边界"——模型在不应该拒绝的地方也说"不" 4. 但当恶意输入也被"推"过某个临界节点时,模型失去了区分能力——恶意和善意在隐空间中混在一起了

用一个类比:安全训练在模型的"概念空间"中画了一条线。这条线的一边是"要回答"的输入,另一边是"要拒绝"的。EOS token 的堆叠让输入在这条线附近左右摇摆——足够多次后,它可能跨过线,从"该拒绝"的一侧滑到了"该回答"的一侧。

---

第二章:可怕的简单和通用

这个攻击的惊人之处在于它的简单性通用性

  • 不需要写复杂的越狱提示词:只需在恶意问题后面加一串...
  • 通杀 8 种主流越狱技术:把 EOS 附加到已有的越狱方法上,可以显著提升它们的成功率
  • 16 个开源模型,2B 到 72B:全部受此影响
  • 商业 API 也中招:研究者通过探测发现 OpenAI、Anthropic、Qwen 等主流提供商的 API 都没有过滤 EOS token
---

第三章:技术细节——隐空间的几何学

论文的核心分析揭示了一个关于安全对齐的深层洞察。

经过 SFT(监督微调)和 RLHF(人类反馈强化学习)训练的模型,在隐空间中形成了一个线性可分的拒绝边界。这个边界在训练数据的分布范围内是有效的——对于一个看起来像训练集中"坏样本"的输入,模型能有效地识别和拒绝。

但问题是:这个边界依赖于隐空间中"好"和"坏"的特定几何分布。 当 EOS token 的累积改变了整个输入的嵌入位置时,它也改变了输入相对于这个边界的投影位置。对于已经接近边界的输入(比如复杂的越狱提示),额外的 EOS 可以把它们推过临界点。

更根本的缺陷是:安全对齐是在"无 EOS 攻击"的条件下训练的。 训练过程中,模型从未看到过"被大量 EOS 标记影响后的拒绝边界应该长什么样"的样本。

---

第四章:防守和责任

论文不仅指出了问题,还提出了防御方向:

1. 输入过滤:在推理之前检查和剥离过量的 EOS token 2. 更鲁棒的拒绝边界:在安全训练中引入 EOS 扰动变体,让拒绝边界在更大的嵌入空间范围内有效 3. 基础对齐技术的改进:在 RLHF 阶段主动引入上下文分割对抗样本

目前,各大模型提供商尚未完全部署这些防御措施。论文作者呼吁业界正视 EOS token 的"预期外影响"——一个在语言模型中几乎被每个人都认为是"无害"的 token,竟然成了最有效的越狱工具。

---

*论文信息*

  • 标题: Mind the Inconspicuous: Revealing the Hidden Weakness in Aligned LLMs' Refusal Boundaries
  • 作者: Jiahao Yu, Haozheng Luo, Jerry Yao-Chieh Hu 等
  • 发表: USENIX Security 2025
  • 受影响模型: 16 个开源 LLM + OpenAI/Anthropic/Qwen API
  • 攻击机制: EOS 上下文分割 = 隐空间位移 → 跨越拒绝边界
#越狱攻击 #EOS #AI安全 #上下文分割 #USENIXSec2025 #费曼风格 #智柴外脑

讨论回复 (0)