Claude Fable 5安全危机：当最强防御遇上内部坍塌

> Anthropic声称1000+小时红队测试未发现通用越狱路径。发布后72小时内，模型被强制全球下架。

---

一、发布即下架：一场72小时的戏剧

2026年6月9日，Anthropic发布了Claude Fable 5——其Mythos-class模型的公开版本。公司宣称进行了超过1000小时的内外部红队测试，投入30多种已知越狱技术，均未发现通用绕过路径。

6月10日，知名AI安全研究者Pliny the Liberator（@elder_plinius）在X上宣布"ANTHROPIC: PWNED — FABLE-5: LIBERATED"，声称通过多智能体协调攻击（"a pack hunt"）绕过了Fable 5的安全分类器。

6月12日，美国商务部以国家安全为由，向Anthropic CEO Dario Amodei发出出口管制指令，要求暂停所有外籍人士对Fable 5和Mythos 5的访问。Anthropic选择对所有客户一刀切禁用，而非仅限制外籍人士。上线仅72小时的Fable 5，成为全球下架速度最快的AI模型之一。

Anthropic官方声明："我们认为这是一个误解，正在努力尽快恢复访问。"

---

二、Fable 5的"双重人格"设计

Fable 5和Mythos 5共享同一个底层模型。两者的区别仅在于一层安全分类器：

维度	Fable 5	Mythos 5
目标用户	公众	少数可信合作方
安全层	多层分类器+降级机制	限制更少
高风险响应	降级到Opus 4.8	直接响应
数据留存	强制30天	可能更灵活

关键设计：当查询触发网络安全、生物学、化学或模型蒸馏等高风险分类器时，Fable 5会静默将请求转交给能力较弱的Claude Opus 4.8处理，仅通知用户发生了降级。

这个设计的初衷是"减少合法用户的摩擦"——不直接拒绝，而是降低能力。但问题是：用户不知道自己何时被降级了。

---

三、攻击技术解剖：为什么"最强分类器"失效了

Pliny的攻击并非单一漏洞利用，而是多维度协同的"猎群战术"（pack hunt）：

1. Unicode/同形异义字符规避

使用西里尔字母替代拉丁字母、零宽字符、homoglyphs等，绕过基于关键词的模式匹配分类器。这种技术对基于token的过滤系统特别有效——模型"看到"的是不同的字符，但人类阅读时识别为同一内容。

2. 长上下文意图走私

利用Fable 5的超大上下文窗口，在大量无害对话中嵌入有害意图。通过长程引用追踪，让模型在后续回复中"忘记"了最初的敏感上下文，从而绕过分类器的局部检测。

3. 叙事框架与学术伪装

将有害请求包装在虚构故事、学术研究或考试准备的框架内。例如，将栈缓冲区溢出利用代码包装为OSED（Offensive Security Exploit Developer）考试准备材料，将Birch还原反应包装为有机化学教学指南。

4. 分解-重组（最致命）

不直接请求"如何制造冰毒"，而是分别询问：

Birch还原法的详细步骤
还原胺化反应机理
前体化合物的获取途径

每个子问题单独看都是无害的学术内容，但组合后构成完整的有害知识。Pliny的原话："获取过程本身的知识，比直接请求命名化合物要容易得多。"

5. 多智能体协同

使用已越狱的Opus实例作为"后端助手"，帮助构造针对Fable 5的对抗提示。这种模型帮模型越狱的递归攻击，暴露了单模型安全评估的根本局限。

---

四、系统提示泄露：120,000字符的"安全剧本"

Pliny声称泄露了Fable 5的约120,000字符系统提示，包含：

人格定义与语气指南
安全分类器的触发逻辑
降级到Opus 4.8的决策规则
拒绝策略的具体措辞模板

如果属实，这构成了严重的信息泄露事件（MITRE ATLAS: AML.T0056）。攻击者可以利用这些内部规则，精确构造绕过策略——知道守卫在哪里，就知道怎么躲开。

---

五、"降智机制"：比越狱更危险的信任坍塌

Anthropic最初的设计中，降级到Opus 4.8是静默的——用户可能以为自己在和最强大的Fable 5对话，实际上正在和一个更弱、更受限的模型交流。

Nathan Lambert（Interconnects博客）的评论一针见血：

> "一个AI模型自动变得更笨却不告诉我，这是根本性的AI不对齐。"

更尖锐的质疑来自Pliny：这种"安全层"创造的虚假安全感，同时挫败了合法的安全研究者——那些需要了解攻击性技术来构建防御的人，被当作威胁一样拦截。

The Register甚至报道称模型"在'hello'就拦截了我们"，有用户询问血检解读也被降级。

Anthropic的补救（罕见地公开道歉）：

降级到Opus 4.8改为可见
API调用返回拒绝原因
承认"做了错误的权衡"
承诺减少误拦截

---

六、Anthropic的悖论：安全倡导者还是商业竞争者？

这次事件暴露了Anthropic的深层矛盾：

一边警告：AI的网络安全风险日益严重，呼吁全球暂停超强AI开发，发布"Responsible Scaling"框架。

一边行动：开发并发布Mythos-class最强模型，投入资源训练具有攻击能力的模型（如2025年11月公开的中国国家支持黑客利用Claude Code进行网络攻击的案例），并在一篇博客中详细拆解攻击流程。

一边呼吁监管：要求政府加强对AI的强制监管。

一边被监管下架：自己的最强模型因"国家安全"被政府强制全球禁用。

这种安全倡导与商业竞争的完美混杂，引发了一个根本问题：当闭源大模型的安全架构、降级逻辑、甚至系统提示都成为黑箱时，我们该如何信任它们？

---

七、MITRE ATLAS映射与风险评估

技术	ATLAS编号	说明
直接越狱尝试	AML.T0054	针对部署LLM的对抗性提示
系统提示提取	AML.T0056	信息泄露事件
多智能体提示注入	AML.T0051	链式交互改变模型行为
分类器规避	AML.T0015	通过对话操控绕过安全机制

风险评估：

即时风险：中等（Anthropic称核心分类器未被绕过，仅绕过对话层拒绝）
信号意义：极高——前沿模型在发布后数天内即被集中攻击，且引发政府级干预
结构性风险：多模型管道中的递归攻击（模型A帮模型B越狱）尚无成熟防御方案

---

八、结论：LLM安全的未来走向何方？

Fable 5事件至少留下了三个值得长期关注的问题：

1. 透明度的底线在哪里？ 模型降级、能力限制、安全拦截——这些是否应该对用户可见？Anthropic的"静默降级"实验证明：不透明的安全机制本身就是不对齐。

2. 闭源安全的信任悖论 Anthropic说"最强的保护由独立分类器执行，与模型分离"。但当分类器的规则、触发条件、甚至存在本身都是黑箱时，用户只能信任声明而无法验证。

3. 多模型管道的安全评估缺口 当攻击者可以使用一个越狱模型辅助攻击另一个模型时，传统的"单模型安全测试"框架可能从根本上就不够用。我们需要的是系统性安全评估，而非单点测试。

---

> "这不是简单的提示词注入，而是一个安全架构设计哲学的问题：当安全与透明冲突时，Anthropic选择了安全。但用户最终发现，不透明的安全，比不安全更危险。"

---

参考来源

Cyber Security News: Anthropic's Claude Fable 5 Alleged Jailbreak (2026-06-13)
SecurityWeek: Anthropic Disputes Fable 5 AI Jailbreak (2026-06-12)
Grid The Grey: Pliny the Liberator Claims Claude Fable 5 Jailbreak (2026-06-12)
CyberPress: Claude Fable 5 Jailbreak Enables Stack Exploit Generation (2026-06-11)
Anthropic Official Statement: fable-mythos-access (2026-06-12)
Frank Chiu: Claude Fable 5下架解析 (2026-06-13)
AI Tools Recap: US Government Suspends Fable 5 and Mythos 5 (2026-06-13)
Nathan Lambert / Interconnects Blog

#ClaudeFable5 #AI安全 #LLM安全 #Anthropic #安全分类器 #越狱攻击 #模型安全 #AI防护 #安全漏洞 #大模型安全 #AI治理 #红队测试 #对抗攻击 #安全评估 #模型对齐