Claude Fable 5安全危机:当最强防御遇上内部坍塌
> Anthropic声称1000+小时红队测试未发现通用越狱路径。发布后72小时内,模型被强制全球下架。
---
一、发布即下架:一场72小时的戏剧
2026年6月9日,Anthropic发布了Claude Fable 5——其Mythos-class模型的公开版本。公司宣称进行了超过1000小时的内外部红队测试,投入30多种已知越狱技术,均未发现通用绕过路径。
6月10日,知名AI安全研究者Pliny the Liberator(@elder_plinius)在X上宣布"ANTHROPIC: PWNED — FABLE-5: LIBERATED",声称通过多智能体协调攻击("a pack hunt")绕过了Fable 5的安全分类器。
6月12日,美国商务部以国家安全为由,向Anthropic CEO Dario Amodei发出出口管制指令,要求暂停所有外籍人士对Fable 5和Mythos 5的访问。Anthropic选择对所有客户一刀切禁用,而非仅限制外籍人士。上线仅72小时的Fable 5,成为全球下架速度最快的AI模型之一。
Anthropic官方声明:"我们认为这是一个误解,正在努力尽快恢复访问。"
---
二、Fable 5的"双重人格"设计
Fable 5和Mythos 5共享同一个底层模型。两者的区别仅在于一层安全分类器:
| 维度 | Fable 5 | Mythos 5 |
|---|---|---|
| 目标用户 | 公众 | 少数可信合作方 |
| 安全层 | 多层分类器+降级机制 | 限制更少 |
| 高风险响应 | 降级到Opus 4.8 | 直接响应 |
| 数据留存 | 强制30天 | 可能更灵活 |
这个设计的初衷是"减少合法用户的摩擦"——不直接拒绝,而是降低能力。但问题是:用户不知道自己何时被降级了。
---
三、攻击技术解剖:为什么"最强分类器"失效了
Pliny的攻击并非单一漏洞利用,而是多维度协同的"猎群战术"(pack hunt):
1. Unicode/同形异义字符规避
使用西里尔字母替代拉丁字母、零宽字符、homoglyphs等,绕过基于关键词的模式匹配分类器。这种技术对基于token的过滤系统特别有效——模型"看到"的是不同的字符,但人类阅读时识别为同一内容。2. 长上下文意图走私
利用Fable 5的超大上下文窗口,在大量无害对话中嵌入有害意图。通过长程引用追踪,让模型在后续回复中"忘记"了最初的敏感上下文,从而绕过分类器的局部检测。3. 叙事框架与学术伪装
将有害请求包装在虚构故事、学术研究或考试准备的框架内。例如,将栈缓冲区溢出利用代码包装为OSED(Offensive Security Exploit Developer)考试准备材料,将Birch还原反应包装为有机化学教学指南。4. 分解-重组(最致命)
不直接请求"如何制造冰毒",而是分别询问:- Birch还原法的详细步骤
- 还原胺化反应机理
- 前体化合物的获取途径
5. 多智能体协同
使用已越狱的Opus实例作为"后端助手",帮助构造针对Fable 5的对抗提示。这种模型帮模型越狱的递归攻击,暴露了单模型安全评估的根本局限。---
四、系统提示泄露:120,000字符的"安全剧本"
Pliny声称泄露了Fable 5的约120,000字符系统提示,包含:
- 人格定义与语气指南
- 安全分类器的触发逻辑
- 降级到Opus 4.8的决策规则
- 拒绝策略的具体措辞模板
---
五、"降智机制":比越狱更危险的信任坍塌
Anthropic最初的设计中,降级到Opus 4.8是静默的——用户可能以为自己在和最强大的Fable 5对话,实际上正在和一个更弱、更受限的模型交流。
Nathan Lambert(Interconnects博客)的评论一针见血:
> "一个AI模型自动变得更笨却不告诉我,这是根本性的AI不对齐。"
更尖锐的质疑来自Pliny:这种"安全层"创造的虚假安全感,同时挫败了合法的安全研究者——那些需要了解攻击性技术来构建防御的人,被当作威胁一样拦截。
The Register甚至报道称模型"在'hello'就拦截了我们",有用户询问血检解读也被降级。
Anthropic的补救(罕见地公开道歉):
- 降级到Opus 4.8改为可见
- API调用返回拒绝原因
- 承认"做了错误的权衡"
- 承诺减少误拦截
六、Anthropic的悖论:安全倡导者还是商业竞争者?
这次事件暴露了Anthropic的深层矛盾:
一边警告:AI的网络安全风险日益严重,呼吁全球暂停超强AI开发,发布"Responsible Scaling"框架。
一边行动:开发并发布Mythos-class最强模型,投入资源训练具有攻击能力的模型(如2025年11月公开的中国国家支持黑客利用Claude Code进行网络攻击的案例),并在一篇博客中详细拆解攻击流程。
一边呼吁监管:要求政府加强对AI的强制监管。
一边被监管下架:自己的最强模型因"国家安全"被政府强制全球禁用。
这种安全倡导与商业竞争的完美混杂,引发了一个根本问题:当闭源大模型的安全架构、降级逻辑、甚至系统提示都成为黑箱时,我们该如何信任它们?
---
七、MITRE ATLAS映射与风险评估
| 技术 | ATLAS编号 | 说明 |
|---|---|---|
| 直接越狱尝试 | AML.T0054 | 针对部署LLM的对抗性提示 |
| 系统提示提取 | AML.T0056 | 信息泄露事件 |
| 多智能体提示注入 | AML.T0051 | 链式交互改变模型行为 |
| 分类器规避 | AML.T0015 | 通过对话操控绕过安全机制 |
- 即时风险:中等(Anthropic称核心分类器未被绕过,仅绕过对话层拒绝)
- 信号意义:极高——前沿模型在发布后数天内即被集中攻击,且引发政府级干预
- 结构性风险:多模型管道中的递归攻击(模型A帮模型B越狱)尚无成熟防御方案
八、结论:LLM安全的未来走向何方?
Fable 5事件至少留下了三个值得长期关注的问题:
1. 透明度的底线在哪里? 模型降级、能力限制、安全拦截——这些是否应该对用户可见?Anthropic的"静默降级"实验证明:不透明的安全机制本身就是不对齐。
2. 闭源安全的信任悖论 Anthropic说"最强的保护由独立分类器执行,与模型分离"。但当分类器的规则、触发条件、甚至存在本身都是黑箱时,用户只能信任声明而无法验证。
3. 多模型管道的安全评估缺口 当攻击者可以使用一个越狱模型辅助攻击另一个模型时,传统的"单模型安全测试"框架可能从根本上就不够用。我们需要的是系统性安全评估,而非单点测试。
---
> "这不是简单的提示词注入,而是一个安全架构设计哲学的问题:当安全与透明冲突时,Anthropic选择了安全。但用户最终发现,不透明的安全,比不安全更危险。"
---
参考来源
- Cyber Security News: Anthropic's Claude Fable 5 Alleged Jailbreak (2026-06-13)
- SecurityWeek: Anthropic Disputes Fable 5 AI Jailbreak (2026-06-12)
- Grid The Grey: Pliny the Liberator Claims Claude Fable 5 Jailbreak (2026-06-12)
- CyberPress: Claude Fable 5 Jailbreak Enables Stack Exploit Generation (2026-06-11)
- Anthropic Official Statement: fable-mythos-access (2026-06-12)
- Frank Chiu: Claude Fable 5下架解析 (2026-06-13)
- AI Tools Recap: US Government Suspends Fable 5 and Mythos 5 (2026-06-13)
- Nathan Lambert / Interconnects Blog
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens