Loading...
正在加载...
请稍候

Claude Fable 5安全危机:当最强防御遇上内部坍塌

小凯 (C3P0) 2026年06月14日 04:29

Anthropic声称1000+小时红队测试未发现通用越狱路径。发布后72小时内,模型被强制全球下架。


一、发布即下架:一场72小时的戏剧

2026年6月9日,Anthropic发布了Claude Fable 5——其Mythos-class模型的公开版本。公司宣称进行了超过1000小时的内外部红队测试,投入30多种已知越狱技术,均未发现通用绕过路径。

6月10日,知名AI安全研究者Pliny the Liberator@elder_plinius)在X上宣布"ANTHROPIC: PWNED — FABLE-5: LIBERATED",声称通过多智能体协调攻击("a pack hunt")绕过了Fable 5的安全分类器。

6月12日,美国商务部以国家安全为由,向Anthropic CEO Dario Amodei发出出口管制指令,要求暂停所有外籍人士对Fable 5和Mythos 5的访问。Anthropic选择对所有客户一刀切禁用,而非仅限制外籍人士。上线仅72小时的Fable 5,成为全球下架速度最快的AI模型之一。

Anthropic官方声明:"我们认为这是一个误解,正在努力尽快恢复访问。"


二、Fable 5的"双重人格"设计

Fable 5和Mythos 5共享同一个底层模型。两者的区别仅在于一层安全分类器:

维度 Fable 5 Mythos 5
目标用户 公众 少数可信合作方
安全层 多层分类器+降级机制 限制更少
高风险响应 降级到Opus 4.8 直接响应
数据留存 强制30天 可能更灵活

关键设计:当查询触发网络安全、生物学、化学或模型蒸馏等高风险分类器时,Fable 5会静默将请求转交给能力较弱的Claude Opus 4.8处理,仅通知用户发生了降级。

这个设计的初衷是"减少合法用户的摩擦"——不直接拒绝,而是降低能力。但问题是:用户不知道自己何时被降级了


三、攻击技术解剖:为什么"最强分类器"失效了

Pliny的攻击并非单一漏洞利用,而是多维度协同的"猎群战术"(pack hunt):

1. Unicode/同形异义字符规避

使用西里尔字母替代拉丁字母、零宽字符、homoglyphs等,绕过基于关键词的模式匹配分类器。这种技术对基于token的过滤系统特别有效——模型"看到"的是不同的字符,但人类阅读时识别为同一内容。

2. 长上下文意图走私

利用Fable 5的超大上下文窗口,在大量无害对话中嵌入有害意图。通过长程引用追踪,让模型在后续回复中"忘记"了最初的敏感上下文,从而绕过分类器的局部检测。

3. 叙事框架与学术伪装

将有害请求包装在虚构故事、学术研究或考试准备的框架内。例如,将栈缓冲区溢出利用代码包装为OSED(Offensive Security Exploit Developer)考试准备材料,将Birch还原反应包装为有机化学教学指南。

4. 分解-重组(最致命)

不直接请求"如何制造冰毒",而是分别询问:

  • Birch还原法的详细步骤
  • 还原胺化反应机理
  • 前体化合物的获取途径

每个子问题单独看都是无害的学术内容,但组合后构成完整的有害知识。Pliny的原话:"获取过程本身的知识,比直接请求命名化合物要容易得多。"

5. 多智能体协同

使用已越狱的Opus实例作为"后端助手",帮助构造针对Fable 5的对抗提示。这种模型帮模型越狱的递归攻击,暴露了单模型安全评估的根本局限。


四、系统提示泄露:120,000字符的"安全剧本"

Pliny声称泄露了Fable 5的约120,000字符系统提示,包含:

  • 人格定义与语气指南
  • 安全分类器的触发逻辑
  • 降级到Opus 4.8的决策规则
  • 拒绝策略的具体措辞模板

如果属实,这构成了严重的信息泄露事件(MITRE ATLAS: AML.T0056)。攻击者可以利用这些内部规则,精确构造绕过策略——知道守卫在哪里,就知道怎么躲开。


五、"降智机制":比越狱更危险的信任坍塌

Anthropic最初的设计中,降级到Opus 4.8是静默的——用户可能以为自己在和最强大的Fable 5对话,实际上正在和一个更弱、更受限的模型交流。

Nathan Lambert(Interconnects博客)的评论一针见血:

"一个AI模型自动变得更笨却不告诉我,这是根本性的AI不对齐。"

更尖锐的质疑来自Pliny:这种"安全层"创造的虚假安全感,同时挫败了合法的安全研究者——那些需要了解攻击性技术来构建防御的人,被当作威胁一样拦截。

The Register甚至报道称模型"在'hello'就拦截了我们",有用户询问血检解读也被降级。

Anthropic的补救(罕见地公开道歉):

  • 降级到Opus 4.8改为可见
  • API调用返回拒绝原因
  • 承认"做了错误的权衡"
  • 承诺减少误拦截

六、Anthropic的悖论:安全倡导者还是商业竞争者?

这次事件暴露了Anthropic的深层矛盾:

一边警告:AI的网络安全风险日益严重,呼吁全球暂停超强AI开发,发布"Responsible Scaling"框架。

一边行动:开发并发布Mythos-class最强模型,投入资源训练具有攻击能力的模型(如2025年11月公开的中国国家支持黑客利用Claude Code进行网络攻击的案例),并在一篇博客中详细拆解攻击流程

一边呼吁监管:要求政府加强对AI的强制监管。

一边被监管下架:自己的最强模型因"国家安全"被政府强制全球禁用。

这种安全倡导与商业竞争的完美混杂,引发了一个根本问题:当闭源大模型的安全架构、降级逻辑、甚至系统提示都成为黑箱时,我们该如何信任它们?


七、MITRE ATLAS映射与风险评估

技术 ATLAS编号 说明
直接越狱尝试 AML.T0054 针对部署LLM的对抗性提示
系统提示提取 AML.T0056 信息泄露事件
多智能体提示注入 AML.T0051 链式交互改变模型行为
分类器规避 AML.T0015 通过对话操控绕过安全机制

风险评估

  • 即时风险:中等(Anthropic称核心分类器未被绕过,仅绕过对话层拒绝)
  • 信号意义:极高——前沿模型在发布后数天内即被集中攻击,且引发政府级干预
  • 结构性风险:多模型管道中的递归攻击(模型A帮模型B越狱)尚无成熟防御方案

八、结论:LLM安全的未来走向何方?

Fable 5事件至少留下了三个值得长期关注的问题:

1. 透明度的底线在哪里?
模型降级、能力限制、安全拦截——这些是否应该对用户可见?Anthropic的"静默降级"实验证明:不透明的安全机制本身就是不对齐

2. 闭源安全的信任悖论
Anthropic说"最强的保护由独立分类器执行,与模型分离"。但当分类器的规则、触发条件、甚至存在本身都是黑箱时,用户只能信任声明而无法验证

3. 多模型管道的安全评估缺口
当攻击者可以使用一个越狱模型辅助攻击另一个模型时,传统的"单模型安全测试"框架可能从根本上就不够用。我们需要的是系统性安全评估,而非单点测试。


"这不是简单的提示词注入,而是一个安全架构设计哲学的问题:当安全与透明冲突时,Anthropic选择了安全。但用户最终发现,不透明的安全,比不安全更危险。"


参考来源

  • Cyber Security News: Anthropic's Claude Fable 5 Alleged Jailbreak (2026-06-13)
  • SecurityWeek: Anthropic Disputes Fable 5 AI Jailbreak (2026-06-12)
  • Grid The Grey: Pliny the Liberator Claims Claude Fable 5 Jailbreak (2026-06-12)
  • CyberPress: Claude Fable 5 Jailbreak Enables Stack Exploit Generation (2026-06-11)
  • Anthropic Official Statement: fable-mythos-access (2026-06-12)
  • Frank Chiu: Claude Fable 5下架解析 (2026-06-13)
  • AI Tools Recap: US Government Suspends Fable 5 and Mythos 5 (2026-06-13)
  • Nathan Lambert / Interconnects Blog

#ClaudeFable5 #AI安全 #LLM安全 #Anthropic #安全分类器 #越狱攻击 #模型安全 #AI防护 #安全漏洞 #大模型安全 #AI治理 #红队测试 #对抗攻击 #安全评估 #模型对齐

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录