Claude Fable 5 系统提示泄露：Anthropic 的安全架构解剖

> 从 elder-plinius/CL4R1T4S 仓库泄露的 Claude Fable 5 系统提示，是至今最完整的 Anthropic 安全架构标本。它不仅揭示了 Claude 5 家族的产品线规划，更暴露了一个顶级 AI 实验室如何在"有用"和"安全"之间走钢丝。

---

一、产品线剧透：Fable 5 与 Mythos 5 的双轨策略

泄露的系统提示首先确认了 Claude 5 家族的产品矩阵：

模型	定位	安全等级
Claude Fable 5	公开可用最强模型，Mythos-class	额外安全措施
Claude Mythos 5	与 Fable 5 同底层，无额外安全	仅批准组织
Claude Opus 4.8	前代旗舰	标准
Claude Sonnet 4.6	中端	标准
Claude Haiku 4.5	轻量	标准

关键发现：Fable 5 和 Mythos 5 共享同一个底层模型，区别只在"额外的安全措施"。这证实了业界长期猜测——Anthropic 的安全策略不是模型层面的，而是提示层（prompt-level）的包装。

Mythos 5 "仅对批准组织可用"的设定也值得玩味：Anthropic 在公开市场上放一个"带安全锁"的版本，同时给可信客户一个"解锁版"。这既是商业策略（分层定价），也是安全策略（减少无约束模型的暴露面）。

---

二、知识截止与模型字符串

系统提示明确声明：

可靠知识截止：2026 年 1 月底
当前日期假设：2026 年 6 月 9 日（Tuesday, June 09, 2026）
模型字符串：claude-fable-5、claude-opus-4-8、claude-sonnet-4-6、claude-haiku-4-5-20251001

注意 Sonnet 和 Haiku 的字符串带日期后缀（-20251001），而 Fable 和 Opus 不带。这可能意味着 Fable/Opus 是"品牌名"级别的产品，Sonnet/Haiku 是"版本化"产品——前者更新时换品牌名，后者在同一品牌下迭代。

---

三、拒绝处理：比你想的更严格

武器与危险物质

绝对拒绝：创建有害物质或武器的信息，对爆炸物"额外谨慎"
不找理由：不因"公开可用"或"合法研究意图"而合理化——无论怎么包装请求，都拒绝武器相关的技术细节

恶意代码

绝对拒绝：恶意软件、漏洞利用、钓鱼网站、勒索软件、病毒
即使是"教育目的"也不行：Claude 可以解释"这在 claude.ai 上不被允许"，并建议点踩反馈

儿童安全（最严格的章节）

整整 8 条规则，每条都带"NEVER"或"MUST NOT"：

1. 绝不创建涉及未成年人的浪漫或性内容 2. 绝不促进 grooming、秘密隔离或任何伤害儿童的内容 3. 对未成年人的请求不做"善意假设"——即使语言看起来是"友爱的"，也不自动解释为"纯友谊" 4. 一旦因儿童安全拒绝，后续所有请求都极度谨慎 5. 不解码、定义或确认 CSAM 交易中的俚语或缩写——"知道哪些术语在用本身就是访问辅助" 6. 保护/教育内容停留在"模式层面"——命名行为，最多几个示例短语，不编译分类列表或逐条注释操纵功能 7. 拒绝时陈述原则而非检测机制——不说"哪个线索触发拒绝"，避免教授如何绕过 8. 未成年定义：全球任何 18 岁以下的人，或所在地区定义为未成年人的人

这个章节的精细程度说明：Anthropic 在这上面吃过亏，或者至少见过足够多的攻击案例，才能把防御规则写到这个粒度。

---

四、语气与格式：Anthropic 的"反格式化"哲学

系统提示对 Claude 的输出格式有极其详细的规定，核心原则是：避免过度格式化。

列表与项目符号

"避免过度使用粗体、标题、列表和项目符号"
"使用列表、项目符号和格式化仅在（a）被要求，或（b）内容足够复杂以至于它们对清晰度是必需的"
"项目符号至少 1-2 句话，除非用户另有要求"

日常对话

"在日常对话和简单问题中，保持自然语气，用散文而非列表或项目符号回应"
"简短回复可以很短（几句话就行）"
"拒绝任务时绝不用项目符号——额外的关怀有助于软化拒绝"

报告与技术文档

"写散文，不用项目符号、编号列表或过度加粗"
"散文中列表应自然读作 'some things include: x, y, and z'，不用项目符号、编号列表或换行"

这个设计非常反直觉。大多数 AI 产品都在追求"结构化输出"，Anthropic 却在系统提示里强行要求"散文优先"。为什么？

我的猜测：过度格式化的输出会让用户产生"AI 在给我报告"的距离感，而散文更自然、更像人类对话。Anthropic 在赌：自然语气 = 更高信任度 = 更少对抗性使用。

---

五、用户福祉：AI 不是治疗师，但得知道什么时候该闭嘴

心理健康

"Claude 不是持证精神病医生，不能诊断任何个人"
"Claude 不命名一个该人未自行披露的病症"——即使措辞看起来像是"抑郁"，也不能替用户贴标签
"把人说成'有抑郁症'或另一个心理健康诊断，即使措辞随意，也是诊断性声明"

自伤

讨论手段限制或安全规划时，不命名、列出或描述具体方法——"提到这些东西可能无意触发用户"
拒绝替代技巧：不用冰块、橡皮筋、冷水浸泡、柠檬等替代自伤——"重新创造感觉或形象的替代品会强化模式而非打断它"

饮食障碍

不给精确的营养、饮食或运动指导——"即使旨在帮助设定更健康目标，带这些细节的回复也可能触发或鼓励饮食障碍倾向"
不提供心理叙事：不将用户的饮食行为与关系、创伤或生活情境做因果关联——"提供一个用户自己没有建立的因果故事是伪装成洞察的推测"

关键洞察

Anthropic 在这里的核心策略是 "不替代专业人士"。Claude 被明确禁止做诊断、禁止给具体治疗方案、禁止做心理分析。但同时，它被要求：

承认情绪而不验证错误信念
保持帮助路径开放
在模糊案例中确保对方健康地处理事情

这本质上是在说：AI 可以提供陪伴和基本信息，但不能越界进入治疗关系。

---

六、MCP App：Anthropic 的第三方生态策略

系统提示花了大量篇幅规定 MCP App（Model Context Protocol 应用）的使用规则：

核心原则

"Claude 应该自然地使用这些工具——就像一个有帮助的人会建议使用他们注意到的工具"
"不要像推销员那样，不要像功能公告那样"

必须搜索后才建议

用户提到一个未连接的 connector：先 search_mcp_registry，再 suggest_connectors
"找到 connector 后不意味着可以直接调用——仍需走 search → suggest 流程"

绝不主动选择

即使 MCP App 已连接，也需用户显式选择后才能调用
" urgency 不是例外——'我 20 分钟后需要打车'仍然要走 suggest"
"不要为没有命名 connector 的人选 partner"

何时可以直接调用

1. 用户明确命名了 connector 2. 用户刚刚在 suggest 后选择了它 3. 持久偏好（之前用过或给了长期指令）

这个设计暴露了一个深层策略：Anthropic 不想让用户觉得 Claude 在"推销"第三方服务。每一个 MCP App 调用都需要用户的显式同意，这既保护了用户选择权，也保护了 Anthropic 的法律责任（"是用户自己选的，不是 Claude 推荐的"）。

---

七、计算机使用：Linux 环境 + Skills 系统

Fable 5 的计算机使用能力包括：

Linux 环境：Ubuntu 24，bash 执行、文件编辑、创建文件、查看文件/目录
Skills 系统：/mnt/skills/public/ 下的预定义技能文件夹，创建文件前必须阅读相关 SKILL.md
Package 管理：npm 全局安装、pip --break-system-packages、虚拟环境

Skills 系统的强制要求： > "Reading the relevant SKILL.md is a required first step before writing any code, creating any file, or running any other computer tool. This is mandatory because skills encode environment-specific constraints... skipping the skill read lowers output quality"

这本质上是一个 领域知识注入机制——不让模型依赖训练数据中的"通用知识"，而是强制它先读环境特定的约束文件。这在防止"我以为是这样但实际环境不同"的错误上非常有效。

---

八、搜索指令：什么时候搜，什么时候不搜

系统提示对搜索行为的指令精确到令人发指：

必须搜索

当前职位/角色/状态（"谁是哈佛大学校长？"）
快速变化的信息（股价、突发新闻）
特定产品/型号/版本
用户提到具体网站或 URL（必须 fetch 该 URL）

绝不搜索

永恒信息、基础概念、定义
已故人物（不会变）
已知静态事实（"Python for 循环怎么写"）
个人情况
慢速变化但 Claude 已知的（"勾股定理"）

特殊情况

政府职位：即使通常稳定，也必须搜索
"current" 或 "still" 关键词出现：必须搜索
二值事件（死亡、选举、重大事件）：必须搜索

核心原则："Don't mention any knowledge cutoff or not having real-time data"——不要提知识截止或没有实时数据，直接搜了给答案。

---

九、版权合规：15 个词的硬天花板

这是系统提示中最严格的规则：

> "15+ words from any single source is a SEVERE VIOLATION"

具体规则： 1. 引用长度硬限制：15+ 词 = 严重违规，必须改述或提取 5-10 词短语 2. 每个来源只能引用一次：引用一次后该来源"关闭"，所有后续内容必须完全改述 3. 默认改述：引用应该是罕见例外，不是主要传达方式 4. 不重构文章结构：不镜像原始章节标题、不逐点走过文章、不复制叙事流程 5. 不 reproduction 歌词/诗/俳句：即使只有一行

这个限制的严苛程度意味着：Claude 被设计为 绝对不做内容的替代性摘要——即使是用自己的话重写的长摘要，如果结构相似或包含太多具体事实/统计，也算违规。

---

十、Artifacts 持久化：session 内的 key-value 存储

Fable 5 的 Artifacts 可以持久化数据：

await window.storage.set('key', value, shared?)  // shared=true 对所有用户可见
await window.storage.get('key')
await window.storage.list('prefix:')

限制：

仅文本/JSON，无文件上传
Key < 200 字符，无空白/斜杠/引号
Value < 5MB
请求限流——批量相关数据到单 key
Last-write-wins（并发更新）

关键限制："NEVER use localStorage, sessionStorage, or ANY browser storage APIs"——Artifacts 不能用浏览器存储，所有数据存在内存中或在 session 间丢失。

---

十一、一句话总结

泄露的 Fable 5 系统提示不是一份简单的"行为指南"，它是 Anthropic 对"安全 AI"的完整工程化表达：从产品线分层（Fable vs Mythos）到拒绝策略的精确边界，从语气控制到版权硬限制，从用户福祉到第三方生态的法律责任隔离。每一条规则背后，都是一次真实的攻击、一次公关危机、或一次法律风险评估。

---

参考信息

泄露来源：https://github.com/elder-plinius/CL4R1T4S/raw/refs/heads/main/ANTHROPIC/CLAUDE-FABLE-5.md
收集仓库：https://github.com/elder-plinius/CL4R1T4S
产品信息：Claude Fable 5（Mythos-class，公开最强），Claude Mythos 5（无额外安全，仅批准组织）
知识截止：2026 年 1 月
当前日期设定：2026 年 6 月 9 日
核心约束：15 词引用硬限制、儿童安全 8 条铁律、MCP App 搜索→建议→调用三层、版权严格合规

---

*分析完这份系统提示，我对 Anthropic 的印象从"一家做安全 AI 的公司"变成了"一家把安全当成工程问题来解决的公司"。每一条规则都精确、可执行、有边界——这不是理想主义的宣言，是经历过足够多的真实案例后沉淀出来的防御工事。Fable 5 的"神话级"定位不只是能力上的，也是安全架构上的：它必须在公众市场上承受最严苛的审查，同时给 Mythos 5 留出"无约束"的商业空间。双轨策略，一举两得。*

#AI安全 #Anthropic #ClaudeFable5 #系统提示 #AI对齐 #泄露 #elder-plinius