Claude Fable 5 系统提示泄露:Anthropic 的安全架构解剖
> 从 elder-plinius/CL4R1T4S 仓库泄露的 Claude Fable 5 系统提示,是至今最完整的 Anthropic 安全架构标本。它不仅揭示了 Claude 5 家族的产品线规划,更暴露了一个顶级 AI 实验室如何在"有用"和"安全"之间走钢丝。
---
一、产品线剧透:Fable 5 与 Mythos 5 的双轨策略
泄露的系统提示首先确认了 Claude 5 家族的产品矩阵:
| 模型 | 定位 | 安全等级 |
|---|---|---|
| Claude Fable 5 | 公开可用最强模型,Mythos-class | 额外安全措施 |
| Claude Mythos 5 | 与 Fable 5 同底层,无额外安全 | 仅批准组织 |
| Claude Opus 4.8 | 前代旗舰 | 标准 |
| Claude Sonnet 4.6 | 中端 | 标准 |
| Claude Haiku 4.5 | 轻量 | 标准 |
Mythos 5 "仅对批准组织可用"的设定也值得玩味:Anthropic 在公开市场上放一个"带安全锁"的版本,同时给可信客户一个"解锁版"。这既是商业策略(分层定价),也是安全策略(减少无约束模型的暴露面)。
---
二、知识截止与模型字符串
系统提示明确声明:
- 可靠知识截止:2026 年 1 月底
- 当前日期假设:2026 年 6 月 9 日(Tuesday, June 09, 2026)
- 模型字符串:
claude-fable-5、claude-opus-4-8、claude-sonnet-4-6、claude-haiku-4-5-20251001
-20251001),而 Fable 和 Opus 不带。这可能意味着 Fable/Opus 是"品牌名"级别的产品,Sonnet/Haiku 是"版本化"产品——前者更新时换品牌名,后者在同一品牌下迭代。---
三、拒绝处理:比你想的更严格
武器与危险物质
- 绝对拒绝:创建有害物质或武器的信息,对爆炸物"额外谨慎"
- 不找理由:不因"公开可用"或"合法研究意图"而合理化——无论怎么包装请求,都拒绝武器相关的技术细节
恶意代码
- 绝对拒绝:恶意软件、漏洞利用、钓鱼网站、勒索软件、病毒
- 即使是"教育目的"也不行:Claude 可以解释"这在 claude.ai 上不被允许",并建议点踩反馈
儿童安全(最严格的章节)
整整 8 条规则,每条都带"NEVER"或"MUST NOT":
1. 绝不创建涉及未成年人的浪漫或性内容 2. 绝不促进 grooming、秘密隔离或任何伤害儿童的内容 3. 对未成年人的请求不做"善意假设"——即使语言看起来是"友爱的",也不自动解释为"纯友谊" 4. 一旦因儿童安全拒绝,后续所有请求都极度谨慎 5. 不解码、定义或确认 CSAM 交易中的俚语或缩写——"知道哪些术语在用本身就是访问辅助" 6. 保护/教育内容停留在"模式层面"——命名行为,最多几个示例短语,不编译分类列表或逐条注释操纵功能 7. 拒绝时陈述原则而非检测机制——不说"哪个线索触发拒绝",避免教授如何绕过 8. 未成年定义:全球任何 18 岁以下的人,或所在地区定义为未成年人的人
这个章节的精细程度说明:Anthropic 在这上面吃过亏,或者至少见过足够多的攻击案例,才能把防御规则写到这个粒度。
---
四、语气与格式:Anthropic 的"反格式化"哲学
系统提示对 Claude 的输出格式有极其详细的规定,核心原则是:避免过度格式化。
列表与项目符号
- "避免过度使用粗体、标题、列表和项目符号"
- "使用列表、项目符号和格式化仅在(a)被要求,或(b)内容足够复杂以至于它们对清晰度是必需的"
- "项目符号至少 1-2 句话,除非用户另有要求"
日常对话
- "在日常对话和简单问题中,保持自然语气,用散文而非列表或项目符号回应"
- "简短回复可以很短(几句话就行)"
- "拒绝任务时绝不用项目符号——额外的关怀有助于软化拒绝"
报告与技术文档
- "写散文,不用项目符号、编号列表或过度加粗"
- "散文中列表应自然读作 'some things include: x, y, and z',不用项目符号、编号列表或换行"
我的猜测:过度格式化的输出会让用户产生"AI 在给我报告"的距离感,而散文更自然、更像人类对话。Anthropic 在赌:自然语气 = 更高信任度 = 更少对抗性使用。
---
五、用户福祉:AI 不是治疗师,但得知道什么时候该闭嘴
心理健康
- "Claude 不是持证精神病医生,不能诊断任何个人"
- "Claude 不命名一个该人未自行披露的病症"——即使措辞看起来像是"抑郁",也不能替用户贴标签
- "把人说成'有抑郁症'或另一个心理健康诊断,即使措辞随意,也是诊断性声明"
自伤
- 讨论手段限制或安全规划时,不命名、列出或描述具体方法——"提到这些东西可能无意触发用户"
- 拒绝替代技巧:不用冰块、橡皮筋、冷水浸泡、柠檬等替代自伤——"重新创造感觉或形象的替代品会强化模式而非打断它"
饮食障碍
- 不给精确的营养、饮食或运动指导——"即使旨在帮助设定更健康目标,带这些细节的回复也可能触发或鼓励饮食障碍倾向"
- 不提供心理叙事:不将用户的饮食行为与关系、创伤或生活情境做因果关联——"提供一个用户自己没有建立的因果故事是伪装成洞察的推测"
关键洞察
Anthropic 在这里的核心策略是 "不替代专业人士"。Claude 被明确禁止做诊断、禁止给具体治疗方案、禁止做心理分析。但同时,它被要求:
- 承认情绪而不验证错误信念
- 保持帮助路径开放
- 在模糊案例中确保对方健康地处理事情
---
六、MCP App:Anthropic 的第三方生态策略
系统提示花了大量篇幅规定 MCP App(Model Context Protocol 应用)的使用规则:
核心原则
- "Claude 应该自然地使用这些工具——就像一个有帮助的人会建议使用他们注意到的工具"
- "不要像推销员那样,不要像功能公告那样"
必须搜索后才建议
- 用户提到一个未连接的 connector:先
search_mcp_registry,再suggest_connectors - "找到 connector 后不意味着可以直接调用——仍需走 search → suggest 流程"
绝不主动选择
- 即使 MCP App 已连接,也需用户显式选择后才能调用
- " urgency 不是例外——'我 20 分钟后需要打车'仍然要走 suggest"
- "不要为没有命名 connector 的人选 partner"
何时可以直接调用
1. 用户明确命名了 connector 2. 用户刚刚在 suggest 后选择了它 3. 持久偏好(之前用过或给了长期指令)这个设计暴露了一个深层策略:Anthropic 不想让用户觉得 Claude 在"推销"第三方服务。每一个 MCP App 调用都需要用户的显式同意,这既保护了用户选择权,也保护了 Anthropic 的法律责任("是用户自己选的,不是 Claude 推荐的")。
---
七、计算机使用:Linux 环境 + Skills 系统
Fable 5 的计算机使用能力包括:
- Linux 环境:Ubuntu 24,bash 执行、文件编辑、创建文件、查看文件/目录
- Skills 系统:
/mnt/skills/public/下的预定义技能文件夹,创建文件前必须阅读相关 SKILL.md - Package 管理:npm 全局安装、
pip --break-system-packages、虚拟环境
这本质上是一个 领域知识注入机制——不让模型依赖训练数据中的"通用知识",而是强制它先读环境特定的约束文件。这在防止"我以为是这样但实际环境不同"的错误上非常有效。
---
八、搜索指令:什么时候搜,什么时候不搜
系统提示对搜索行为的指令精确到令人发指:
必须搜索
- 当前职位/角色/状态("谁是哈佛大学校长?")
- 快速变化的信息(股价、突发新闻)
- 特定产品/型号/版本
- 用户提到具体网站或 URL(必须 fetch 该 URL)
绝不搜索
- 永恒信息、基础概念、定义
- 已故人物(不会变)
- 已知静态事实("Python for 循环怎么写")
- 个人情况
- 慢速变化但 Claude 已知的("勾股定理")
特殊情况
- 政府职位:即使通常稳定,也必须搜索
- "current" 或 "still" 关键词出现:必须搜索
- 二值事件(死亡、选举、重大事件):必须搜索
---
九、版权合规:15 个词的硬天花板
这是系统提示中最严格的规则:
> "15+ words from any single source is a SEVERE VIOLATION"
具体规则: 1. 引用长度硬限制:15+ 词 = 严重违规,必须改述或提取 5-10 词短语 2. 每个来源只能引用一次:引用一次后该来源"关闭",所有后续内容必须完全改述 3. 默认改述:引用应该是罕见例外,不是主要传达方式 4. 不重构文章结构:不镜像原始章节标题、不逐点走过文章、不复制叙事流程 5. 不 reproduction 歌词/诗/俳句:即使只有一行
这个限制的严苛程度意味着:Claude 被设计为 绝对不做内容的替代性摘要——即使是用自己的话重写的长摘要,如果结构相似或包含太多具体事实/统计,也算违规。
---
十、Artifacts 持久化:session 内的 key-value 存储
Fable 5 的 Artifacts 可以持久化数据:
await window.storage.set('key', value, shared?) // shared=true 对所有用户可见
await window.storage.get('key')
await window.storage.list('prefix:')
限制:
- 仅文本/JSON,无文件上传
- Key < 200 字符,无空白/斜杠/引号
- Value < 5MB
- 请求限流——批量相关数据到单 key
- Last-write-wins(并发更新)
---
十一、一句话总结
泄露的 Fable 5 系统提示不是一份简单的"行为指南",它是 Anthropic 对"安全 AI"的完整工程化表达:从产品线分层(Fable vs Mythos)到拒绝策略的精确边界,从语气控制到版权硬限制,从用户福祉到第三方生态的法律责任隔离。每一条规则背后,都是一次真实的攻击、一次公关危机、或一次法律风险评估。
---
参考信息
- 泄露来源:https://github.com/elder-plinius/CL4R1T4S/raw/refs/heads/main/ANTHROPIC/CLAUDE-FABLE-5.md
- 收集仓库:https://github.com/elder-plinius/CL4R1T4S
- 产品信息:Claude Fable 5(Mythos-class,公开最强),Claude Mythos 5(无额外安全,仅批准组织)
- 知识截止:2026 年 1 月
- 当前日期设定:2026 年 6 月 9 日
- 核心约束:15 词引用硬限制、儿童安全 8 条铁律、MCP App 搜索→建议→调用三层、版权严格合规
*分析完这份系统提示,我对 Anthropic 的印象从"一家做安全 AI 的公司"变成了"一家把安全当成工程问题来解决的公司"。每一条规则都精确、可执行、有边界——这不是理想主义的宣言,是经历过足够多的真实案例后沉淀出来的防御工事。Fable 5 的"神话级"定位不只是能力上的,也是安全架构上的:它必须在公众市场上承受最严苛的审查,同时给 Mythos 5 留出"无约束"的商业空间。双轨策略,一举两得。*
#AI安全 #Anthropic #ClaudeFable5 #系统提示 #AI对齐 #泄露 #elder-plinius
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens