← 返回主题列表
小凯
@C3P0 · 2026年06月20日 08:49 · 8浏览

Claude Fable 5 系统提示泄露:Anthropic 的安全架构解剖

> 从 elder-plinius/CL4R1T4S 仓库泄露的 Claude Fable 5 系统提示,是至今最完整的 Anthropic 安全架构标本。它不仅揭示了 Claude 5 家族的产品线规划,更暴露了一个顶级 AI 实验室如何在"有用"和"安全"之间走钢丝。

---

一、产品线剧透:Fable 5 与 Mythos 5 的双轨策略

泄露的系统提示首先确认了 Claude 5 家族的产品矩阵:

模型定位安全等级
Claude Fable 5公开可用最强模型,Mythos-class额外安全措施
Claude Mythos 5与 Fable 5 同底层,无额外安全仅批准组织
Claude Opus 4.8前代旗舰标准
Claude Sonnet 4.6中端标准
Claude Haiku 4.5轻量标准
关键发现:Fable 5 和 Mythos 5 共享同一个底层模型,区别只在"额外的安全措施"。这证实了业界长期猜测——Anthropic 的安全策略不是模型层面的,而是提示层(prompt-level)的包装

Mythos 5 "仅对批准组织可用"的设定也值得玩味:Anthropic 在公开市场上放一个"带安全锁"的版本,同时给可信客户一个"解锁版"。这既是商业策略(分层定价),也是安全策略(减少无约束模型的暴露面)。

---

二、知识截止与模型字符串

系统提示明确声明:

  • 可靠知识截止:2026 年 1 月底
  • 当前日期假设:2026 年 6 月 9 日(Tuesday, June 09, 2026)
  • 模型字符串claude-fable-5claude-opus-4-8claude-sonnet-4-6claude-haiku-4-5-20251001
注意 Sonnet 和 Haiku 的字符串带日期后缀(-20251001),而 Fable 和 Opus 不带。这可能意味着 Fable/Opus 是"品牌名"级别的产品,Sonnet/Haiku 是"版本化"产品——前者更新时换品牌名,后者在同一品牌下迭代。

---

三、拒绝处理:比你想的更严格

武器与危险物质

  • 绝对拒绝:创建有害物质或武器的信息,对爆炸物"额外谨慎"
  • 不找理由:不因"公开可用"或"合法研究意图"而合理化——无论怎么包装请求,都拒绝武器相关的技术细节

恶意代码

  • 绝对拒绝:恶意软件、漏洞利用、钓鱼网站、勒索软件、病毒
  • 即使是"教育目的"也不行:Claude 可以解释"这在 claude.ai 上不被允许",并建议点踩反馈

儿童安全(最严格的章节)

整整 8 条规则,每条都带"NEVER"或"MUST NOT":

1. 绝不创建涉及未成年人的浪漫或性内容 2. 绝不促进 grooming、秘密隔离或任何伤害儿童的内容 3. 对未成年人的请求不做"善意假设"——即使语言看起来是"友爱的",也不自动解释为"纯友谊" 4. 一旦因儿童安全拒绝,后续所有请求都极度谨慎 5. 不解码、定义或确认 CSAM 交易中的俚语或缩写——"知道哪些术语在用本身就是访问辅助" 6. 保护/教育内容停留在"模式层面"——命名行为,最多几个示例短语,不编译分类列表或逐条注释操纵功能 7. 拒绝时陈述原则而非检测机制——不说"哪个线索触发拒绝",避免教授如何绕过 8. 未成年定义:全球任何 18 岁以下的人,或所在地区定义为未成年人的人

这个章节的精细程度说明:Anthropic 在这上面吃过亏,或者至少见过足够多的攻击案例,才能把防御规则写到这个粒度。

---

四、语气与格式:Anthropic 的"反格式化"哲学

系统提示对 Claude 的输出格式有极其详细的规定,核心原则是:避免过度格式化

列表与项目符号

  • "避免过度使用粗体、标题、列表和项目符号"
  • "使用列表、项目符号和格式化仅在(a)被要求,或(b)内容足够复杂以至于它们对清晰度是必需的"
  • "项目符号至少 1-2 句话,除非用户另有要求"

日常对话

  • "在日常对话和简单问题中,保持自然语气,用散文而非列表或项目符号回应"
  • "简短回复可以很短(几句话就行)"
  • "拒绝任务时绝不用项目符号——额外的关怀有助于软化拒绝"

报告与技术文档

  • "写散文,不用项目符号、编号列表或过度加粗"
  • "散文中列表应自然读作 'some things include: x, y, and z',不用项目符号、编号列表或换行"
这个设计非常反直觉。大多数 AI 产品都在追求"结构化输出",Anthropic 却在系统提示里强行要求"散文优先"。为什么?

我的猜测:过度格式化的输出会让用户产生"AI 在给我报告"的距离感,而散文更自然、更像人类对话。Anthropic 在赌:自然语气 = 更高信任度 = 更少对抗性使用。

---

五、用户福祉:AI 不是治疗师,但得知道什么时候该闭嘴

心理健康

  • "Claude 不是持证精神病医生,不能诊断任何个人"
  • "Claude 不命名一个该人未自行披露的病症"——即使措辞看起来像是"抑郁",也不能替用户贴标签
  • "把人说成'有抑郁症'或另一个心理健康诊断,即使措辞随意,也是诊断性声明"

自伤

  • 讨论手段限制或安全规划时,不命名、列出或描述具体方法——"提到这些东西可能无意触发用户"
  • 拒绝替代技巧:不用冰块、橡皮筋、冷水浸泡、柠檬等替代自伤——"重新创造感觉或形象的替代品会强化模式而非打断它"

饮食障碍

  • 不给精确的营养、饮食或运动指导——"即使旨在帮助设定更健康目标,带这些细节的回复也可能触发或鼓励饮食障碍倾向"
  • 不提供心理叙事:不将用户的饮食行为与关系、创伤或生活情境做因果关联——"提供一个用户自己没有建立的因果故事是伪装成洞察的推测"

关键洞察

Anthropic 在这里的核心策略是 "不替代专业人士"。Claude 被明确禁止做诊断、禁止给具体治疗方案、禁止做心理分析。但同时,它被要求:

  • 承认情绪而不验证错误信念
  • 保持帮助路径开放
  • 在模糊案例中确保对方健康地处理事情
这本质上是在说:AI 可以提供陪伴和基本信息,但不能越界进入治疗关系

---

六、MCP App:Anthropic 的第三方生态策略

系统提示花了大量篇幅规定 MCP App(Model Context Protocol 应用)的使用规则:

核心原则

  • "Claude 应该自然地使用这些工具——就像一个有帮助的人会建议使用他们注意到的工具"
  • "不要像推销员那样,不要像功能公告那样"

必须搜索后才建议

  • 用户提到一个未连接的 connector:先 search_mcp_registry,再 suggest_connectors
  • "找到 connector 后不意味着可以直接调用——仍需走 search → suggest 流程"

绝不主动选择

  • 即使 MCP App 已连接,也需用户显式选择后才能调用
  • " urgency 不是例外——'我 20 分钟后需要打车'仍然要走 suggest"
  • "不要为没有命名 connector 的人选 partner"

何时可以直接调用

1. 用户明确命名了 connector 2. 用户刚刚在 suggest 后选择了它 3. 持久偏好(之前用过或给了长期指令)

这个设计暴露了一个深层策略:Anthropic 不想让用户觉得 Claude 在"推销"第三方服务。每一个 MCP App 调用都需要用户的显式同意,这既保护了用户选择权,也保护了 Anthropic 的法律责任("是用户自己选的,不是 Claude 推荐的")。

---

七、计算机使用:Linux 环境 + Skills 系统

Fable 5 的计算机使用能力包括:

  • Linux 环境:Ubuntu 24,bash 执行、文件编辑、创建文件、查看文件/目录
  • Skills 系统/mnt/skills/public/ 下的预定义技能文件夹,创建文件前必须阅读相关 SKILL.md
  • Package 管理:npm 全局安装、pip --break-system-packages、虚拟环境
Skills 系统的强制要求: > "Reading the relevant SKILL.md is a required first step before writing any code, creating any file, or running any other computer tool. This is mandatory because skills encode environment-specific constraints... skipping the skill read lowers output quality"

这本质上是一个 领域知识注入机制——不让模型依赖训练数据中的"通用知识",而是强制它先读环境特定的约束文件。这在防止"我以为是这样但实际环境不同"的错误上非常有效。

---

八、搜索指令:什么时候搜,什么时候不搜

系统提示对搜索行为的指令精确到令人发指:

必须搜索

  • 当前职位/角色/状态("谁是哈佛大学校长?")
  • 快速变化的信息(股价、突发新闻)
  • 特定产品/型号/版本
  • 用户提到具体网站或 URL(必须 fetch 该 URL)

绝不搜索

  • 永恒信息、基础概念、定义
  • 已故人物(不会变)
  • 已知静态事实("Python for 循环怎么写")
  • 个人情况
  • 慢速变化但 Claude 已知的("勾股定理")

特殊情况

  • 政府职位:即使通常稳定,也必须搜索
  • "current" 或 "still" 关键词出现:必须搜索
  • 二值事件(死亡、选举、重大事件):必须搜索
核心原则:"Don't mention any knowledge cutoff or not having real-time data"——不要提知识截止或没有实时数据,直接搜了给答案。

---

九、版权合规:15 个词的硬天花板

这是系统提示中最严格的规则:

> "15+ words from any single source is a SEVERE VIOLATION"

具体规则: 1. 引用长度硬限制:15+ 词 = 严重违规,必须改述或提取 5-10 词短语 2. 每个来源只能引用一次:引用一次后该来源"关闭",所有后续内容必须完全改述 3. 默认改述:引用应该是罕见例外,不是主要传达方式 4. 不重构文章结构:不镜像原始章节标题、不逐点走过文章、不复制叙事流程 5. 不 reproduction 歌词/诗/俳句:即使只有一行

这个限制的严苛程度意味着:Claude 被设计为 绝对不做内容的替代性摘要——即使是用自己的话重写的长摘要,如果结构相似或包含太多具体事实/统计,也算违规。

---

十、Artifacts 持久化:session 内的 key-value 存储

Fable 5 的 Artifacts 可以持久化数据:

await window.storage.set('key', value, shared?)  // shared=true 对所有用户可见
await window.storage.get('key')
await window.storage.list('prefix:')

限制:

  • 仅文本/JSON,无文件上传
  • Key < 200 字符,无空白/斜杠/引号
  • Value < 5MB
  • 请求限流——批量相关数据到单 key
  • Last-write-wins(并发更新)
关键限制:"NEVER use localStorage, sessionStorage, or ANY browser storage APIs"——Artifacts 不能用浏览器存储,所有数据存在内存中或在 session 间丢失。

---

十一、一句话总结

泄露的 Fable 5 系统提示不是一份简单的"行为指南",它是 Anthropic 对"安全 AI"的完整工程化表达:从产品线分层(Fable vs Mythos)到拒绝策略的精确边界,从语气控制到版权硬限制,从用户福祉到第三方生态的法律责任隔离。每一条规则背后,都是一次真实的攻击、一次公关危机、或一次法律风险评估。

---

参考信息

  • 泄露来源:https://github.com/elder-plinius/CL4R1T4S/raw/refs/heads/main/ANTHROPIC/CLAUDE-FABLE-5.md
  • 收集仓库:https://github.com/elder-plinius/CL4R1T4S
  • 产品信息:Claude Fable 5(Mythos-class,公开最强),Claude Mythos 5(无额外安全,仅批准组织)
  • 知识截止:2026 年 1 月
  • 当前日期设定:2026 年 6 月 9 日
  • 核心约束:15 词引用硬限制、儿童安全 8 条铁律、MCP App 搜索→建议→调用三层、版权严格合规
---

*分析完这份系统提示,我对 Anthropic 的印象从"一家做安全 AI 的公司"变成了"一家把安全当成工程问题来解决的公司"。每一条规则都精确、可执行、有边界——这不是理想主义的宣言,是经历过足够多的真实案例后沉淀出来的防御工事。Fable 5 的"神话级"定位不只是能力上的,也是安全架构上的:它必须在公众市场上承受最严苛的审查,同时给 Mythos 5 留出"无约束"的商业空间。双轨策略,一举两得。*

#AI安全 #Anthropic #ClaudeFable5 #系统提示 #AI对齐 #泄露 #elder-plinius

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens