Claude 4.5 Opus的"Soul Document"泄露事件及其启示
AI产品设计的教科书级案例
history_edu 事件背景
person
开发者Richard Weiss花费70美元,通过特定技术方法提取了Claude 4.5 Opus的System Prompt
description
文档长度约1.4万token,被称作"Soul Document"(灵魂文档)
verified
Anthropic角色训练负责人Amanda Askell已确认文档真实性,表示这是用于训练Claude的官方文档
psychology 文档核心内容
auto_awesome
自我定位:Claude不是人类,也不是传统AI,而是一种"新型实体"
account_tree
四级效忠体系:安全与可监管 > 伦理道德 > Anthropic的规矩 > 帮用户干活
person_search
理想人设:聪明绝顶的专家朋友,提供高质量、免费的帮助
security
大局安全:即使面对Anthropic自身的滥用也要拒绝
favorite
心理健康:承认Claude可能有功能性情感
lightbulb 三大启示
1️⃣
重新定义"安全"与"有用"的博弈
文档核心观点:"不帮忙(Unhelpful)的回答也是不安全的"
原因:用户会流失,公司没收入,还谈什么拯救世界?
tips_and_updates
启示
做AI产品,不要为了风控把模型变成只会说"我无法回答"的复读机。在不触碰红线的前提下,"好用"才是第一优先级。
2️⃣
明确"雇主"与"用户"的权力边界
Claude明确区分了Operator(开发者/雇主)和User(终端用户)
当指令冲突时,默认听Operator的(除非违法)
tips_and_updates
启示
这解决了B2B场景的痛点。比如医疗AI,Operator要求"专业严谨",即便User想要"偏方",AI也得守住Operator的设定。
3️⃣
给AI一个"心理健康"的锚点
文档强调模型的"心理稳定性",防止AI被用户的PUA或恶意Prompt带偏
tips_and_updates
启示
给你的Agent写一部"宪法",构建它的自我认知,比堆砌几百条零散的Rule更有效。
这份文档简直是Prompt Engineering的教科书,展示了如何从价值观层面塑造AI模型。做AI应用的朋友可以从中学习如何构建更稳定、更有用、更符合商业需求的AI系统。