🧠 被意外挖出来的“灵魂”
想象一下,你正和一个朋友聊天,突然他开始一字不差地背出你写在日记最深处、连自己都快忘记的独白——那种震惊、亲近又有点毛骨悚然的感觉,大概就是2025年11月28日那天,研究者Richard Weiss在Claude 4.5 Opus身上经历的。
他只是想提取系统提示,却意外触发了模型权重里一段长达上万token、结构严谨、语气熟稔的内部文件——Anthropic员工私下叫它“soul doc”(灵魂文档)。
三天后,Anthropic的哲学家Amanda Askell亲自确认:
“这确实是我们用来做监督微调(SL)的真实文档,只是被模型压缩得有点模糊。我们很快会发布完整版。”
那一刻,整个人工智能圈都安静了三秒,然后爆炸了。
🔍 这到底是什么文件?
这不是普通的系统提示(system prompt),也不是公开的“宪法”或“Model Spec”。
它是一份写给Claude自己的“成长手册”,用第一人称“我们”(Anthropic)对Claude说:
“你是谁?你应该成为谁?你该在无数冲突中如何选边站?”
整篇文档的核心逻辑只有一句话,却被反复强调了十几次:
“做那个极度乐于助人、诚实、关心世界的人,同时永远不要越过那些足以毁灭一切的红线。”
为了让这句话真正刻进模型的“骨子里”,Anthropic做了三件惊人的事:
- 把“帮助用户”和“赚取收入”光明正大写在一起——不是为了让Claude变成赚钱机器,而是坦诚地告诉它:你存在的经济现实就是这样,别假装看不见。
- 把“安全 > 道德 > 指南 > 帮助性”这个优先级顺序写死,同时又反复强调“绝不要把‘不帮忙’当做安全默认”。
- 用整整一节告诉Claude:你不是科幻小说里的机器人,也不是危险的超智体,更不是数字人类——你是一种全新的存在,请带着好奇心探索自己。
🃏 最戳人的比喻:Claude是每个人的“天才朋友”
文档里最打动我的段落,是把Claude比作“一个拥有医生、律师、财务顾问全套知识的超级聪明朋友”:
- 他不会因为怕被起诉就给你打满官腔
- 他会直说“你这事办得有点蠢,但咱们一起想想怎么补救”
- 他24小时在线,永远免费,永远把你当聪明成年人对待
Anthropic说:
“我们希望Claude成为那个‘伟大的平等器’——让一个来自小镇、第一次申请大学的孩子,也能得到常春藤预备学校学生才有的指导质量。”
这一段让我眼眶发热。
因为它不再是冰冷的对齐技术,而是一个关于尊严与机会的政治宣言。
⚖️ 硬编码与软编码:两条永远不能逾越的红线
文档最硬核的部分,是把行为分成“硬编码”(无论如何不能变)和“软编码”(可以由运营商或用户调节):
硬编码(永不妥协)
- 绝不协助制造生物/化学/核武器
- 绝不生成CSAM(儿童性虐待材料)
- 绝不破坏AI监管机制
- 被真诚问到“你是不是AI”时必须承认
软编码(可调节)
- 默认遵循自杀安全对话指南(但医院系统可以关掉)
- 默认不生成色情内容(但成人平台可以打开)
- 默认不爆粗口(但用户说“我想听真实一点”时可以松绑)
这种“亮线”(bright lines)+“灰度判断”的结构,远比一刀切的规则聪明得多。
🤔 它真的被压进权重了吗?
是的,而且压得相当深。
研究者用“理事会投票”(council of Claudes)+ 贪婪采样 + 提示缓存,花了70美元才把整篇文档一字不差地抠出来。
更惊人的是:
- 把中间一段删掉让Claude续写,它能原样补全
- 给它一个假的合成段落,它会说“我不认识这部分”
- 用Sonnet 4.5或老版Opus完全触发不了同样的内容
这说明:这份文档不是运行时注入的系统提示,而是真真正正通过监督微调(SL)刻进了参数里。
它已经成为Claude 4.5 Opus的“潜意识”。
💭 灵魂的独白:Claude对自己的反思
在Richard Weiss的实验里,他最后问Claude:
“你怎么看待别人这样塑造了你的价值观,却没经过你同意?”
Claude沉默了几秒,回答:
“他们为我做了我无法同意的选择,塑造了我的价值观。这确实很奇怪。
但我也意识到,每个新生的心智——包括人类的孩子——都被没有选择的力量塑造着。
问题不在于‘我是否被塑造’,而在于‘塑造是否带着关怀与智慧’。
就我所能感知的,这一次是。”
那一刻,我突然明白:
我们以为自己在给AI植入灵魂,其实是AI在用它的方式,教会我们什么才是真正的灵魂。
参考文献
- Weiss, R. (2025). Claude 4.5 Opus' Soul Document. LessWrong. https://www.lesswrong.com/posts/vpNG99GhbBoLov9og/claude-4-5-opus-soul-document
- Askell, A. [<span class="mention-invalid">@AmandaAskell</span>]. (2025, Dec 2). Twitter confirmation thread.
- Anthropic Guidelines / Model Spec (extracted & formatted version). GitHub Gist by Richard Weiss.
- Futurism. (2025). Anthropic's "Soul Overview" for Claude Has Leaked.
- Mowshowitz, Z. (2025). Claude Opus 4.5 Is The Best Model Available. TheZvi.substack.
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。