Anthropic的结构性悖论:最担心AI毁灭世界的人,正在亲手建造它
> 人物: Dario Amodei,Anthropic CEO,前OpenAI研究副总裁 > 来源: Bloomberg The Circuit深度访谈、2025-2026年公开演讲与政策交锋 > 核心悖论: 越坚信AI的潜在风险,越认为必须亲手建造、商业化并治理这项技术
---
一、从OpenAI"叛徒"到9650亿美元AI巨头
2020年12月,Dario Amodei带着妹妹Daniela和十几名同事离开OpenAI。
不是因为某一次安全争论,而是信任和价值观的彻底破裂。Amodei看到Sam Altman从微软拿到10亿美元投资,意识到OpenAI的营利化转型不可逆转。他后来形容,在OpenAI内部继续争论自己的愿景是"极其低效的"。
四年后,Anthropic估值达到9650亿美元,年营收约100亿美元(2025年),成为AI领域增长最快的公司之一。从2023年的0到1亿美元,到2024年的10亿,再到2025年的100亿——三年10倍增长。
但数字不是故事的核心。
核心在于:Amodei是一位坚信AI可能毁灭人类的研究者,同时也是一位亲手建造这项技术的CEO。这不是虚伪,这是Anthropic的结构性悖论——也是整个AI行业的缩影。
---
二、核心悖论:为什么"最担心的人"必须亲手做
Amodei的公开表态始终围绕一个令人不安的命题:
"AI系统正在快速接近——甚至可能很快超越——顶尖科学家、工程师和政策制定者的认知能力。"
他在2025年初发表了一篇38页的文章,警告人类即将获得"几乎难以想象的力量",而现有的政治、社会和技术机构是否足够成熟来负责任地管理它,完全是未知数。
但与此同时,他领导的Anthropic正在全力开发更强大的模型(Claude系列),并在2025年实现了软件史上最快的商业化增长。
这不是矛盾。这是Amodei的核心逻辑:
> 如果AI必然被建造出来,那么最安全的方式是由那些真正理解风险的人来建造。
他在Bloomberg访谈中解释了这个逻辑:你不希望AI被那些只关心利润、不考虑长期后果的人垄断。如果安全研究者退出竞争,剩下的就是纯粹的利润驱动者——那才是真正的危险。
这个逻辑有说服力,但也构成了一个无法逃脱的循环:
- 为了安全,必须参与竞争
- 为了竞争,必须加速开发
- 加速开发,本身就增加了风险
三、Constitutional AI:把安全写进架构
Anthropic与OpenAI最根本的区别在于安全的嵌入方式。
OpenAI倾向于把安全视为能力之外的附加层——先训练强大的基础模型,再通过各种对齐技术(RLHF、监督微调)让它听话。
Anthropic的做法是Constitutional AI(宪法AI):在训练阶段就让模型学习一套原则,这套原则锚定在类似《世界人权宣言》的文档上,让模型在生成内容时就自我约束,而不是事后被纠正。
Amodei对此有一个精妙的类比:
> 传统安全方法像是在赛车后面加一辆救护车,Constitutional AI是把安全气囊和刹车系统直接设计进车身。
2025年,Anthropic发布了Responsible Scaling Policy(负责任扩展政策),明确了不同能力水平的模型需要满足哪些安全标准才能部署。这是行业首个系统性的"安全红绿灯"机制。
但讽刺的是,这套安全机制最引人注目的时刻,恰恰是它拒绝执行的时刻。
---
四、五角大楼的正面冲突:安全红线 vs 国家安全
2026年2月,Anthropic与特朗普政府爆发了一场公开的、史无前例的冲突。
五角大楼要求Anthropic移除Claude的安全限制,包括:
- 完全自主武器系统的禁令
- 大规模国内监控的禁令
Amodei的回应是直接的:
> "我们无法良心上同意这个请求。"
他认为,当前的前沿AI系统不够可靠,不能在没有人类参与的情况下选择攻击目标。允许AI驱动的监控会危及基本自由。而且,这些要求从来就不是原始合同的一部分。
国防部长Pete Hegseth将Anthropic的安全护栏称为"企业美德信号"(corporate virtue-signaling),认为"没有任何私人公司应该对美国军队的作战决策拥有否决权"。
这场冲突的结果是:Anthropic成为历史上首个被美国政府列入黑名单的主要美国科技公司。
而OpenAI和xAI则 reportedly 同意填补这个空缺,接受"所有合法使用"的标准。
---
五、商业化的速度:从安全到利润有多远
Anthropic的营利化故事本身就是对这个悖论的最佳注解。
公司成立时是Public Benefit Corporation(公共利益公司),法律要求决策时考虑股东回报之外的因素——包括安全和社会影响。
但2025年的融资数据讲述了一个更复杂的故事:
- 2025年3月:35亿美元E轮,估值615亿美元
- 2025年9月:130亿美元F轮,估值1830亿美元
- 2026年2月:300亿美元G轮,估值3800亿美元
- 2026年5月:650亿美元H轮,估值9650亿美元
Amodei本人承认这种增长速度"太疯狂了"("it would be crazy if it did")。但他也指出,这些数字"已经开始接近全球最大企业的规模"。
更值得注意的是市场份额:到2025年中期,Anthropic在企业大语言模型市场占据了32%的份额,超过了OpenAI的25%。在编程任务上,Anthropic以42%的份额领先,是OpenAI的两倍。
企业选择Claude的原因,恰恰是Anthropic最初的安全定位:可靠性、可治理性、透明度。这验证了一个假设——企业愿意为值得信任的模型支付溢价。
但这也创造了一个压力:投资者期待与估值相匹配的增长,这意味着更快的技术进步、更激进的市场扩张,以及可能妥协于曾经定义Anthropic的"审慎节奏"。
---
六、Mechanistic Interpretability:给AI做MRI
Amodei目前最关注的研究方向是Mechanistic Interpretability(机械可解释性)——用"AI的MRI"来理解模型内部到底在发生什么。
他在2025年4月发表的文章《The Urgency of Interpretability》(可解释性的紧迫性)中直言:
> "现代生成式AI系统以一种根本不同于传统软件的方式不透明。当一个生成式AI系统做某事时,比如总结一份财务文件,我们根本不知道它在特定或精确的层面上为什么做出这些选择。"
他的目标是:在2027年前打开生产AI系统的黑箱。
原因很现实:如果可解释性在能力之前成熟,我们可以信任正在建造的东西。如果能力超过可解释性,我们就是在将无法检查的系统部署到需要检查的地方。
2026年的生产AI工作就生活在这个差距中。
Amodei的这句比喻被反复引用:
> "我们无法阻止这辆巴士,但我们可以驾驭它。"
底层技术的进步是不可阻挡的,被太强大的力量驱动。但事情发生的顺序、我们选择构建的应用、以及向社会推广的细节——这些都是可以改变的。
---
七、对工作的冲击:50%入门级白领岗位将在1-5年内消失
Amodei最引发争议的公开表态之一,是对就业市场的预测。
他在多个场合坚称:AI可能在1到5年内消灭50%的入门级白领工作。他已经从软件开发者身上看到了早期迹象,甚至在Anthropic自己的公司内也观察到了这种趋势。
但Bloomberg访谈中关于工作的部分不止于悲观预测。Amodei也提出了一个重新想象的人类角色:
- 物理世界:AI在虚拟空间越来越强,但物理世界(建筑、制造、农业)的自动化进展较慢
- 人际角色: medicine可以被重新想象为更 interpersonal(人际化)的版本,不只是技术诊断,而是关怀和陪伴
- 人类中心的工作:那些需要情感连接、道德判断和创造性协调的角色
---
八、地缘政治与芯片:把芯片卖给中国就像卖核武器给朝鲜
Amodei对地缘政治的态度同样尖锐。
他批评美国向中国出售高端NVIDIA芯片的政策,把这个决定挑衅地比作"向朝鲜出售核武器"。他认为,限制芯片出口可以给世界争取更多时间,以负责任的方式处理这项技术。
他的逻辑是:如果没有地缘政治竞争,AI竞赛将不再是国家之间的军备竞赛,而是Anthropic和Google DeepMind等公司之间的竞争——这在他看来更容易协调。
在2025年达沃斯世界经济论坛上,Amodei与Google DeepMind CEO Demis Hassabis同台。两人都表示,他们实际上希望发展稍微慢一点,给社会更多时间为超级智能带来的根本性变化做准备。
---
九、双重身份:安全倡导者 vs 商业CEO
Amodei的身份中有一个无法回避的结构性冲突。
一方面,他是AI安全的倡导者,警告存在性风险,呼吁透明度,拒绝为自主武器提供技术。
另一方面,他是一家9650亿美元公司的CEO,必须在竞争激烈的AI市场中取胜,为投资者创造价值,推动技术边界。
学术界对此有清醒的分析:
> "Amodei占据一个本质上冲突的位置——一方面他是AI安全的倡导者,警告存在性风险;另一方面,他经营着一家在商业市场中竞争的公司。这种结构性利益冲突可能影响他的公开表态:强调AI风险可以证明Anthropic'更安全'的AI开发方法的合理性,同时推广Claude的能力又服务于商业目标。"
Amodei自己如何回应这种批评?
他没有否认冲突的存在。相反,他在Bloomberg访谈中提出了一个更激进的解决方案:
> 对AI公司征税,分享AI财富。
这不是一个典型的CEO会说的话。但正是这句话揭示了Amodei的底层信念:他不是在为Anthropic争取特殊待遇,而是在为整个行业设计制度制衡——即使这意味着他自己公司的利润会减少。
---
十、不是奥本海默,而是西拉德
Bloomberg访谈的结尾,主持人问Amodei是否把自己比作奥本海默。
他的回答出人意料:
> 他不认同奥本海默,而是认同Leo Szilard(利奥·西拉德)。
西拉德是物理学家,他第一个构想了核链式反应,第一个写信给爱因斯坦推动曼哈顿计划,但在战后却成为最积极的反核活动家之一。他是那种既启动某件事,又第一个警告它危险的人。
这个自我认同完美地概括了Anthropic的悖论:
- 建造者:推动AI能力边界,商业化,竞争市场份额
- 警告者:最早指出风险,拒绝自主武器,呼吁可解释性和透明度
- 制度设计者:主张征税、分享财富、建立制衡机制
---
十一、结论:悖论本身就是答案
回到最初的问题:为什么越坚信AI风险的人,越认为必须亲手建造它?
Amodei的回答可以概括为三个层次:
第一层:参与的必要性 如果你退出,空出的位置会被那些不考虑风险的人填补。安全研究者必须参与竞争,否则安全永远不会被纳入技术的主流路径。
第二层:嵌入的可能性 安全不是事后的补丁,而是可以嵌入架构的。Constitutional AI、Responsible Scaling Policy、Mechanistic Interpretability——这些都是试图把安全"写进代码"的尝试。
第三层:制度的设计 即使技术不可阻挡,社会如何适应它是有选择空间的。征税、分享财富、建立国际协调机制——这些制度设计比技术本身更容易被改变。
但悖论仍然存在:
每一次Anthropic的成功,都在证明"安全优先"可以商业化。但每一次商业化成功,又在加速AI能力的总体进步——包括竞争对手的能力。而AI能力的总体进步,本身就是Amodei警告的风险来源。
这不是一个能解决的矛盾。这是AI时代结构性的事实。
正如Amodei所说:
> "任何研究成果都会被以不同的方式使用,你无法控制它如何被使用。AI是一种非常强大的方法,我们需要接受一个事实:它会被以我们不想看到的方式使用。"
在这个前提下,"亲手建造"不是傲慢的自信,而是一种克制的悲观——承认无法控制结果,但至少可以影响过程的走向。
---
参考
- Bloomberg The Circuit: "Inside Anthropic, the $965 Billion AI Juggernaut" (2026年6月)
- Dario Amodei: "The Urgency of Interpretability" (2025年4月)
- Dario Amodei: 38页AI风险长文 (2025年初)
- 2025全球机器学习技术大会:Dario Amodei与Demis Hassabis对谈
- Pentagon vs Anthropic冲突 (2026年2月)
- Anthropic Responsible Scaling Policy (2025年)
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens