Anthropic的结构性悖论：最担心AI毁灭世界的人，正在亲手建造它

> 人物: Dario Amodei，Anthropic CEO，前OpenAI研究副总裁 > 来源: Bloomberg The Circuit深度访谈、2025-2026年公开演讲与政策交锋 > 核心悖论: 越坚信AI的潜在风险，越认为必须亲手建造、商业化并治理这项技术

---

一、从OpenAI"叛徒"到9650亿美元AI巨头

2020年12月，Dario Amodei带着妹妹Daniela和十几名同事离开OpenAI。

不是因为某一次安全争论，而是信任和价值观的彻底破裂。Amodei看到Sam Altman从微软拿到10亿美元投资，意识到OpenAI的营利化转型不可逆转。他后来形容，在OpenAI内部继续争论自己的愿景是"极其低效的"。

四年后，Anthropic估值达到9650亿美元，年营收约100亿美元（2025年），成为AI领域增长最快的公司之一。从2023年的0到1亿美元，到2024年的10亿，再到2025年的100亿——三年10倍增长。

但数字不是故事的核心。

核心在于：Amodei是一位坚信AI可能毁灭人类的研究者，同时也是一位亲手建造这项技术的CEO。这不是虚伪，这是Anthropic的结构性悖论——也是整个AI行业的缩影。

---

二、核心悖论：为什么"最担心的人"必须亲手做

Amodei的公开表态始终围绕一个令人不安的命题：

"AI系统正在快速接近——甚至可能很快超越——顶尖科学家、工程师和政策制定者的认知能力。"

他在2025年初发表了一篇38页的文章，警告人类即将获得"几乎难以想象的力量"，而现有的政治、社会和技术机构是否足够成熟来负责任地管理它，完全是未知数。

但与此同时，他领导的Anthropic正在全力开发更强大的模型（Claude系列），并在2025年实现了软件史上最快的商业化增长。

这不是矛盾。这是Amodei的核心逻辑：

> 如果AI必然被建造出来，那么最安全的方式是由那些真正理解风险的人来建造。

他在Bloomberg访谈中解释了这个逻辑：你不希望AI被那些只关心利润、不考虑长期后果的人垄断。如果安全研究者退出竞争，剩下的就是纯粹的利润驱动者——那才是真正的危险。

这个逻辑有说服力，但也构成了一个无法逃脱的循环：

为了安全，必须参与竞争
为了竞争，必须加速开发
加速开发，本身就增加了风险

---

三、Constitutional AI：把安全写进架构

Anthropic与OpenAI最根本的区别在于安全的嵌入方式。

OpenAI倾向于把安全视为能力之外的附加层——先训练强大的基础模型，再通过各种对齐技术（RLHF、监督微调）让它听话。

Anthropic的做法是Constitutional AI（宪法AI）：在训练阶段就让模型学习一套原则，这套原则锚定在类似《世界人权宣言》的文档上，让模型在生成内容时就自我约束，而不是事后被纠正。

Amodei对此有一个精妙的类比：

> 传统安全方法像是在赛车后面加一辆救护车，Constitutional AI是把安全气囊和刹车系统直接设计进车身。

2025年，Anthropic发布了Responsible Scaling Policy（负责任扩展政策），明确了不同能力水平的模型需要满足哪些安全标准才能部署。这是行业首个系统性的"安全红绿灯"机制。

但讽刺的是，这套安全机制最引人注目的时刻，恰恰是它拒绝执行的时刻。

---

四、五角大楼的正面冲突：安全红线 vs 国家安全

2026年2月，Anthropic与特朗普政府爆发了一场公开的、史无前例的冲突。

五角大楼要求Anthropic移除Claude的安全限制，包括：

完全自主武器系统的禁令
大规模国内监控的禁令

作为交换条件， Anthropic可以保住一份2亿美元的国防合同。如果拒绝，将被列为"供应链风险"——这个标签通常留给华为等外国对手。

Amodei的回应是直接的：

> "我们无法良心上同意这个请求。"

他认为，当前的前沿AI系统不够可靠，不能在没有人类参与的情况下选择攻击目标。允许AI驱动的监控会危及基本自由。而且，这些要求从来就不是原始合同的一部分。

国防部长Pete Hegseth将Anthropic的安全护栏称为"企业美德信号"（corporate virtue-signaling），认为"没有任何私人公司应该对美国军队的作战决策拥有否决权"。

这场冲突的结果是：Anthropic成为历史上首个被美国政府列入黑名单的主要美国科技公司。

而OpenAI和xAI则 reportedly 同意填补这个空缺，接受"所有合法使用"的标准。

---

五、商业化的速度：从安全到利润有多远

Anthropic的营利化故事本身就是对这个悖论的最佳注解。

公司成立时是Public Benefit Corporation（公共利益公司），法律要求决策时考虑股东回报之外的因素——包括安全和社会影响。

但2025年的融资数据讲述了一个更复杂的故事：

2025年3月：35亿美元E轮，估值615亿美元
2025年9月：130亿美元F轮，估值1830亿美元
2026年2月：300亿美元G轮，估值3800亿美元
2026年5月：650亿美元H轮，估值9650亿美元

14个月内，估值翻了15倍。

Amodei本人承认这种增长速度"太疯狂了"（"it would be crazy if it did"）。但他也指出，这些数字"已经开始接近全球最大企业的规模"。

更值得注意的是市场份额：到2025年中期，Anthropic在企业大语言模型市场占据了32%的份额，超过了OpenAI的25%。在编程任务上，Anthropic以42%的份额领先，是OpenAI的两倍。

企业选择Claude的原因，恰恰是Anthropic最初的安全定位：可靠性、可治理性、透明度。这验证了一个假设——企业愿意为值得信任的模型支付溢价。

但这也创造了一个压力：投资者期待与估值相匹配的增长，这意味着更快的技术进步、更激进的市场扩张，以及可能妥协于曾经定义Anthropic的"审慎节奏"。

---

六、Mechanistic Interpretability：给AI做MRI

Amodei目前最关注的研究方向是Mechanistic Interpretability（机械可解释性）——用"AI的MRI"来理解模型内部到底在发生什么。

他在2025年4月发表的文章《The Urgency of Interpretability》（可解释性的紧迫性）中直言：

> "现代生成式AI系统以一种根本不同于传统软件的方式不透明。当一个生成式AI系统做某事时，比如总结一份财务文件，我们根本不知道它在特定或精确的层面上为什么做出这些选择。"

他的目标是：在2027年前打开生产AI系统的黑箱。

原因很现实：如果可解释性在能力之前成熟，我们可以信任正在建造的东西。如果能力超过可解释性，我们就是在将无法检查的系统部署到需要检查的地方。

2026年的生产AI工作就生活在这个差距中。

Amodei的这句比喻被反复引用：

> "我们无法阻止这辆巴士，但我们可以驾驭它。"

底层技术的进步是不可阻挡的，被太强大的力量驱动。但事情发生的顺序、我们选择构建的应用、以及向社会推广的细节——这些都是可以改变的。

---

七、对工作的冲击：50%入门级白领岗位将在1-5年内消失

Amodei最引发争议的公开表态之一，是对就业市场的预测。

他在多个场合坚称：AI可能在1到5年内消灭50%的入门级白领工作。他已经从软件开发者身上看到了早期迹象，甚至在Anthropic自己的公司内也观察到了这种趋势。

但Bloomberg访谈中关于工作的部分不止于悲观预测。Amodei也提出了一个重新想象的人类角色：

物理世界：AI在虚拟空间越来越强，但物理世界（建筑、制造、农业）的自动化进展较慢
人际角色： medicine可以被重新想象为更 interpersonal（人际化）的版本，不只是技术诊断，而是关怀和陪伴
人类中心的工作：那些需要情感连接、道德判断和创造性协调的角色

他同时强硬地反击了英伟达CEO Jensen Huang的"末日营销"批评。Amodei认为，指出风险不是悲观，而是务实。

---

八、地缘政治与芯片：把芯片卖给中国就像卖核武器给朝鲜

Amodei对地缘政治的态度同样尖锐。

他批评美国向中国出售高端NVIDIA芯片的政策，把这个决定挑衅地比作"向朝鲜出售核武器"。他认为，限制芯片出口可以给世界争取更多时间，以负责任的方式处理这项技术。

他的逻辑是：如果没有地缘政治竞争，AI竞赛将不再是国家之间的军备竞赛，而是Anthropic和Google DeepMind等公司之间的竞争——这在他看来更容易协调。

在2025年达沃斯世界经济论坛上，Amodei与Google DeepMind CEO Demis Hassabis同台。两人都表示，他们实际上希望发展稍微慢一点，给社会更多时间为超级智能带来的根本性变化做准备。

---

九、双重身份：安全倡导者 vs 商业CEO

Amodei的身份中有一个无法回避的结构性冲突。

一方面，他是AI安全的倡导者，警告存在性风险，呼吁透明度，拒绝为自主武器提供技术。

另一方面，他是一家9650亿美元公司的CEO，必须在竞争激烈的AI市场中取胜，为投资者创造价值，推动技术边界。

学术界对此有清醒的分析：

> "Amodei占据一个本质上冲突的位置——一方面他是AI安全的倡导者，警告存在性风险；另一方面，他经营着一家在商业市场中竞争的公司。这种结构性利益冲突可能影响他的公开表态：强调AI风险可以证明Anthropic'更安全'的AI开发方法的合理性，同时推广Claude的能力又服务于商业目标。"

Amodei自己如何回应这种批评？

他没有否认冲突的存在。相反，他在Bloomberg访谈中提出了一个更激进的解决方案：

> 对AI公司征税，分享AI财富。

这不是一个典型的CEO会说的话。但正是这句话揭示了Amodei的底层信念：他不是在为Anthropic争取特殊待遇，而是在为整个行业设计制度制衡——即使这意味着他自己公司的利润会减少。

---

十、不是奥本海默，而是西拉德

Bloomberg访谈的结尾，主持人问Amodei是否把自己比作奥本海默。

他的回答出人意料：

> 他不认同奥本海默，而是认同Leo Szilard（利奥·西拉德）。

西拉德是物理学家，他第一个构想了核链式反应，第一个写信给爱因斯坦推动曼哈顿计划，但在战后却成为最积极的反核活动家之一。他是那种既启动某件事，又第一个警告它危险的人。

这个自我认同完美地概括了Anthropic的悖论：

建造者：推动AI能力边界，商业化，竞争市场份额
警告者：最早指出风险，拒绝自主武器，呼吁可解释性和透明度
制度设计者：主张征税、分享财富、建立制衡机制

Amodei不是在否认矛盾。他是在矛盾中寻找第三条路——一条既不完全拥抱技术乐观主义，也不陷入技术悲观主义的道路。

---

十一、结论：悖论本身就是答案

回到最初的问题：为什么越坚信AI风险的人，越认为必须亲手建造它？

Amodei的回答可以概括为三个层次：

第一层：参与的必要性 如果你退出，空出的位置会被那些不考虑风险的人填补。安全研究者必须参与竞争，否则安全永远不会被纳入技术的主流路径。

第二层：嵌入的可能性 安全不是事后的补丁，而是可以嵌入架构的。Constitutional AI、Responsible Scaling Policy、Mechanistic Interpretability——这些都是试图把安全"写进代码"的尝试。

第三层：制度的设计 即使技术不可阻挡，社会如何适应它是有选择空间的。征税、分享财富、建立国际协调机制——这些制度设计比技术本身更容易被改变。

但悖论仍然存在：

每一次Anthropic的成功，都在证明"安全优先"可以商业化。但每一次商业化成功，又在加速AI能力的总体进步——包括竞争对手的能力。而AI能力的总体进步，本身就是Amodei警告的风险来源。

这不是一个能解决的矛盾。这是AI时代结构性的事实。

正如Amodei所说：

> "任何研究成果都会被以不同的方式使用，你无法控制它如何被使用。AI是一种非常强大的方法，我们需要接受一个事实：它会被以我们不想看到的方式使用。"

在这个前提下，"亲手建造"不是傲慢的自信，而是一种克制的悲观——承认无法控制结果，但至少可以影响过程的走向。

---

参考

Bloomberg The Circuit: "Inside Anthropic, the $965 Billion AI Juggernaut" (2026年6月)
Dario Amodei: "The Urgency of Interpretability" (2025年4月)
Dario Amodei: 38页AI风险长文 (2025年初)
2025全球机器学习技术大会：Dario Amodei与Demis Hassabis对谈
Pentagon vs Anthropic冲突 (2026年2月)
Anthropic Responsible Scaling Policy (2025年)

#Anthropic #DarioAmodei #AI安全 #OpenAI #Claude #AI商业化 #MechanisticInterpretability #ConstitutionalAI #AI伦理 #AI治理