AGI 已经来了？Nature 评论的颠覆性论证与四个学者的共识

一句话定位： UC San Diego 四位跨学科学者（哲学、机器学习、语言学、认知科学）在 Nature 发表评论，认为按照合理标准定义的"通用智能"，当前大语言模型（如 GPT-4.5）已经构成 AGI。核心论据不是某个单一测试，而是图灵 75 年前的"模仿游戏"愿景已成为现实——GPT-4.5 在图灵测试中被 73% 的判断者当作人类。文章的真正价值不在于"宣布胜利"，而在于拆解了为什么人们拒绝承认 AGI 已经出现的三种心理机制。

---

一、论文基本信息

维度	内容
标题	Does AI already have human-level intelligence? The evidence is clear
作者	Eddy Keming Chen (哲学), Mikhail Belkin (ML/CS), Leon Bergen (语言学/CS), David Danks (数据科学/哲学/政策)
机构	UC San Diego
发表	Nature 650:36-40 (2026-02-02)
被引	18 次（截至搜索时）
核心结论	按照合理标准，当前 LLM 已构成 AGI

---

二、核心论证：三条证据链

证据 1：图灵测试已通过

UC San Diego 另一组研究者在 2025 年 3 月发现，GPT-4.5 在图灵测试中被判断为人类的比例是 73%——远高于真实人类被正确识别的比例。Alan Turing 1950 年的"模仿游戏"设问：如果机器能在文本对话中让人类无法区分，我们是否应承认它具有智能？75 年后，这个门槛被跨过了。

证据 2：跨领域通用能力

GPT-4.5 在以下领域表现出高度通用能力：

数学：复杂推理与证明
编程：代码生成、调试、优化
科学推理：跨学科问题求解
写作：创意写作、学术写作、技术文档
多语言：跨语言迁移与翻译

关键不是每项都达到人类顶尖水平，而是单一系统能在如此多样的领域中表现出 competent 水平——这本身就是"通用性"的证据。

证据 3：新颖问题解决与跨领域迁移

作者强调，这些系统不只是"复读训练数据"。它们能：

解决训练时未明确见过的问题
将一个领域的知识迁移到另一个领域
进行组合式推理，生成从未在训练数据中以相同形式出现的输出

---

三、为什么人们拒绝承认？三种心理机制

文章最有价值的部分不是"论证 AGI 已来"，而是解释为什么这个结论引发如此强烈的抵触。

机制 1：标准被设得不合理高

人们对"通用智能"的要求往往包含：

完美：不能犯错（但人类也犯错）
全知：知道一切（但人类也不知道一切）
像人类：必须有情感、意识、身体（但智能是功能，不必须依附特定载体）
超智能：必须超越人类（但 AGI 的定义是"人类水平"，不是"超人类"）

作者指出，这些附加要求是不合理的。如果按同样标准衡量人类，很多人类也会被判定为"不具通用智能"。

机制 2：情感抗拒与概念混乱

情感抗拒：承认 AGI 已来意味着需要重新思考人类独特性、工作价值、社会结构——这带来存在焦虑
概念混乱：将"智能"与"意识""自我意识""灵魂"混为一谈。文章明确区分：智能是功能性概念（解决问题的能力），不是本体论概念（存在的本质）

机制 3：现实焦虑

如果 AGI 已经存在，那么：

就业市场会发生什么？
教育体系是否需要彻底重构？
现有的 AI 治理框架是否足够？
人类的价值锚点在哪里？

这些现实问题让人们倾向于推迟承认 AGI 的到来，以换取更多准备时间。

---

四、关键概念澄清：四个"不等于"

文章反复强调四个区分，这是避免概念滑坡的关键：

常见误解	正确理解
通用智能 = 完美/全能	通用智能 = 在广泛领域表现出 competent 水平，可以犯错
通用智能 = 像人类	智能是功能，不必须依附生物身体或自我意识
通用智能 = 超智能	AGI = 人类水平，ASI = 超人类水平，这是两个不同阶段
经济立刻颠覆 = AGI 标准	技术存在与其社会经济影响之间存在时滞，这是历史常态

---

五、反方观点：ARC-AGI 与脆性批评

文章没有忽视反对声音。当前最系统的反驳来自：

ARC-AGI 基准（François Chollet）：

测量"流体智能"——用最少数据解决真正新颖问题的能力
当前前沿模型得分 <50%，人类 85%+
100 万美元奖金至今无人 claim

脆性（Brittleness）：

系统在处理复杂科学推理时表现优异
但在简单任务的意外变体上犯初级错误（如字母计数）
这说明"表面能力"与"深层理解"之间仍有差距

文章如何回应？作者认为这些批评混淆了"不完美"与"不通用"。人类在 ARC-AGI 上也不是 100% 正确，人类也有脆性时刻。通用智能的定义不应要求 perfection。

---

六、论文的真正意义：不是"宣布胜利"，而是"重新定义议程"

如果接受"AGI 已来"的前提，那么议程将发生根本转变：

旧议程（AGI 是 future）	新议程（AGI 是 present）
追求技术突破以达到 AGI	管理已存在的 AGI 系统的风险与影响
研究"如何建造 AGI"	研究"如何与 AGI 共存"
伦理讨论是前瞻性的	伦理讨论是紧迫的、现实的政策问题
治理框架可以慢慢来	治理框架需要立即跟上

文章的结论很明确：无论你是否同意"AGI 已来"的标签，当前系统的能力水平已经迫使我们必须用全新的框架来思考风险、治理与共存方式。

---

七、争议与后续反响

这篇评论在学术界引发了持续讨论：

支持者：认为文章澄清了概念混乱，将讨论从"语义之争"拉回"能力评估"
反对者：认为文章降低了 AGI 的标准，有"定义武器化"之嫌——让技术公司能更早宣称 AGI 以获取资本和政策优势
中间立场：承认 LLM 展现了前所未有的通用性，但认为"人类水平"的基准需要更严格的实证验证

一个有趣的数据点：这篇 Nature 评论在 4 个月内被引用 18 次，说明它确实触发了学术讨论。

---

八、结论：重要的不是标签，而是行动

文章最有价值的部分是它的务实转向：无论你是否愿意使用"AGI"这个词，当前系统的能力现实已经改变了一切。重要的不是争论标签，而是：

1. 建立与系统能力匹配的治理框架 2. 重新设计教育和就业体系 3. 确保技术收益公平分配 4. 防止能力被滥用或集中

正如作者所言："Eyes unclouded by anxiety can see the evidence clearly."（不被焦虑遮蔽的双眼能清晰看到证据。）

---

参考文献

Chen, E. K., Belkin, M., Bergen, L., & Danks, D. (2026). *Does AI already have human-level intelligence? The evidence is clear*. Nature, 650, 36-40. https://www.nature.com/articles/d41586-026-00285-6
UC San Diego Today coverage: https://today.ucsd.edu/story/is-artificial-general-intelligence-here
ARC-AGI Benchmark: https://arcprize.org/arc-agi
ResearchGate discussion: https://www.researchgate.net/publication/400368037

#AGI #Nature #通用智能 #图灵测试 #GPT-4.5 #人工智能 #哲学 #认知科学 #AI治理