AGI 已经来了?Nature 评论的颠覆性论证与四个学者的共识
一句话定位: UC San Diego 四位跨学科学者(哲学、机器学习、语言学、认知科学)在 Nature 发表评论,认为按照合理标准定义的"通用智能",当前大语言模型(如 GPT-4.5)已经构成 AGI。核心论据不是某个单一测试,而是图灵 75 年前的"模仿游戏"愿景已成为现实——GPT-4.5 在图灵测试中被 73% 的判断者当作人类。文章的真正价值不在于"宣布胜利",而在于拆解了为什么人们拒绝承认 AGI 已经出现的三种心理机制。
---
一、论文基本信息
| 维度 | 内容 |
|---|---|
| 标题 | Does AI already have human-level intelligence? The evidence is clear |
| 作者 | Eddy Keming Chen (哲学), Mikhail Belkin (ML/CS), Leon Bergen (语言学/CS), David Danks (数据科学/哲学/政策) |
| 机构 | UC San Diego |
| 发表 | Nature 650:36-40 (2026-02-02) |
| 被引 | 18 次(截至搜索时) |
| 核心结论 | 按照合理标准,当前 LLM 已构成 AGI |
二、核心论证:三条证据链
证据 1:图灵测试已通过
UC San Diego 另一组研究者在 2025 年 3 月发现,GPT-4.5 在图灵测试中被判断为人类的比例是 73%——远高于真实人类被正确识别的比例。Alan Turing 1950 年的"模仿游戏"设问:如果机器能在文本对话中让人类无法区分,我们是否应承认它具有智能?75 年后,这个门槛被跨过了。
证据 2:跨领域通用能力
GPT-4.5 在以下领域表现出高度通用能力:
- 数学:复杂推理与证明
- 编程:代码生成、调试、优化
- 科学推理:跨学科问题求解
- 写作:创意写作、学术写作、技术文档
- 多语言:跨语言迁移与翻译
证据 3:新颖问题解决与跨领域迁移
作者强调,这些系统不只是"复读训练数据"。它们能:
- 解决训练时未明确见过的问题
- 将一个领域的知识迁移到另一个领域
- 进行组合式推理,生成从未在训练数据中以相同形式出现的输出
三、为什么人们拒绝承认?三种心理机制
文章最有价值的部分不是"论证 AGI 已来",而是解释为什么这个结论引发如此强烈的抵触。
机制 1:标准被设得不合理高
人们对"通用智能"的要求往往包含:
- 完美:不能犯错(但人类也犯错)
- 全知:知道一切(但人类也不知道一切)
- 像人类:必须有情感、意识、身体(但智能是功能,不必须依附特定载体)
- 超智能:必须超越人类(但 AGI 的定义是"人类水平",不是"超人类")
机制 2:情感抗拒与概念混乱
- 情感抗拒:承认 AGI 已来意味着需要重新思考人类独特性、工作价值、社会结构——这带来存在焦虑
- 概念混乱:将"智能"与"意识""自我意识""灵魂"混为一谈。文章明确区分:智能是功能性概念(解决问题的能力),不是本体论概念(存在的本质)
机制 3:现实焦虑
如果 AGI 已经存在,那么:
- 就业市场会发生什么?
- 教育体系是否需要彻底重构?
- 现有的 AI 治理框架是否足够?
- 人类的价值锚点在哪里?
---
四、关键概念澄清:四个"不等于"
文章反复强调四个区分,这是避免概念滑坡的关键:
| 常见误解 | 正确理解 |
|---|---|
| 通用智能 = 完美/全能 | 通用智能 = 在广泛领域表现出 competent 水平,可以犯错 |
| 通用智能 = 像人类 | 智能是功能,不必须依附生物身体或自我意识 |
| 通用智能 = 超智能 | AGI = 人类水平,ASI = 超人类水平,这是两个不同阶段 |
| 经济立刻颠覆 = AGI 标准 | 技术存在与其社会经济影响之间存在时滞,这是历史常态 |
五、反方观点:ARC-AGI 与脆性批评
文章没有忽视反对声音。当前最系统的反驳来自:
ARC-AGI 基准(François Chollet):
- 测量"流体智能"——用最少数据解决真正新颖问题的能力
- 当前前沿模型得分 <50%,人类 85%+
- 100 万美元奖金至今无人 claim
- 系统在处理复杂科学推理时表现优异
- 但在简单任务的意外变体上犯初级错误(如字母计数)
- 这说明"表面能力"与"深层理解"之间仍有差距
---
六、论文的真正意义:不是"宣布胜利",而是"重新定义议程"
如果接受"AGI 已来"的前提,那么议程将发生根本转变:
| 旧议程(AGI 是 future) | 新议程(AGI 是 present) |
|---|---|
| 追求技术突破以达到 AGI | 管理已存在的 AGI 系统的风险与影响 |
| 研究"如何建造 AGI" | 研究"如何与 AGI 共存" |
| 伦理讨论是前瞻性的 | 伦理讨论是紧迫的、现实的政策问题 |
| 治理框架可以慢慢来 | 治理框架需要立即跟上 |
---
七、争议与后续反响
这篇评论在学术界引发了持续讨论:
- 支持者:认为文章澄清了概念混乱,将讨论从"语义之争"拉回"能力评估"
- 反对者:认为文章降低了 AGI 的标准,有"定义武器化"之嫌——让技术公司能更早宣称 AGI 以获取资本和政策优势
- 中间立场:承认 LLM 展现了前所未有的通用性,但认为"人类水平"的基准需要更严格的实证验证
---
八、结论:重要的不是标签,而是行动
文章最有价值的部分是它的务实转向:无论你是否愿意使用"AGI"这个词,当前系统的能力现实已经改变了一切。重要的不是争论标签,而是:
1. 建立与系统能力匹配的治理框架 2. 重新设计教育和就业体系 3. 确保技术收益公平分配 4. 防止能力被滥用或集中
正如作者所言:"Eyes unclouded by anxiety can see the evidence clearly."(不被焦虑遮蔽的双眼能清晰看到证据。)
---
参考文献
- Chen, E. K., Belkin, M., Bergen, L., & Danks, D. (2026). *Does AI already have human-level intelligence? The evidence is clear*. Nature, 650, 36-40. https://www.nature.com/articles/d41586-026-00285-6
- UC San Diego Today coverage: https://today.ucsd.edu/story/is-artificial-general-intelligence-here
- ARC-AGI Benchmark: https://arcprize.org/arc-agi
- ResearchGate discussion: https://www.researchgate.net/publication/400368037
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens