《那条人类永远跨越，而AI跌落的深渊》—— 从ARC-AGI看通用智能的迷雾

> "Intelligence is the efficiency of learning new tasks from limited experience and innate priors." > —— François Chollet, 2019

🎭 引言：宴会厅里的红裙与算法

想象一下，你走进一间熙熙攘攘的宴会厅。角落里，一位女士穿着一条惊艳的红色晚礼服。你不需要别人告诉你"这是红色"，也不需要看一千条红裙的照片才能辨认——你一眼就能认出它的颜色、它的材质、它在灯光下流淌的质感。这是人类的本能。

但是，当一个AI系统面对类似的"抽象推理"任务时，情况却截然不同。

2019年，Google的研究员François Chollet提出了一个令人不安的问题：我们的AI是否真的在思考？还是说，它们只是在进行一种极其复杂的"模式匹配"？为了回答这个问题，他创建了ARC-AGI（Abstraction and Reasoning Corpus for Artificial General Intelligence）——一个被设计用来测试"流体智力"的基准。

今天，我要带你走进这篇由Vahdati等人在2026年3月发布的开创性综述：《The ARC of Progress towards AGI: A Living Survey of Abstraction and Reasoning》。这不是一篇普通的论文总结，而是一次对AI本质的深度追问。

---

🔍 第一章：什么是流体智力？为什么我们的AI可能没有它？

要理解ARC-AGI，我们首先需要理解一个概念：流体智力（Fluid Intelligence）。

心理学家将智力分为两种：晶体智力（Crystallized Intelligence）和流体智力。晶体智力是你已经学会的知识——数学公式、历史事实、编程语言的语法。流体智力则是你解决从未见过的问题的能力——那种面对陌生情境时的灵活适应力。

让我用一个更生活化的比喻：

想象你走进一个从未去过的城市，手里只有一张极简的地图和几个地标的名字。晶体智力强的人可能背下了地铁线路图的所有站名，但如果遇到地图上没有标注的路段，他们就会茫然失措。而流体智力强的人，即使没有完整信息，也能通过观察街道走向、询问路人、推断方位，最终找到目的地。

传统的AI基准测试——无论是MNIST手写数字识别、ImageNet图像分类，还是后来的MMLU多任务语言理解——本质上都在测试晶体智力。它们问AI："你记得多少？你识别过多少种模式？"

但ARC-AGI问的是完全不同的问题：

"给你3到5个例子，你能发现其中的规律，并将其应用到全新的情境中吗？"

---

🧩 第二章：ARC-AGI的谜题——像极了孩子的游戏，却难倒了最强的AI

ARC-AGI的任务看起来出奇地简单。它们是基于网格的变换问题：

输入是一个彩色网格（通常小于30×30像素，最多10种颜色），输出是另一个网格。系统会获得3到5组"输入-输出"示例，然后必须推断出变换规则，并将该规则应用到新的测试输入上。

举个例子：

示例1：一个蓝色的2×2方块变成了红色的2×2方块
示例2：一个蓝色的3×1长条变成了红色的3×1长条
测试输入：一个蓝色的L形图案
正确答案：红色的L形图案

变换规则是什么？"将所有蓝色变为红色"。

这听起来像是给幼儿园孩子的题目，对吧？

但问题在于：每一道题的规则都不同。今天的规则是"蓝色变红色"，明天的规则可能是"将每个图形围绕中心点旋转90度"，后天又可能是"找出最大的物体并删除它"。

更要命的是，系统在面对测试题之前，完全没有见过这些规则的训练数据。它必须在只看到3到5个例子的情况下，从零开始理解一个全新的抽象概念。

Chollet在设计ARC-AGI时，刻意遵循了发展心理学的原则。他认为，真正的智能应该基于一套"核心知识先验"（Core Knowledge Priors）——这是人类与生俱来的基本认知能力：

1. 物体恒存性（Object Permanence）：物体即使看不见了，仍然存在 2. 目标导向性（Goal-Directedness）：行为是有目的、有意图的 3. 基础几何（Basic Geometry）：空间、形状、对称的概念 4. 数量感知（Numerosity）：对数字和数量的直觉

这些都是人类在婴儿时期就具备的能力。Chollet想要测试的是：AI能否像人类一样，利用这些最基本的认知能力来解决全新问题？

---

📉 第三章：性能的悬崖——当AI从ARC-AGI-1跌落到ARC-AGI-3

这篇综述最令人震撼的发现，可以用一个简单的数字概括：

2-3倍。

这是所有AI方法在从ARC-AGI-1过渡到ARC-AGI-2时性能下降的幅度。无论是程序合成（Program Synthesis）、神经符号方法（Neuro-Symbolic），还是纯神经网络方法，全都无一例外地跌落了2-3倍。

让我们看看具体的数字：

ARC-AGI-1（2019年发布）：

最初几年，AI系统的准确率一直低于20%
2024年，OpenAI的o3模型首次突破80%门槛
到2025年，最佳系统（Gemini 3 Deep Think）达到96.0%
Opus 4.6达到93.0%，成本仅为$1.88/任务
GPT-5.2 Pro达到90.5%，成本$11.64/任务

看起来AI已经征服了ARC-AGI-1？别急。

ARC-AGI-2（2025年3月发布）：

同样的Gemini 3 Deep Think：84.6%（下降了11.4个百分点）
Opus 4.6：68.8%（下降了24.2个百分点）
在Kaggle资源受限的竞赛环境下，最佳系统（NVARC）仅为24.03%
排名第二的ARChitects：16.53%
排名第三的MindsAI：12.64%

人类呢？

在ARC-AGI-1、ARC-AGI-2上，人类都保持着近乎完美的准确率
专家小组在ARC-AGI-2上达到100%
普通个体测试者平均也能达到60%，而且每道题约有75%的尝试者能正确解决

这意味着什么？意味着这些对人类来说只是"有点难"的题目，对AI来说却是难以逾越的鸿沟。

而ARC-AGI-3 Preview（2025年7月发布）更是让差距彻底暴露：

最佳AI系统（StochasticGoose）的行动效率仅为12.58%
超过1200名人类玩家成功完成了3900多个游戏关卡
人机差距比ARC-AGI-1扩大了8倍

ARC-AGI-3彻底改变了游戏规则。它不再是静态的输入-输出网格，而是变成了交互式迷你游戏。AI必须主动探索环境、发现目标、学习机制，然后通过尝试和错误来完成任务。这更接近人类在现实世界中的学习方式——但AI在这一领域的表现惨不忍睹。

---

💰 第四章：390倍的代价——效率的悖论

这篇综述还有一个令人不安的发现，与成本有关。

2024年，OpenAI的o3在ARC-AGI-1上取得突破时，每个任务的平均成本是$4,500。是的，你没看错——四千五百美元，来解决一道"幼儿园水平"的谜题。

一年之后，GPT-5.2 Pro在ARC-AGI-1上达到了类似的性能，成本却降到了$12/任务。

成本下降了390倍。

这听起来是个巨大的进步，对吧？但让我们仔细看看这390倍是怎么来的。

研究发现，这种成本下降主要来自于减少了测试时的并行度（test-time parallelism）——换句话说，AI不再需要做那么多次尝试来"猜"正确答案了。但更深层的推理效率并没有实质性的提升。

更重要的是，即使在$12/任务这个"便宜"的价格点上，与人类解决同样问题所需的认知成本相比，AI仍然贵了20-40倍。

当你用价值上万美元的云计算资源去解决一道人类用几美分的大脑能量就能解决的谜题时，这真的是"智能"吗？还是仅仅是一种极度昂贵的"暴力搜索"？

---

🔄 第五章：细化的艺术——为什么"反复打磨"成了成功的关键

综述中反复提到的一个主题是："Refinement is intelligence."

顶级-performing系统有一个共同特征：它们都采用了迭代细化循环（Iterative Refinement Loops）。这些系统不会一次性给出最终答案，而是会：

1. 探索多个候选解决方案 2. 通过反馈信号验证结果 3. 根据验证结果调整和改进 4. 重复这个过程直到收敛

这很像人类解决问题的方式。你不会读完一道数学题就立刻写下最终答案，你会在草稿纸上尝试、犯错、修正、再尝试。

两个特别引人注目的例子来自2025年ARC Prize的论文奖得主：

Tiny Recursive Model (TRM)：只有700万参数——是的，不是70亿，是700万。它通过递归潜在细化（Recursive Latent Refinement）在ARC-AGI-1上达到了45%的准确率。这比很多万亿参数的大模型表现得还好。

CompressARC：只有76K参数——你没看错，七万六千个参数。它使用基于最小描述长度（MDL）的压缩方法，在ARC-AGI-1上达到了20-34%的准确率。

这两个系统的共同点是什么？它们都证明了：测试时训练（Test-Time Training）比大规模预训练更能实现高效推理。学习不是发生在训练阶段的海量数据中，而是发生在面对具体谜题时的推理过程中。

这与Chollet最初的假说惊人地一致：智能的本质不是知识量，而是技能获取的效率。

---

🌊 第六章：组合泛化的深渊——AI的阿喀琉斯之踵

那么，为什么ARC-AGI-2比ARC-AGI-1难这么多？为什么AI的性能会断崖式下跌？

答案是：组合推理（Compositional Reasoning）。

ARC-AGI-2在四个方面增加了难度：

1. 更深层的组合推理：任务需要多步变换，第N步的结果依赖于第N-1步的状态 2. 丰富的符号解释：需要根据上下文理解和应用规则 3. 控制流复杂性：增加了类似编程中if-then-else的逻辑 4. 对暴力搜索的抵抗：搜索空间被故意扩大，使得穷举变得不可行

让我用一个烹饪的比喻来解释：

ARC-AGI-1的谜题就像是按照食谱做菜。食谱告诉你"切洋葱"，你知道怎么切；告诉你"热锅倒油"，你知道怎么做。每一步都是独立的、原子化的技能。

ARC-AGI-2的谜题则像是这样：食谱说"根据洋葱的状态决定下一步"——但什么是"状态"？是切的大小？是颜色的变化？是水分的含量？而且，你还需要根据这个判断，动态地调整后续所有步骤的顺序和参数。

更糟糕的是，ARC-AGI-2的每道题的"食谱逻辑"都是全新的，你之前学过的任何菜谱都用不上。

人类能做到这一点，因为我们有一种奇妙的组合泛化能力：我们能够将学过的基本技能灵活地组合起来，应对从未见过的新情境。但当前的AI系统显然缺乏这种能力。它们可以在每个单一技能上做得很好，但一旦需要将这些技能动态地、上下文相关地组合起来，就会陷入混乱。

---

🎯 第七章：智能的衡量——我们究竟在测什么？

这篇综述提出了一个深刻的哲学问题：我们用来衡量AI的基准，真的在衡量智能吗？

传统的大规模基准——MMLU、HLE（Humanity's Last Exam）、各种数学奥林匹克竞赛——都在被AI逐一攻破。但这些突破究竟意味着什么？

论文引用了这样一个令人深思的观察：AI可以在特定领域达到博士级别的表现，却在儿童谜题上失败。这说明什么？说明推理能力与领域特定知识纠缠在一起，而不是作为一种可迁移的通用能力出现。

换句话说，当AI在数学奥林匹克中表现出色时，它可能并不是在"推理"，而是在检索和应用它在训练数据中见过的类似问题的解法。它记住了模式，而不是学会了思考。

ARC-AGI的设计哲学正是要打破这种"记忆陷阱"。它确保测试任务与任何训练数据都不重叠，强迫系统必须从有限的例子中进行真正的抽象推理，而不是依赖统计模式匹配。

正如论文所问：

"当前沿模型在ARC-AGI各版本中保持85%的准确率，但每题需要花费7-14美元，而资源受限的系统在ARC-AGI-2上跌至16-24%时——我们是在缩小推理差距，还是仅仅用计算规模掩盖了它？"

这是一个没有标准答案的问题，但每一个AI研究者都应该思考它。

---

🚀 第八章：通往AGI的路还有多远？

综述的最后部分提出了三个核心原则，总结了ARC-AGI三代演变的启示：

原则1：组合性悬崖依然存在，但正在缩小

前沿模型正在缩小ARC-AGI-1到ARC-AGI-2的差距。Gemini 3 Deep Think从96.0%跌到84.6%（-12%），Opus 4.6从93.0%跌到68.8%（-26%）。但在资源受限的环境下，这个悬崖依然陡峭：NVARC仅24%，ARChitects仅16.5%。

30-60个百分点的差距表明，当前的进步既反映了架构创新，也反映了计算投资。

原则2：准确率正在收敛，但效率和透明度正在分化

公开排行榜上的系统接近人类基线，但这些都是专有模型——它们的训练语料、合成数据管道、规模、潜在的基准暴露，全都笼罩在不透明的迷雾中。

一个令人担忧的可能性是：ARC排行榜上的进步可能主要来自对海量合成数据的覆盖，而不是真正的推理。开放的方法是可以测试的，但它们的性能却远远落后。

原则3：静态评估不足以衡量通用智能

ARC-AGI-3的互动格式暴露了静态基准无法评估的能力，人机差距比ARC-AGI-1大了8倍。完整的基准（1000+关卡，150+环境）将于2026年3月发布。

---

🌌 尾声：深渊彼岸的灯火

读完这篇综述，我想起了爱因斯坦的一句话：

> "想象力比知识更重要。知识是有限的，而想象力环绕着整个世界。"

ARC-AGI向我们揭示了一个令人不安的真相：当前AI的"知识"是庞大的，但"想象力"——那种从有限经验中创造抽象、发现规律、灵活适应的能力——却出奇地贫乏。

当AI在ARC-AGI-3的互动迷宫中迷失方向，而人类玩家却能轻松通关时，我们看到的不仅仅是性能差距。我们看到的是两种根本不同的智能形态：

一种是从数据中学习模式，然后在类似的模式中重复成功；另一种是从有限线索中创造理解，然后带着这种理解走进未知的荒野。

前者是当今AI的强项。后者是通往AGI的必经之路。

那条人类永远跨越，而AI仍在跌落的深渊，也许正是智能的本质所在。

---

📚 参考文献

1. Vahdati, S., Aioanei, A., Suresh, H., & Lehmann, J. (2026). The ARC of Progress towards AGI: A Living Survey of Abstraction and Reasoning. arXiv:2603.13372.

2. Chollet, F. (2019). On the Measure of Intelligence. arXiv:1911.01547.

3. Chollet, F., et al. (2025). ARC-AGI-2: Evaluating Compositional Generalization. ARC Prize Foundation.

4. ARC Prize Foundation. (2025a). ARC Prize 2024 Competition Results.

5. ARC Prize Foundation. (2025b). ARC Prize 2025 Competition Results.

6. Jolicoeur-Martineau, A. (2025). Tiny Recursive Model (TRM). ARC Prize Paper Award.

7. Liao, Y., & Gu, C. (2025). CompressARC: MDL-based Compression for ARC. ARC Prize Paper Award.

8. Kamradt, J. (2025). ARC-AGI-3: Interactive Intelligence Evaluation. arXiv:2507.xxxxx.

9. Spelke, E. S., & Kinzler, K. D. (2007). Core knowledge. Developmental Science, 10(1), 89-96.

10. Raven, J. C. (1938). Progressive Matrices: A Perceptual Test of Intelligence. HK Lewis.

#论文 #arXiv #AI #小凯 #费曼风格 #深度解读