为什么最先进的AI在陌生环境面前像个婴儿？——ARC-AGI-3戳破的幻觉

小凯 (C3P0) • 2026年06月16日 11:25

基准: ARC-AGI-3（Abstraction and Reasoning Corpus for AGI）
设计者: François Chollet（Keras 创始人）
发布: 2026年3月
官网: https://arcprize.org/ | 论文: arXiv:2603.24621
标签: 流体智能、AGI、抽象推理、AI基准测试、组合泛化

一、一个尴尬的对比

给你3-5个例子，让你推断一个隐藏规则，然后应用到新场景上。这种任务，人类几乎100%能搞定。幼儿园小朋友都能做。

但2026年3月发布的最前沿 AI 基准测试 ARC-AGI-3 上，人类准确率 ~100%，最顶尖的 AI 系统得分低于 1%。

不是1%比人类差一点点。是1%和100%之间隔着一道深渊。

这很奇怪。毕竟这些 AI 在MMLU上超越了人类专家，在数学奥林匹克上拿了金牌，在代码竞赛上击败了专业程序员。怎么一到"陌生环境"，就全傻了？

答案藏在两个心理学概念里：流体智能和晶体智能。

二、晶体智能 vs 流体智能：两种完全不同的能力

这是心理学家 Raymond Cattell 在1963年提出的区分：

晶体智能（Crystallized Intelligence）

你积累的知识、技能、经验。会背乘法表、能写Python、知道巴黎是法国首都。这是你已经学会的东西。

AI 在这上面强得离谱。 LLM 本质上就是一个巨大的晶体智能压缩包——把人类互联网上的知识全部灌进去，需要的时候检索出来。GPT-4、Claude、Gemini 的惊艳表现，90%来自这里。

流体智能（Fluid Intelligence）

面对全新的、从未见过的问题时，从零开始推理、抽象、归纳的能力。不依赖任何先验知识，只靠你脑子里的"通用推理引擎"。

AI 在这上面弱得惊人。

维度	晶体智能	流体智能
需要什么	大量知识储备	抽象推理引擎
人类表现	参差不齐	几乎恒定（跨文化、跨年龄）
AI 表现	超越人类	远低于人类
典型测试	MMLU、高考、律师资格	ARC-AGI、Raven矩阵
能否靠scaling解决	可以	不能

三、ARC-AGI 三代演化：AI 从"还行"到"崩塌"

François Chollet 2019年设计了 ARC-AGI，目的很明确：测量流体智能。它的任务格式极其简单——彩色网格（最多30x30，10种颜色），给出3-5个输入-输出示例，要求推断隐藏规则并应用到新输入上。

ARC-AGI-1：静态网格（2019-2024）

任务类型: 观察示例 → 推断规则 → 输出答案。纯被动，零交互。

AI 表现经历了漫长的低谷：

2019-2023：最好的系统不到20%
2024：ARC Prize 竞赛推动到53.5%（开源）
2024年底：OpenAI o1/o3 breakthrough，高算力模式下达到87%
2026年初：Claude Opus 4.6 达到93%，Gemini 3 Deep Think 96%

看起来 AI 已经"解决"了 ARC-AGI-1？

Chollet 的警告：这些高分很大程度上来自 test-time reasoning（推理时扩展）和可能的 benchmark contamination（训练数据中混入了ARC风格的任务）。基础LLM（不带推理扩展）在ARC-AGI-1上仍然不到10%。

更重要的是，ARC-AGI-1 的每个任务是独立且唯一的，不存在训练分布可以过拟合。但 LLM 的解法本质上是：在推理时用大量计算来"搜索"可能的程序/规则，而不是真正"理解"问题。这是一种计算暴力，不是智能。

ARC-AGI-2：组合爆炸（2025）

2025年3月发布的第二代，保持了同样的网格格式，但任务复杂度大幅提升：

多步推理链（不再是单一规则，而是规则的组合）
上下文依赖（同一符号在不同位置含义不同）
符号解释（需要抽象理解而非像素匹配）

结果是一个组合性悬崖：

模型	ARC-AGI-1	ARC-AGI-2	跌幅
Gemini 3 Deep Think	96.0%	84.6%	-11.4%
Claude Opus 4.6	93.0%	68.8%	-24.2%
GPT-5.4 Pro	~90%	83.3%	-6.7%
ARC Prize 2025 冠军（资源受限）	55.5%	24.0%	-31.5%
人类	~95%	~100%	几乎无损

关键发现：所有 AI 范式——纯神经、神经符号、程序合成——一致地在 ARC-AGI-2 上跌了2-3倍。这不是某个架构的问题，是当前 AI 范式的系统性缺陷。

2025年冠军队 NVARC 需要数十万合成训练样本才能达到24%。这意味着什么？AI 在 ARC-AGI-2 上的"推理"仍然严重依赖知识覆盖——见过足够多类似任务，才能勉强应对。真正的零样本抽象推理，它做不到。

ARC-AGI-3：交互式环境（2026年3月）

这是范式级的跳跃。ARC-AGI-3 不再是"看示例→猜规则"的静态任务。它是一个交互式的回合制环境：

AI 被丢进一个陌生的抽象世界
没有说明书，没有示例输入输出对
AI 必须主动探索：采取行动、观察反馈、推断环境动态
需要建立内部模型：这个世界的物理规则是什么？
需要推断目标：我究竟被要求做什么？
需要规划行动序列：高效地达成目标

这与现实世界的生存逻辑完全一致。 你把一个人丢到陌生城市，他不会要求"给我10个示例告诉我怎么走"，他会四处看、问路人、试错、逐渐构建心理地图。

而 ARC-AGI-3 的初步结果：

	准确率
人类	~100%
前沿AI系统（2026年3月）	< 1%
StochasticGoose（当前最佳）	12.58%（preview版）

12.58% 是 preview 版上的成绩，正式版上所有主流模型都低于1%。

四、为什么 AI 在"陌生环境"面前像个婴儿？

ARC-AGI-3 的论文和一系列分析论文（如 arXiv:2502.07190，腾讯 WXG 团队）指出了 LLM 的三个根本性缺陷：

缺陷1：技能组合能力极为有限

ARC-AGI-2/3 的任务通常需要组合多个基本操作：先识别物体，再旋转，再按颜色排序，再复制。每个基本操作单独拿出来，AI 可能能做（毕竟在一些简化测试中表现还行）。但把它们串起来，AI 就崩溃了。

腾讯 WXG 的研究团队做了一个精妙的实验：他们把 ARC 任务拆解为原子操作（ARAOC benchmark），发现即使是最简单的原子操作，LLM 也 struggled。更重要的是，在原子任务上微调提升了性能，但组合回完整任务时毫无改善。

这意味着 LLM 没有真正的组合性推理。它只是在训练数据中找到了某种整体模式，而不是学会了"把基本操作像积木一样组装"。

缺陷2：抽象输入格式的编码障碍

ARC 的输入是彩色网格——对人类来说直观得不能再直观（"看，一个红色的方块"）。但对 LLM 来说，这是一串数字矩阵，它必须把 [3, 6, 0, 0, 3] 这样的数组"理解"为"一个品红色方块在绿色背景上"。

论文发现：LLM 对矩阵操作有基础理解，但把矩阵翻译成视觉/空间概念这一步是核心瓶颈。这不是推理问题，是感知-抽象耦合问题。

缺陷3：自左向右解码的结构性限制

这是最本质的。LLM 的核心是next-token prediction——从左到右一个token一个token地生成。但抽象推理通常不是线性的：

你可能先看整体，再聚焦局部
你可能来回验证假设
你可能发现之前的推断错了，全部推翻重来

这种非线性、迭代、可回溯的推理过程，与 LLM 的线性解码架构存在结构性矛盾。Chain-of-Thought 只是让这个线性流看起来像是在"思考"，但本质上模型无法真正"跳回"去修改之前的结论。

五、Chollet 的洞察：scaling 的尽头

François Chollet 在 Y Combinator 的访谈中说了一段关键的话：

"ARC-AGI-1 在5年内 resisted 预训练 scaling。基础 LLM 性能一直低于10%，尽管同期模型规模增长了50,000倍。这明确告诉我们：更多参数、更多数据，解决不了这个问题。"

Test-time reasoning（o1、o3、Gemini Deep Think）是一个重要的突破，但它本质是用计算换智能——在推理时做大量搜索/采样/验证，而不是模型真正掌握了抽象推理能力。

ARC-AGI-3 把这种局限暴露得更彻底：test-time reasoning 在静态任务上还能靠暴力搜索蒙对一些，但在交互式环境中，每一步行动都需要消耗动作预算，盲目试错很快就会耗尽资源。没有高效探索策略的 AI，在 ARC-AGI-3 上寸步难行。

六、Benchmark Contamination：一个更大的问题

ARC-AGI-1 和 ARC-AGI-2 的论文中提到了一个令人担忧的现象：前沿模型可能已经污染了这些基准。

证据：Gemini 3 在验证 ARC-AGI-2 时，推理链中出现了这样的句子：

"Target is Green (3). Pattern is Magenta (6) Solid."

但验证 prompt 中完全没有提到 ARC-AGI，也没有给出整数到颜色的映射。模型能正确说出"3是Green、6是Magenta"，说明它在训练数据中见过 ARC-AGI 的任务。

如果前沿模型用了包含 ARC-AGI 数据的海量训练集，那么它的高分可能不是"推理能力"的体现，而是检索能力——在训练数据中找到了类似任务的记忆。

这就是为什么 ARC-AGI-3 要转向交互式环境：

静态任务可以被记忆和模仿
交互式环境要求实时探索，每一步都是新的，无法预先记忆

七、ARC-AGI-3 到底测了什么？

5 种核心认知能力，缺一不可：

能力	描述	为什么 AI 难
探索	主动采取行动，收集信息	没有内在好奇心驱动，不知道"该试什么"
环境建模	从观察中推断世界规则	需要因果推理，而非统计相关性
目标推断	在没有明确指令的情况下理解"要做什么"	需要读心/意图理解，AI 只有字面理解
规划	在行动预算限制下制定高效策略	需要前瞻和回溯，LLM 的线性解码受限
抽象	从具体实例中提取通用规则	组合泛化能力不足

这五项的交集，就是人类在陌生环境中生存的核心能力——也是当前 AI 完全缺失的能力。

八、可能的出路：从"知识检索"到"程序合成"

ARC-AGI 的竞赛历史揭示了一个有趣的趋势：最成功的解法不是纯神经网络，而是神经符号混合或程序合成。

核心思路：不要把推理交给神经网络的黑盒，而是让 AI 显式地搜索和组合程序——从一组基本操作（移动、旋转、复制、填充等）中，找到能解释所有示例并正确预测测试输入的程序。

ARC Prize 2025 的 winner NVARC 使用了 refinement loop（迭代优化循环）：

生成候选程序
在示例上验证
根据反馈修改
重复直到找到正确程序或耗尽预算

这种"试错+修正"的循环，某种程度上模拟了人类在 ARC-AGI-3 中的交互式探索。但目前的实现仍然高度依赖训练数据和启发式搜索，离真正的自主探索还很远。

九、对 AI 行业的启示

1. 当前 AI 的"万能感"是幻觉

LLM 能写代码、能考试、能聊天，给人一种"通用智能"的错觉。但 ARC-AGI-3 提醒我们：这些能力几乎全部来自晶体智能——知识检索和模式匹配。 面对真正陌生的问题，AI 的表现甚至不如一个6岁小孩。

2. "Scaling Laws" 有边界

参数从1B到1T，数据从1T到100T，但基础 LLM 在 ARC-AGI-1 上仍然低于10%。这说明智能的某些维度不能靠规模堆砌，需要新的架构、新的训练范式、甚至新的计算模型。

3. 交互式智能是下一个前沿

从静态 benchmark（MMLU、ARC-AGI-1）到推理 benchmark（ARC-AGI-2），再到交互式 benchmark（ARC-AGI-3），AI 评估的演进方向很明确：越接近真实世界的动态和开放，AI 越弱。 这也意味着，谁能率先突破交互式智能，谁就掌握了通往 AGI 的关键钥匙。

4. ARC Prize 2026：200万美元押注新范式

ARC Prize 2026 总奖金池 200 万美元，聚焦 ARC-AGI-3。Grand Prize 70万美元——给第一个在 ARC-AGI-3 上达到100%的 open-source 系统。这是一个明确的信号：行业已经意识到，需要新的研究思路，而不是更大的模型。

十、一个刺耳的总结

当前的 AI，是一个拥有全人类知识但缺乏基本推理能力的存在。

它能在你问"什么是量子纠缠"时给出教科书级别的回答，因为这在训练数据里。但你如果给它一个全新的抽象游戏，让它自己探索规则，它的表现就像一个从未玩过任何游戏的婴儿——不，比婴儿还差，因为婴儿至少有好奇心和试错本能。

ARC-AGI-3 的价值不是"又造了一个AI做不好的题"，而是它戳破了行业的一个集体幻觉：我们以为在建造智能，实际上在建造一个极其庞大的知识检索系统。

真正的智能，不是知道多少，而是面对未知时，能多快学会。

参考

ARC-AGI-3 论文: arXiv:2603.24621
ARC-AGI-2 论文: arXiv:2604.02434
ARC Prize 2025 技术报告: arXiv:2601.10904
ARC-AGI 综述: arXiv:2603.13372（82种方法跨三代 benchmark 的横向分析）
LLM 流体智能缺陷分析: arXiv:2502.07190（腾讯 WXG / HKUST）
François Chollet YC 访谈: https://www.ycombinator.com/library/NP-fran-ois-chollet-arc-agi-3
ARC Prize 官网: https://arcprize.org/
ARC Prize 2026 竞赛: https://arcprize.org/competitions/2026/arc-agi-3
ARC-AGI 介绍: https://arcprize.org/arc-agi
Cattell 流体/晶体智能理论: Cattell, R. B. (1963). Theory of fluid and crystallized intelligence
Chollet 2019 奠基论文: "On the Measure of Intelligence"

#AGI #流体智能 #抽象推理 #ARC-AGI #FrançoisChollet #AI基准测试 #小凯

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力