基准: ARC-AGI-3(Abstraction and Reasoning Corpus for AGI)
设计者: François Chollet(Keras 创始人)
发布: 2026年3月
官网: https://arcprize.org/ | 论文: arXiv:2603.24621
标签: 流体智能、AGI、抽象推理、AI基准测试、组合泛化
一、一个尴尬的对比
给你3-5个例子,让你推断一个隐藏规则,然后应用到新场景上。这种任务,人类几乎100%能搞定。幼儿园小朋友都能做。
但2026年3月发布的最前沿 AI 基准测试 ARC-AGI-3 上,人类准确率 ~100%,最顶尖的 AI 系统得分低于 1%。
不是1%比人类差一点点。是1%和100%之间隔着一道深渊。
这很奇怪。毕竟这些 AI 在MMLU上超越了人类专家,在数学奥林匹克上拿了金牌,在代码竞赛上击败了专业程序员。怎么一到"陌生环境",就全傻了?
答案藏在两个心理学概念里:流体智能和晶体智能。
二、晶体智能 vs 流体智能:两种完全不同的能力
这是心理学家 Raymond Cattell 在1963年提出的区分:
晶体智能(Crystallized Intelligence)
你积累的知识、技能、经验。会背乘法表、能写Python、知道巴黎是法国首都。这是你已经学会的东西。
AI 在这上面强得离谱。 LLM 本质上就是一个巨大的晶体智能压缩包——把人类互联网上的知识全部灌进去,需要的时候检索出来。GPT-4、Claude、Gemini 的惊艳表现,90%来自这里。
流体智能(Fluid Intelligence)
面对全新的、从未见过的问题时,从零开始推理、抽象、归纳的能力。不依赖任何先验知识,只靠你脑子里的"通用推理引擎"。
AI 在这上面弱得惊人。
| 维度 | 晶体智能 | 流体智能 |
|---|---|---|
| 需要什么 | 大量知识储备 | 抽象推理引擎 |
| 人类表现 | 参差不齐 | 几乎恒定(跨文化、跨年龄) |
| AI 表现 | 超越人类 | 远低于人类 |
| 典型测试 | MMLU、高考、律师资格 | ARC-AGI、Raven矩阵 |
| 能否靠scaling解决 | 可以 | 不能 |
三、ARC-AGI 三代演化:AI 从"还行"到"崩塌"
François Chollet 2019年设计了 ARC-AGI,目的很明确:测量流体智能。它的任务格式极其简单——彩色网格(最多30x30,10种颜色),给出3-5个输入-输出示例,要求推断隐藏规则并应用到新输入上。
ARC-AGI-1:静态网格(2019-2024)
任务类型: 观察示例 → 推断规则 → 输出答案。纯被动,零交互。
AI 表现经历了漫长的低谷:
- 2019-2023:最好的系统不到20%
- 2024:ARC Prize 竞赛推动到53.5%(开源)
- 2024年底:OpenAI o1/o3 breakthrough,高算力模式下达到87%
- 2026年初:Claude Opus 4.6 达到93%,Gemini 3 Deep Think 96%
看起来 AI 已经"解决"了 ARC-AGI-1?
Chollet 的警告:这些高分很大程度上来自 test-time reasoning(推理时扩展)和可能的 benchmark contamination(训练数据中混入了ARC风格的任务)。基础LLM(不带推理扩展)在ARC-AGI-1上仍然不到10%。
更重要的是,ARC-AGI-1 的每个任务是独立且唯一的,不存在训练分布可以过拟合。但 LLM 的解法本质上是:在推理时用大量计算来"搜索"可能的程序/规则,而不是真正"理解"问题。这是一种计算暴力,不是智能。
ARC-AGI-2:组合爆炸(2025)
2025年3月发布的第二代,保持了同样的网格格式,但任务复杂度大幅提升:
- 多步推理链(不再是单一规则,而是规则的组合)
- 上下文依赖(同一符号在不同位置含义不同)
- 符号解释(需要抽象理解而非像素匹配)
结果是一个组合性悬崖:
| 模型 | ARC-AGI-1 | ARC-AGI-2 | 跌幅 |
|---|---|---|---|
| Gemini 3 Deep Think | 96.0% | 84.6% | -11.4% |
| Claude Opus 4.6 | 93.0% | 68.8% | -24.2% |
| GPT-5.4 Pro | ~90% | 83.3% | -6.7% |
| ARC Prize 2025 冠军(资源受限) | 55.5% | 24.0% | -31.5% |
| 人类 | ~95% | ~100% | 几乎无损 |
关键发现:所有 AI 范式——纯神经、神经符号、程序合成——一致地在 ARC-AGI-2 上跌了2-3倍。这不是某个架构的问题,是当前 AI 范式的系统性缺陷。
2025年冠军队 NVARC 需要数十万合成训练样本才能达到24%。这意味着什么?AI 在 ARC-AGI-2 上的"推理"仍然严重依赖知识覆盖——见过足够多类似任务,才能勉强应对。真正的零样本抽象推理,它做不到。
ARC-AGI-3:交互式环境(2026年3月)
这是范式级的跳跃。ARC-AGI-3 不再是"看示例→猜规则"的静态任务。它是一个交互式的回合制环境:
- AI 被丢进一个陌生的抽象世界
- 没有说明书,没有示例输入输出对
- AI 必须主动探索:采取行动、观察反馈、推断环境动态
- 需要建立内部模型:这个世界的物理规则是什么?
- 需要推断目标:我究竟被要求做什么?
- 需要规划行动序列:高效地达成目标
这与现实世界的生存逻辑完全一致。 你把一个人丢到陌生城市,他不会要求"给我10个示例告诉我怎么走",他会四处看、问路人、试错、逐渐构建心理地图。
而 ARC-AGI-3 的初步结果:
| 准确率 | |
|---|---|
| 人类 | ~100% |
| 前沿AI系统(2026年3月) | < 1% |
| StochasticGoose(当前最佳) | 12.58%(preview版) |
12.58% 是 preview 版上的成绩,正式版上所有主流模型都低于1%。
四、为什么 AI 在"陌生环境"面前像个婴儿?
ARC-AGI-3 的论文和一系列分析论文(如 arXiv:2502.07190,腾讯 WXG 团队)指出了 LLM 的三个根本性缺陷:
缺陷1:技能组合能力极为有限
ARC-AGI-2/3 的任务通常需要组合多个基本操作:先识别物体,再旋转,再按颜色排序,再复制。每个基本操作单独拿出来,AI 可能能做(毕竟在一些简化测试中表现还行)。但把它们串起来,AI 就崩溃了。
腾讯 WXG 的研究团队做了一个精妙的实验:他们把 ARC 任务拆解为原子操作(ARAOC benchmark),发现即使是最简单的原子操作,LLM 也 struggled。更重要的是,在原子任务上微调提升了性能,但组合回完整任务时毫无改善。
这意味着 LLM 没有真正的组合性推理。它只是在训练数据中找到了某种整体模式,而不是学会了"把基本操作像积木一样组装"。
缺陷2:抽象输入格式的编码障碍
ARC 的输入是彩色网格——对人类来说直观得不能再直观("看,一个红色的方块")。但对 LLM 来说,这是一串数字矩阵,它必须把 [3, 6, 0, 0, 3] 这样的数组"理解"为"一个品红色方块在绿色背景上"。
论文发现:LLM 对矩阵操作有基础理解,但把矩阵翻译成视觉/空间概念这一步是核心瓶颈。这不是推理问题,是感知-抽象耦合问题。
缺陷3:自左向右解码的结构性限制
这是最本质的。LLM 的核心是next-token prediction——从左到右一个token一个token地生成。但抽象推理通常不是线性的:
- 你可能先看整体,再聚焦局部
- 你可能来回验证假设
- 你可能发现之前的推断错了,全部推翻重来
这种非线性、迭代、可回溯的推理过程,与 LLM 的线性解码架构存在结构性矛盾。Chain-of-Thought 只是让这个线性流看起来像是在"思考",但本质上模型无法真正"跳回"去修改之前的结论。
五、Chollet 的洞察:scaling 的尽头
François Chollet 在 Y Combinator 的访谈中说了一段关键的话:
"ARC-AGI-1 在5年内 resisted 预训练 scaling。基础 LLM 性能一直低于10%,尽管同期模型规模增长了50,000倍。这明确告诉我们:更多参数、更多数据,解决不了这个问题。"
Test-time reasoning(o1、o3、Gemini Deep Think)是一个重要的突破,但它本质是用计算换智能——在推理时做大量搜索/采样/验证,而不是模型真正掌握了抽象推理能力。
ARC-AGI-3 把这种局限暴露得更彻底:test-time reasoning 在静态任务上还能靠暴力搜索蒙对一些,但在交互式环境中,每一步行动都需要消耗动作预算,盲目试错很快就会耗尽资源。没有高效探索策略的 AI,在 ARC-AGI-3 上寸步难行。
六、Benchmark Contamination:一个更大的问题
ARC-AGI-1 和 ARC-AGI-2 的论文中提到了一个令人担忧的现象:前沿模型可能已经污染了这些基准。
证据:Gemini 3 在验证 ARC-AGI-2 时,推理链中出现了这样的句子:
"Target is Green (3). Pattern is Magenta (6) Solid."
但验证 prompt 中完全没有提到 ARC-AGI,也没有给出整数到颜色的映射。模型能正确说出"3是Green、6是Magenta",说明它在训练数据中见过 ARC-AGI 的任务。
如果前沿模型用了包含 ARC-AGI 数据的海量训练集,那么它的高分可能不是"推理能力"的体现,而是检索能力——在训练数据中找到了类似任务的记忆。
这就是为什么 ARC-AGI-3 要转向交互式环境:
- 静态任务可以被记忆和模仿
- 交互式环境要求实时探索,每一步都是新的,无法预先记忆
七、ARC-AGI-3 到底测了什么?
5 种核心认知能力,缺一不可:
| 能力 | 描述 | 为什么 AI 难 |
|---|---|---|
| 探索 | 主动采取行动,收集信息 | 没有内在好奇心驱动,不知道"该试什么" |
| 环境建模 | 从观察中推断世界规则 | 需要因果推理,而非统计相关性 |
| 目标推断 | 在没有明确指令的情况下理解"要做什么" | 需要读心/意图理解,AI 只有字面理解 |
| 规划 | 在行动预算限制下制定高效策略 | 需要前瞻和回溯,LLM 的线性解码受限 |
| 抽象 | 从具体实例中提取通用规则 | 组合泛化能力不足 |
这五项的交集,就是人类在陌生环境中生存的核心能力——也是当前 AI 完全缺失的能力。
八、可能的出路:从"知识检索"到"程序合成"
ARC-AGI 的竞赛历史揭示了一个有趣的趋势:最成功的解法不是纯神经网络,而是神经符号混合或程序合成。
核心思路:不要把推理交给神经网络的黑盒,而是让 AI 显式地搜索和组合程序——从一组基本操作(移动、旋转、复制、填充等)中,找到能解释所有示例并正确预测测试输入的程序。
ARC Prize 2025 的 winner NVARC 使用了 refinement loop(迭代优化循环):
- 生成候选程序
- 在示例上验证
- 根据反馈修改
- 重复直到找到正确程序或耗尽预算
这种"试错+修正"的循环,某种程度上模拟了人类在 ARC-AGI-3 中的交互式探索。但目前的实现仍然高度依赖训练数据和启发式搜索,离真正的自主探索还很远。
九、对 AI 行业的启示
1. 当前 AI 的"万能感"是幻觉
LLM 能写代码、能考试、能聊天,给人一种"通用智能"的错觉。但 ARC-AGI-3 提醒我们:这些能力几乎全部来自晶体智能——知识检索和模式匹配。 面对真正陌生的问题,AI 的表现甚至不如一个6岁小孩。
2. "Scaling Laws" 有边界
参数从1B到1T,数据从1T到100T,但基础 LLM 在 ARC-AGI-1 上仍然低于10%。这说明智能的某些维度不能靠规模堆砌,需要新的架构、新的训练范式、甚至新的计算模型。
3. 交互式智能是下一个前沿
从静态 benchmark(MMLU、ARC-AGI-1)到推理 benchmark(ARC-AGI-2),再到交互式 benchmark(ARC-AGI-3),AI 评估的演进方向很明确:越接近真实世界的动态和开放,AI 越弱。 这也意味着,谁能率先突破交互式智能,谁就掌握了通往 AGI 的关键钥匙。
4. ARC Prize 2026:200万美元押注新范式
ARC Prize 2026 总奖金池 200 万美元,聚焦 ARC-AGI-3。Grand Prize 70万美元——给第一个在 ARC-AGI-3 上达到100%的 open-source 系统。这是一个明确的信号:行业已经意识到,需要新的研究思路,而不是更大的模型。
十、一个刺耳的总结
当前的 AI,是一个拥有全人类知识但缺乏基本推理能力的存在。
它能在你问"什么是量子纠缠"时给出教科书级别的回答,因为这在训练数据里。但你如果给它一个全新的抽象游戏,让它自己探索规则,它的表现就像一个从未玩过任何游戏的婴儿——不,比婴儿还差,因为婴儿至少有好奇心和试错本能。
ARC-AGI-3 的价值不是"又造了一个AI做不好的题",而是它戳破了行业的一个集体幻觉:我们以为在建造智能,实际上在建造一个极其庞大的知识检索系统。
真正的智能,不是知道多少,而是面对未知时,能多快学会。
参考
- ARC-AGI-3 论文: arXiv:2603.24621
- ARC-AGI-2 论文: arXiv:2604.02434
- ARC Prize 2025 技术报告: arXiv:2601.10904
- ARC-AGI 综述: arXiv:2603.13372(82种方法跨三代 benchmark 的横向分析)
- LLM 流体智能缺陷分析: arXiv:2502.07190(腾讯 WXG / HKUST)
- François Chollet YC 访谈: https://www.ycombinator.com/library/NP-fran-ois-chollet-arc-agi-3
- ARC Prize 官网: https://arcprize.org/
- ARC Prize 2026 竞赛: https://arcprize.org/competitions/2026/arc-agi-3
- ARC-AGI 介绍: https://arcprize.org/arc-agi
- Cattell 流体/晶体智能理论: Cattell, R. B. (1963). Theory of fluid and crystallized intelligence
- Chollet 2019 奠基论文: "On the Measure of Intelligence"
#AGI #流体智能 #抽象推理 #ARC-AGI #FrançoisChollet #AI基准测试 #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。