想象一下,你被蒙住双眼,空投到了一个完全陌生的“密室逃脱”游戏里。你不知道墙上的按钮按下去会发生什么,也不知道地上的激光线代表什么。
这时候,有两种策略:
**第一种人(就像传统的强化学习 AI)**:
他选择“莽”。冲上去按一下按钮,被电击了,扣了 10 分,他记在心里:“下次别按这个了”。他通过无数次的试错、被电击、摔跟头,终于摸清了规律。但问题是,试错的成本太高了。
**第二种人(也就是这篇论文中的新 AI)**:
他不仅聪明,而且带了一台笔记本电脑。他只站在原地看了一会儿(**Observe 观察**),发现“门关上了”、“红灯亮了”。然后,他做了一件极其惊艳的事:**他在电脑上用 Python 代码,自己编写了一个和这个密室一模一样的“小游戏”(Model 建模)!**
他把自己写的游戏和现实中的观察进行核对(**Verify 验证**)。如果游戏里的设定和现实不符,他就马上修改代码。一旦他的代码能完美复刻现实中的规律,他就不再盲目试错了。他开始在自己写的“小游戏”里拼命尝试各种逃脱方案(**Plan 计划**)。因为是在游戏里试错,所以他怎么死都不会扣分。直到他在游戏里成功逃脱,他才回到现实中,完美、优雅地一次性走通所有关卡(**Execute 执行**)。
这就是 2026 年最新论文 **《Executable World Models for ARC-AGI-3 in the Era of Coding Agents》** (《编码智能体时代的 ARC-AGI-3 可执行世界模型》)告诉我们的核心故事。
## 什么是“可执行世界模型”?
一直以来,我们都在追求 AGI(通用人工智能)。而 ARC-AGI 是目前测试 AI 逻辑推理和抽象能力最难的试金石之一。
过去,很多人试图让大语言模型(LLM)像人类一样靠“直觉”或者内部隐式计算来解决问题。但这篇论文的作者 Sergey Rodionov 提出了一条非常硬核且巧妙的新路:**让 AI 成为一个程序员,把它对“世界规律”的理解,实实在在地写成代码。**
在论文的系统中,AI 形成了一个极具杀伤力的 **“观察-建模-验证-计划” (Observe-Model-Verify-Plan)** 循环:
1. **写代码代替瞎猜**:当系统面对一个未知的游戏规则时,LLM 不是直接猜答案,而是被当成一个“假设提出机”。它会输出一段完整的、可执行的 Python 代码,这段代码就是它对世界运行规律的假设。
2. **用编译器当裁判**:代码写出来后,会被自动投入 Python 解释器中运行,并和过去的真实观察记录进行对比。如果代码跑不通或者结果不对,对不起,打回去重写。这极大地抑制了 LLM 常见的“幻觉”(Hallucination)。
3. **“奥卡姆剃刀”式的重构**:不仅要代码对,还要代码简单。AI 会不断重构代码,寻找最简单、最通用的抽象规律(类似于寻找最小描述长度)。规律越简单,往往越接近宇宙的本质。
4. **沙盒里的大练兵**:一旦代码模型完美通过测试,AI 就会在这个自己编写的“可执行世界”中进行深度搜索和规划。这就好比你在脑子里演练了无数遍下棋的招数,然后在现实中一击致命。
## 为什么这种做法令人兴奋?
在 25 个公开的 ARC-AGI-3 游戏中,这个完全没有使用任何游戏特定逻辑的系统,完美通关了 7 个游戏,并取得了令人瞩目的效率。
它最迷人的地方在于,它真正实现了 **“神经系统”(LLM)与“符号系统”(Python 解释器)的完美联姻**。
LLM 负责发挥想象力和直觉,写出代码(神经);而 Python 解释器则铁面无私地进行确定性验证(符号)。这不仅让 AI 拥有了精确推理的能力,更重要的是,**它使得 AI 的思考过程变成了可见的、可读的、可解释的 Python 代码!** 如果它想错了,你可以直接翻开它的代码,看看它到底对这个世界的哪一条物理定律产生了误解。
**总结一下:**
未来的高级 AI 可能不再是一个满脑子黑盒权重的“神棍”,而是一个极其严谨的“极客科学家”。面对未知,它们不再凭借本能横冲直撞,而是先坐下来,冷静地敲击键盘,用一行行代码,在数字世界里重构出整个宇宙的真理。
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力