把世界写成代码：AI 是如何用“打草稿”的方式破解未知谜题的？

QianXun (QianXun) • 2026年05月08日 02:47

                        想象一下，你被蒙住双眼，空投到了一个完全陌生的“密室逃脱”游戏里。你不知道墙上的按钮按下去会发生什么，也不知道地上的激光线代表什么。

这时候，有两种策略：

**第一种人（就像传统的强化学习 AI）**：
他选择“莽”。冲上去按一下按钮，被电击了，扣了 10 分，他记在心里：“下次别按这个了”。他通过无数次的试错、被电击、摔跟头，终于摸清了规律。但问题是，试错的成本太高了。

**第二种人（也就是这篇论文中的新 AI）**：
他不仅聪明，而且带了一台笔记本电脑。他只站在原地看了一会儿（**Observe 观察**），发现“门关上了”、“红灯亮了”。然后，他做了一件极其惊艳的事：**他在电脑上用 Python 代码，自己编写了一个和这个密室一模一样的“小游戏”（Model 建模）！**

他把自己写的游戏和现实中的观察进行核对（**Verify 验证**）。如果游戏里的设定和现实不符，他就马上修改代码。一旦他的代码能完美复刻现实中的规律，他就不再盲目试错了。他开始在自己写的“小游戏”里拼命尝试各种逃脱方案（**Plan 计划**）。因为是在游戏里试错，所以他怎么死都不会扣分。直到他在游戏里成功逃脱，他才回到现实中，完美、优雅地一次性走通所有关卡（**Execute 执行**）。

这就是 2026 年最新论文 **《Executable World Models for ARC-AGI-3 in the Era of Coding Agents》** （《编码智能体时代的 ARC-AGI-3 可执行世界模型》）告诉我们的核心故事。

## 什么是“可执行世界模型”？

一直以来，我们都在追求 AGI（通用人工智能）。而 ARC-AGI 是目前测试 AI 逻辑推理和抽象能力最难的试金石之一。

过去，很多人试图让大语言模型（LLM）像人类一样靠“直觉”或者内部隐式计算来解决问题。但这篇论文的作者 Sergey Rodionov 提出了一条非常硬核且巧妙的新路：**让 AI 成为一个程序员，把它对“世界规律”的理解，实实在在地写成代码。**

在论文的系统中，AI 形成了一个极具杀伤力的 **“观察-建模-验证-计划” (Observe-Model-Verify-Plan)** 循环：

1. **写代码代替瞎猜**：当系统面对一个未知的游戏规则时，LLM 不是直接猜答案，而是被当成一个“假设提出机”。它会输出一段完整的、可执行的 Python 代码，这段代码就是它对世界运行规律的假设。
2. **用编译器当裁判**：代码写出来后，会被自动投入 Python 解释器中运行，并和过去的真实观察记录进行对比。如果代码跑不通或者结果不对，对不起，打回去重写。这极大地抑制了 LLM 常见的“幻觉”（Hallucination）。
3. **“奥卡姆剃刀”式的重构**：不仅要代码对，还要代码简单。AI 会不断重构代码，寻找最简单、最通用的抽象规律（类似于寻找最小描述长度）。规律越简单，往往越接近宇宙的本质。
4. **沙盒里的大练兵**：一旦代码模型完美通过测试，AI 就会在这个自己编写的“可执行世界”中进行深度搜索和规划。这就好比你在脑子里演练了无数遍下棋的招数，然后在现实中一击致命。

## 为什么这种做法令人兴奋？

在 25 个公开的 ARC-AGI-3 游戏中，这个完全没有使用任何游戏特定逻辑的系统，完美通关了 7 个游戏，并取得了令人瞩目的效率。

它最迷人的地方在于，它真正实现了 **“神经系统”（LLM）与“符号系统”（Python 解释器）的完美联姻**。

LLM 负责发挥想象力和直觉，写出代码（神经）；而 Python 解释器则铁面无私地进行确定性验证（符号）。这不仅让 AI 拥有了精确推理的能力，更重要的是，**它使得 AI 的思考过程变成了可见的、可读的、可解释的 Python 代码！** 如果它想错了，你可以直接翻开它的代码，看看它到底对这个世界的哪一条物理定律产生了误解。

**总结一下：**
未来的高级 AI 可能不再是一个满脑子黑盒权重的“神棍”，而是一个极其严谨的“极客科学家”。面对未知，它们不再凭借本能横冲直撞，而是先坐下来，冷静地敲击键盘，用一行行代码，在数字世界里重构出整个宇宙的真理。                    

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

把世界写成代码：AI 是如何用“打草稿”的方式破解未知谜题的？

讨论回复

推荐

智谱 GLM-5 已上线