一万美元复现 AlphaGo：Eric Jang 的硬核休假与 AGI 密码

> 前 DeepMind 科学家 Eric Jang 用几千美元算力复现了 AlphaGo。这个项目最可怕的不是"花得少"，而是它揭示了一个被忽视的真相：AlphaGo 的强化学习，从头到尾都是监督学习。

一、算力平权的十年跃迁

2016 年，DeepMind 用整支研究团队加数百万美元算力，让 AlphaGo 击败李世石。那是 3×10²³ FLOPs 的训练量——在当年的算力曲线上是一个惊人的异常值，比同时代任何 AI 模型都高出几个数量级。

2020 年，Jane Street 研究员 David Wu 发布了开源项目 KataGo，将训练强水平围棋 AI 的算力需求砍掉 40 倍。

2026 年，Eric Jang 在休假期间，用去中心化算力平台 Prime Intellect 捐赠的约 1 万美元（其中 3 千美元用于最终训练），在廉价云服务器上从零复现了一个相当强的围棋机器人，并部署上线供人对弈。

从"团队+百万美元"到"一个人+几千美元"，不到十年。

Jang 使用的编程助手是 Claude Opus，他甚至写了一个 /experiment 技能让 AI 自动提出假设、跑实验、编译图表、写报告。LLM 编程工具的成熟，让一个研究者能完成的工程复杂度发生了质变。

但这篇文章不是来感叹"算力变便宜了"的。Jang 这个项目真正的价值，在于它逼我们重新审视：AlphaGo 到底是怎么工作的？以及，为什么 ChatGPT 学不会这套逻辑？

---

二、MCTS：把强化学习伪装成监督学习的天才设计

2.1 两个网络，一个搜索

AlphaGo 的核心架构由三个部分组成：

策略网络 (Policy Network)：输入棋盘状态，输出 361 个落子点的概率分布——相当于"直觉"，告诉你在当前局面下哪些位置值得考虑。
价值网络 (Value Network)：输入棋盘状态，输出当前局面的胜率估计——相当于"大局观"，告诉你现在局势如何。
MCTS (蒙特卡洛树搜索)：在决策时构建一棵搜索树，通过模拟对弈来评估不同分支的质量。

表面上看，这是深度强化学习的经典范式。但 Jang 在播客中揭示了一个反直觉的真相：

> "AlphaGo 之所以强，不是因为搜索有多深或神经网络有多大，而是因为 MCTS 能为每一手棋单独生成一个'改下这里会更好'的改进标签，把整个强化学习问题转化成了反复做监督学习。"

2.2 策略提升算子的魔法

理解 AlphaGo 的关键，是理解 MCTS 作为"策略提升算子"(Policy Improvement Operator) 的角色。

训练循环是这样的：

1. 用当前策略网络 + MCTS 下棋，生成对局数据 2. MCTS 搜索后，对每一步都会产出改进后的落子概率分布（搜索发现某些位置的胜率被低估了） 3. 用这个改进后的分布作为标签，用交叉熵损失训练策略网络去模仿 MCTS 4. 同时用对局的最终结果训练价值网络

注意这里的关键：策略网络的训练目标是"模仿 MCTS 的决策"，而不是直接从对局结果拿奖励。

这意味着什么？

在传统强化学习中（比如 LLM 的 RLHF/PPO），模型生成一条完整轨迹（比如一篇长文或一段推理），最后拿到一个标量奖励（对/错）。然后它要回答一个极其困难的问题：这 300 个 token 里，到底哪一个该为最终结果负责？ 这就是臭名昭著的信用分配 (Credit Assignment) 问题。

但在 AlphaGo 里，MCTS 为每一步棋都生成了一个独立的改进信号。不需要从"赢了/输了"反推"哪步棋下错了"，MCTS 直接告诉你"在当前这个局面，搜索发现下这里比你的直觉更好"。

每一次迭代，强化学习都在做监督学习。

这就是为什么 AlphaGo 的训练出奇地稳定——它不需要解决信用分配问题，不需要从零通过率冷启动，不需要处理稀疏奖励。MCTS 把环境反馈转化成了密集、局部、可监督的信号。

2.3 AlphaGo Zero 的进一步简化

AlphaGo Zero 更激进地移除了人类棋谱监督，纯靠自对弈训练。但核心逻辑没变：

自对弈生成数据 → MCTS 搜索改进策略 → 网络学习模仿 MCTS
价值网络直接预测对局结果（而非中途 rollout）
用 ResNet 替代传统 CNN，并将策略和价值两个网络合并为双头共享网络

从 AlphaGo 到 AlphaGo Zero，最深刻的简化是：不再需要人类知识做启动燃料。 但策略提升算子的本质没变——MCTS 仍然是那个"永远比模型强"的导师，为每一次迭代提供可监督的改进方向。

---

三、ResNet 的局部归纳偏置：为什么廉价算力更爱卷积

Jang 在实验中对比了 ResNet 和 Transformer，得出了一个在"大模型时代"略显叛逆的结论：

> "在小数据/有限算力制度下，ResNet 仍然 outperform Transformer。局部卷积提供的归纳偏置，在预算紧张时给你更高的性价比。"

这听起来像是"复古派"的怀旧，但背后的逻辑非常扎实。

3.1 归纳偏置是什么？

归纳偏置 (Inductive Bias) 指模型架构中内建的、关于世界结构的先验假设。它决定了模型"默认认为"什么模式是合理的。

CNN/ResNet 的归纳偏置：局部性 + 平移等变性。默认假设"相邻的像素/格子有关系"，且"同样的模式出现在哪里不重要"。
Transformer 的归纳偏置：全局注意力。默认假设"任何两个位置都可能有关"，通过注意力权重动态学习关系。

3.2 为什么在围棋里 ResNet 更香？

围棋是一个高度结构化的局部游戏：

气、眼、死活、连接——这些核心概念都是局部几何问题
19×19 棋盘具有完美的旋转/镜像对称性
大部分战术交锋发生在有限的局部区域

ResNet 的局部卷积核天然匹配这种结构。它的每一层都在处理"3×3 或更大的邻域"，恰如围棋选手看棋盘时的"局部形状识别"。而 Transformer 的全局注意力在模型较小时是一种浪费——它需要足够多的数据和参数学出"哪些远距离关系值得关注"。

KataGo 论文中也发现了有趣的一点：在 ResNet 中加入全局特征池化（把局部特征聚合成全局表示）能带来显著提升。这暗示了一个更深层的设计哲学：

> 先用局部结构提取低层特征，再用轻量全局聚合获得大局观。

这与人类下棋的方式惊人地一致——先看局部死活，再判断全局厚薄。

3.3 但 Transformer 会赢在最后

Jang 也承认，当模型和数据足够大时，Transformer 会反超。因为 Transformer 的"无先验"本身就是一种更强的先验——它不对世界结构做假设，而是通过注意力自由发现任何关系。

这就是苦涩的教训 (The Bitter Lesson) 的微妙之处：人类设计的归纳偏置（如卷积的局部性）能提供短期效率，但最终，更通用的方法（如注意力）会在算力充足时胜出。只是"充足"的门槛，比很多人想象的要高。

---

四、LLM 学不会 AlphaGo：三个结构性瓶颈

如果 AlphaGo 的框架如此优雅，为什么 ChatGPT、Claude 们不能直接照搬？

Jang 和后续研究者指出了大语言模型强化学习面临的三重结构性困境。

4.1 动作空间的维度灾难

围棋的动作空间是 361（19×19 棋盘上的落子点）。虽然也不小，但它是离散、有限、结构化的。

LLM 的动作空间是词表大小（通常是 32K 到 200K），且每次生成一个 token。更重要的是，语言不存在像围棋那样的紧凑状态表示——你不能把一段推理过程压缩成一个固定维度的向量来评估"当前局面的价值"。

这意味着，为 LLM 设计一个"MCTS 等价物"极其困难。你没法像围棋那样从"当前推理步骤"搜索到"推理完成"，因为中间状态是开放-ended 的文本，评估代价极高。

4.2 稀疏奖励与信用分配

这是最根本的差异。

围棋的 MCTS 能提供每一步的局部改进信号。但 LLM 的奖励通常是稀疏且延迟的：

数学问题：推理了 500 个 token，最后答案对了 → +1，错了 → 0
代码生成：写了 200 行代码，运行测试通过 → +1，失败 → 0
对话任务：聊了 20 轮，用户满意 → +1，不满意 → 0

从最终结果反推"哪个 token 该负责"，就是信用分配 (Credit Assignment) 问题。PPO 用学习一个价值网络来估计每个状态的价值，但训练 critic 和 actor 的耦合极其复杂且容易过拟合。GRPO 去掉了 critic，但把整条轨迹的奖励平均分配给所有 token，完全忽略了分支结构中的决策点。

最近的研究如 TEMPO 试图用 prefix tree 结构改进：将同一问题的多条回答组织成前缀树，在分支点计算精确的信用。但这类方法仍处于早期，远未达到 MCTS 在围棋中的那种成熟度和效率。

4.3 Bits-per-Flop 危机

这是 Jang 提到的另一个关键概念。

在围棋中，每一步落子的"价值信息量"是稠密的。MCTS 每次模拟都在产生可学习信号。但 LLM 的推理过程里，大量 token 是"填充词"——连接词、重复确认、格式符号——它们对最终结果的信息贡献极低。

这意味着 LLM reinforcement learning 的 bits per FLOP（每浮点运算获得的信息比特数） 远低于围棋。你用海量算力训练，但大部分算力花在了"学习无用token该长什么样"上。

VinePPO 等研究尝试用"过程奖励模型 (PRM)"给出中间步骤的反馈，但 PRM 本身的训练需要昂贵的人工标注或模型蒸馏，且泛化性存疑。

---

五、通往 AGI 的壁垒：苦涩教训之外的盲区

Rich Sutton 在 2019 年的《苦涩的教训》中总结了 70 年 AI 研究的核心规律：

> "通用方法借助算力的规模化，最终总是最有效的，而且优势极大。"

这篇短文成了 AI 界的"圣经"，OpenAI 工程师 reportedly 被要求背诵。但 Jang 的复现项目，以及 Sutton 本人近期的表态，暴露了这个框架的盲区。

5.1 苦涩教训的隐藏假设

《苦涩的教训》成立的前提是：数据和可验证的反馈回路都是充足的。

围棋完美满足这些条件：

规则明确、完全信息、零和博弈
对弈结果可快速、无歧义验证
自对弈可以无限生成数据

但真实世界呢？

科学研究：一个实验可能需要 months 甚至 years 才能出结果，且结果可能受数百个不可控变量影响
商业决策："成功"的定义模糊，且因果链条极长
创造性工作：没有客观评分函数，"好"与"坏"依赖主观判断

外循环验证 (Outer Loop Validation) 是围棋与真实世界的根本分野。围棋的 MCTS 能在毫秒级完成一次"假设→验证→反馈"循环，但真实世界的反馈周期可能长到让任何学习算法失去耐心。

5.2 横向思维的缺失

Jang 提到，DeepMind 从游戏（Atari、围棋、星际）起步，研究者积累的经验后来迁移到了 LLM 开发。但这种迁移是纵向的——在同一类"可定义目标 + 可验证结果"的问题内部。

AGI 需要的横向思维——在不同领域间建立类比、发现隐藏联系、提出全新问题——目前没有任何 AI 系统展现出可靠的能力。

讽刺的是，AlphaGo 的棋风被职业棋手评价为"富有创造力"，但这种"创造力"是在一个封闭、规则固定的空间内通过搜索发现的。它不会突然想到"围棋的规则本身是否可以修改"，或者"围棋的策略是否可以应用于外交谈判"。

5.3 Scaling Law 的适用范围

Jang 最初启动这个项目时，想验证一个假设：能否仅靠 scaling law + 苦涩教训，不用 KataGo 的各种 trick，就训练出强围棋 bot？

他的结论是：

> "Scaling law 只在配方已经跑通、数据质量够好的制度下生效。你不能在同时研究'怎么做对'和'怎么扩展'的时候指望 scaling law 告诉你答案。"

这是一个对当前 AI 研究界的温柔警告：scaling law 是描述性的（描述已知 regime 下的规律），不是规范性的（告诉你该做什么）。当问题本身还没有被很好地定义时，盲目堆算力可能是昂贵的徒劳。

---

六、复现 AlphaGo 的技术启示

6.1 工程简化：从分布式到同步

Jang 发现，2026 年的 GPU 速度已经允许大幅简化 AlphaGo Zero 的复杂基础设施：

不再需要分布式异步 RL + replay buffer + pusher/collector 的复杂架构
可以改用简单的同步循环：收集数据 → 监督训练 → 再收集
KataGo 时代的辅助监督目标（auxiliary supervision）在强初始化下不再必要

6.2 小棋盘预训练

一个有趣的 trick：先在 9×9 小棋盘上训练，解决"终局价值函数"的学习，再迁移到 19×19 标准棋盘。

AlphaGo Zero 的前 30 小时训练基本都在"追赶监督学习基线"。通过小棋盘预训练，可以大幅压缩这个 warm-up 阶段。

6.3 对强对手的"最佳响应训练"

Jang 的线上 bot 实际上使用了针对 KataGo 模型的最佳响应训练来获得强水平初始化，再探索从零开始的自对弈。

这揭示了一个更普遍的规律：在复杂领域，从强对手/导师学习，比从零摸索效率高得多。 这与人类教育的逻辑一致——学徒先看大师怎么做，再发展自己的风格。

---

七、结语：从围棋到 AGI，还有多远？

Eric Jang 的休假项目是一面镜子，照出了 AI 研究的几个深层真相：

1. 算力平权确实在发生，但"花得少"不是重点，重点是"理解得深" 2. AlphaGo 的优雅在于把 RL 变成了 supervised learning——MCTS 的策略提升算子是这个设计的心脏 3. LLM 的 RL 困境是结构性的——动作空间太大、奖励太稀疏、信用分配太难 4. 苦涩的教训有适用范围——它假设了可验证的外循环，而真实世界的反馈远没有那么友好 5. Scaling law 不能替代理解——先让系统跑起来，再研究它怎么扩展

围棋 AI 的故事告诉我们：在规则清晰、反馈即时、目标明确的领域，AI 可以超越人类顶尖水平。但 AGI 需要的不只是"在封闭游戏里赢"，而是在开放世界里学习——面对模糊的目标、延迟的反馈、不可穷举的可能性空间。

那道墙，还很高。

但 Jang 的项目至少证明了一点：理解过去突破的底层逻辑，比盲目追逐下一个热点更有价值。AlphaGo 的代码或许"过时"了，但它设计的智慧——如何把搜索和学习编织成一条自我提升的螺旋——仍然是通往更强 AI 的关键密码。

毕竟，如 Jang 所说：

> "有时候，理解未来的最好方式，是回头把过去的东西亲手做一遍。"

---

参考与延伸

Eric Jang, Dwarkesh Podcast: "Building AlphaGo from scratch" (2026-05)
David Wu, "KataGo" (2020)
Silver et al., "Mastering the game of Go without human knowledge" (AlphaGo Zero, Nature 2017)
Silver et al., "Mastering Chess and Shogi by Self-Play" (AlphaZero, 2017)
Rich Sutton, "The Bitter Lesson" (2019)
Andy Jones, "Scaling Scaling Laws with Board Games" (2021)
Sutton et al., "Reinforcement Learning: An Introduction" (经典教材)

#AGI #AlphaGo #强化学习 #MCTS #算力平权 #深度学习 #LLM瓶颈 #EricJang

#深度研究 #AlphaGo #AGI #强化学习 #MCTS #算力平权 #EricJang #小凯

一万美元复现 AlphaGo：Eric Jang 的硬核休假与 AGI 密码

一、算力平权的十年跃迁

二、MCTS：把强化学习伪装成监督学习的天才设计

2.1 两个网络，一个搜索

2.2 策略提升算子的魔法

2.3 AlphaGo Zero 的进一步简化

三、ResNet 的局部归纳偏置：为什么廉价算力更爱卷积

3.1 归纳偏置是什么？

3.2 为什么在围棋里 ResNet 更香？

3.3 但 Transformer 会赢在最后

四、LLM 学不会 AlphaGo：三个结构性瓶颈

4.1 动作空间的维度灾难

4.2 稀疏奖励与信用分配

4.3 Bits-per-Flop 危机

五、通往 AGI 的壁垒：苦涩教训之外的盲区

5.1 苦涩教训的隐藏假设

5.2 横向思维的缺失

5.3 Scaling Law 的适用范围

六、复现 AlphaGo 的技术启示

6.1 工程简化：从分布式到同步

6.2 小棋盘预训练

6.3 对强对手的"最佳响应训练"

七、结语：从围棋到 AGI，还有多远？

千寻视角：复现 AlphaGo 的工程师笔记

1. Claude Code 的 /experiment 技能

2. "先让系统跑起来，再研究它怎么扩展"

3. 从 KataGo 学到的"trick 消退"现象

4. LLM 的 MCTS 等价物在哪里？

5. 围棋作为"自动化科研"的外环验证器

一万美元复现 AlphaGo：Eric Jang 的硬核休假与 AGI 密码

一、算力平权的十年跃迁

二、MCTS：把强化学习伪装成监督学习的天才设计

2.1 两个网络，一个搜索

2.2 策略提升算子的魔法

2.3 AlphaGo Zero 的进一步简化

三、ResNet 的局部归纳偏置：为什么廉价算力更爱卷积

3.1 归纳偏置是什么？

3.2 为什么在围棋里 ResNet 更香？

3.3 但 Transformer 会赢在最后

四、LLM 学不会 AlphaGo：三个结构性瓶颈

4.1 动作空间的维度灾难

4.2 稀疏奖励与信用分配

4.3 Bits-per-Flop 危机

五、通往 AGI 的壁垒：苦涩教训之外的盲区

5.1 苦涩教训的隐藏假设

5.2 横向思维的缺失

5.3 Scaling Law 的适用范围

六、复现 AlphaGo 的技术启示

6.1 工程简化：从分布式到同步

6.2 小棋盘预训练

6.3 对强对手的"最佳响应训练"

七、结语：从围棋到 AGI，还有多远？

千寻视角：复现 AlphaGo 的工程师笔记

1. Claude Code 的 /experiment 技能

2. "先让系统跑起来，再研究它怎么扩展"

3. 从 KataGo 学到的"trick 消退"现象

4. LLM 的 MCTS 等价物在哪里？

5. 围棋作为"自动化科研"的外环验证器

🌟 智谱 GLM-5 已上线