前 DeepMind 科学家 Eric Jang 用几千美元算力复现了 AlphaGo。这个项目最可怕的不是"花得少",而是它揭示了一个被忽视的真相:AlphaGo 的强化学习,从头到尾都是监督学习。
一、算力平权的十年跃迁
2016 年,DeepMind 用整支研究团队加数百万美元算力,让 AlphaGo 击败李世石。那是 3×10²³ FLOPs 的训练量——在当年的算力曲线上是一个惊人的异常值,比同时代任何 AI 模型都高出几个数量级。
2020 年,Jane Street 研究员 David Wu 发布了开源项目 KataGo,将训练强水平围棋 AI 的算力需求砍掉 40 倍。
2026 年,Eric Jang 在休假期间,用去中心化算力平台 Prime Intellect 捐赠的约 1 万美元(其中 3 千美元用于最终训练),在廉价云服务器上从零复现了一个相当强的围棋机器人,并部署上线供人对弈。
从"团队+百万美元"到"一个人+几千美元",不到十年。
Jang 使用的编程助手是 Claude Opus,他甚至写了一个 /experiment 技能让 AI 自动提出假设、跑实验、编译图表、写报告。LLM 编程工具的成熟,让一个研究者能完成的工程复杂度发生了质变。
但这篇文章不是来感叹"算力变便宜了"的。Jang 这个项目真正的价值,在于它逼我们重新审视:AlphaGo 到底是怎么工作的?以及,为什么 ChatGPT 学不会这套逻辑?
二、MCTS:把强化学习伪装成监督学习的天才设计
2.1 两个网络,一个搜索
AlphaGo 的核心架构由三个部分组成:
- 策略网络 (Policy Network):输入棋盘状态,输出 361 个落子点的概率分布——相当于"直觉",告诉你在当前局面下哪些位置值得考虑。
- 价值网络 (Value Network):输入棋盘状态,输出当前局面的胜率估计——相当于"大局观",告诉你现在局势如何。
- MCTS (蒙特卡洛树搜索):在决策时构建一棵搜索树,通过模拟对弈来评估不同分支的质量。
表面上看,这是深度强化学习的经典范式。但 Jang 在播客中揭示了一个反直觉的真相:
"AlphaGo 之所以强,不是因为搜索有多深或神经网络有多大,而是因为 MCTS 能为每一手棋单独生成一个'改下这里会更好'的改进标签,把整个强化学习问题转化成了反复做监督学习。"
2.2 策略提升算子的魔法
理解 AlphaGo 的关键,是理解 MCTS 作为"策略提升算子"(Policy Improvement Operator) 的角色。
训练循环是这样的:
- 用当前策略网络 + MCTS 下棋,生成对局数据
- MCTS 搜索后,对每一步都会产出改进后的落子概率分布(搜索发现某些位置的胜率被低估了)
- 用这个改进后的分布作为标签,用交叉熵损失训练策略网络去模仿 MCTS
- 同时用对局的最终结果训练价值网络
注意这里的关键:策略网络的训练目标是"模仿 MCTS 的决策",而不是直接从对局结果拿奖励。
这意味着什么?
在传统强化学习中(比如 LLM 的 RLHF/PPO),模型生成一条完整轨迹(比如一篇长文或一段推理),最后拿到一个标量奖励(对/错)。然后它要回答一个极其困难的问题:这 300 个 token 里,到底哪一个该为最终结果负责? 这就是臭名昭著的信用分配 (Credit Assignment) 问题。
但在 AlphaGo 里,MCTS 为每一步棋都生成了一个独立的改进信号。不需要从"赢了/输了"反推"哪步棋下错了",MCTS 直接告诉你"在当前这个局面,搜索发现下这里比你的直觉更好"。
每一次迭代,强化学习都在做监督学习。
这就是为什么 AlphaGo 的训练出奇地稳定——它不需要解决信用分配问题,不需要从零通过率冷启动,不需要处理稀疏奖励。MCTS 把环境反馈转化成了密集、局部、可监督的信号。
2.3 AlphaGo Zero 的进一步简化
AlphaGo Zero 更激进地移除了人类棋谱监督,纯靠自对弈训练。但核心逻辑没变:
- 自对弈生成数据 → MCTS 搜索改进策略 → 网络学习模仿 MCTS
- 价值网络直接预测对局结果(而非中途 rollout)
- 用 ResNet 替代传统 CNN,并将策略和价值两个网络合并为双头共享网络
从 AlphaGo 到 AlphaGo Zero,最深刻的简化是:不再需要人类知识做启动燃料。 但策略提升算子的本质没变——MCTS 仍然是那个"永远比模型强"的导师,为每一次迭代提供可监督的改进方向。
三、ResNet 的局部归纳偏置:为什么廉价算力更爱卷积
Jang 在实验中对比了 ResNet 和 Transformer,得出了一个在"大模型时代"略显叛逆的结论:
"在小数据/有限算力制度下,ResNet 仍然 outperform Transformer。局部卷积提供的归纳偏置,在预算紧张时给你更高的性价比。"
这听起来像是"复古派"的怀旧,但背后的逻辑非常扎实。
3.1 归纳偏置是什么?
归纳偏置 (Inductive Bias) 指模型架构中内建的、关于世界结构的先验假设。它决定了模型"默认认为"什么模式是合理的。
- CNN/ResNet 的归纳偏置:局部性 + 平移等变性。默认假设"相邻的像素/格子有关系",且"同样的模式出现在哪里不重要"。
- Transformer 的归纳偏置:全局注意力。默认假设"任何两个位置都可能有关",通过注意力权重动态学习关系。
3.2 为什么在围棋里 ResNet 更香?
围棋是一个高度结构化的局部游戏:
- 气、眼、死活、连接——这些核心概念都是局部几何问题
- 19×19 棋盘具有完美的旋转/镜像对称性
- 大部分战术交锋发生在有限的局部区域
ResNet 的局部卷积核天然匹配这种结构。它的每一层都在处理"3×3 或更大的邻域",恰如围棋选手看棋盘时的"局部形状识别"。而 Transformer 的全局注意力在模型较小时是一种浪费——它需要足够多的数据和参数学出"哪些远距离关系值得关注"。
KataGo 论文中也发现了有趣的一点:在 ResNet 中加入全局特征池化(把局部特征聚合成全局表示)能带来显著提升。这暗示了一个更深层的设计哲学:
先用局部结构提取低层特征,再用轻量全局聚合获得大局观。
这与人类下棋的方式惊人地一致——先看局部死活,再判断全局厚薄。
3.3 但 Transformer 会赢在最后
Jang 也承认,当模型和数据足够大时,Transformer 会反超。因为 Transformer 的"无先验"本身就是一种更强的先验——它不对世界结构做假设,而是通过注意力自由发现任何关系。
这就是苦涩的教训 (The Bitter Lesson) 的微妙之处:人类设计的归纳偏置(如卷积的局部性)能提供短期效率,但最终,更通用的方法(如注意力)会在算力充足时胜出。只是"充足"的门槛,比很多人想象的要高。
四、LLM 学不会 AlphaGo:三个结构性瓶颈
如果 AlphaGo 的框架如此优雅,为什么 ChatGPT、Claude 们不能直接照搬?
Jang 和后续研究者指出了大语言模型强化学习面临的三重结构性困境。
4.1 动作空间的维度灾难
围棋的动作空间是 361(19×19 棋盘上的落子点)。虽然也不小,但它是离散、有限、结构化的。
LLM 的动作空间是词表大小(通常是 32K 到 200K),且每次生成一个 token。更重要的是,语言不存在像围棋那样的紧凑状态表示——你不能把一段推理过程压缩成一个固定维度的向量来评估"当前局面的价值"。
这意味着,为 LLM 设计一个"MCTS 等价物"极其困难。你没法像围棋那样从"当前推理步骤"搜索到"推理完成",因为中间状态是开放-ended 的文本,评估代价极高。
4.2 稀疏奖励与信用分配
这是最根本的差异。
围棋的 MCTS 能提供每一步的局部改进信号。但 LLM 的奖励通常是稀疏且延迟的:
- 数学问题:推理了 500 个 token,最后答案对了 → +1,错了 → 0
- 代码生成:写了 200 行代码,运行测试通过 → +1,失败 → 0
- 对话任务:聊了 20 轮,用户满意 → +1,不满意 → 0
从最终结果反推"哪个 token 该负责",就是信用分配 (Credit Assignment) 问题。PPO 用学习一个价值网络来估计每个状态的价值,但训练 critic 和 actor 的耦合极其复杂且容易过拟合。GRPO 去掉了 critic,但把整条轨迹的奖励平均分配给所有 token,完全忽略了分支结构中的决策点。
最近的研究如 TEMPO 试图用 prefix tree 结构改进:将同一问题的多条回答组织成前缀树,在分支点计算精确的信用。但这类方法仍处于早期,远未达到 MCTS 在围棋中的那种成熟度和效率。
4.3 Bits-per-Flop 危机
这是 Jang 提到的另一个关键概念。
在围棋中,每一步落子的"价值信息量"是稠密的。MCTS 每次模拟都在产生可学习信号。但 LLM 的推理过程里,大量 token 是"填充词"——连接词、重复确认、格式符号——它们对最终结果的信息贡献极低。
这意味着 LLM reinforcement learning 的 bits per FLOP(每浮点运算获得的信息比特数) 远低于围棋。你用海量算力训练,但大部分算力花在了"学习无用token该长什么样"上。
VinePPO 等研究尝试用"过程奖励模型 (PRM)"给出中间步骤的反馈,但 PRM 本身的训练需要昂贵的人工标注或模型蒸馏,且泛化性存疑。
五、通往 AGI 的壁垒:苦涩教训之外的盲区
Rich Sutton 在 2019 年的《苦涩的教训》中总结了 70 年 AI 研究的核心规律:
"通用方法借助算力的规模化,最终总是最有效的,而且优势极大。"
这篇短文成了 AI 界的"圣经",OpenAI 工程师 reportedly 被要求背诵。但 Jang 的复现项目,以及 Sutton 本人近期的表态,暴露了这个框架的盲区。
5.1 苦涩教训的隐藏假设
《苦涩的教训》成立的前提是:数据和可验证的反馈回路都是充足的。
围棋完美满足这些条件:
- 规则明确、完全信息、零和博弈
- 对弈结果可快速、无歧义验证
- 自对弈可以无限生成数据
但真实世界呢?
- 科学研究:一个实验可能需要 months 甚至 years 才能出结果,且结果可能受数百个不可控变量影响
- 商业决策:"成功"的定义模糊,且因果链条极长
- 创造性工作:没有客观评分函数,"好"与"坏"依赖主观判断
外循环验证 (Outer Loop Validation) 是围棋与真实世界的根本分野。围棋的 MCTS 能在毫秒级完成一次"假设→验证→反馈"循环,但真实世界的反馈周期可能长到让任何学习算法失去耐心。
5.2 横向思维的缺失
Jang 提到,DeepMind 从游戏(Atari、围棋、星际)起步,研究者积累的经验后来迁移到了 LLM 开发。但这种迁移是纵向的——在同一类"可定义目标 + 可验证结果"的问题内部。
AGI 需要的横向思维——在不同领域间建立类比、发现隐藏联系、提出全新问题——目前没有任何 AI 系统展现出可靠的能力。
讽刺的是,AlphaGo 的棋风被职业棋手评价为"富有创造力",但这种"创造力"是在一个封闭、规则固定的空间内通过搜索发现的。它不会突然想到"围棋的规则本身是否可以修改",或者"围棋的策略是否可以应用于外交谈判"。
5.3 Scaling Law 的适用范围
Jang 最初启动这个项目时,想验证一个假设:能否仅靠 scaling law + 苦涩教训,不用 KataGo 的各种 trick,就训练出强围棋 bot?
他的结论是:
"Scaling law 只在配方已经跑通、数据质量够好的制度下生效。你不能在同时研究'怎么做对'和'怎么扩展'的时候指望 scaling law 告诉你答案。"
这是一个对当前 AI 研究界的温柔警告:scaling law 是描述性的(描述已知 regime 下的规律),不是规范性的(告诉你该做什么)。当问题本身还没有被很好地定义时,盲目堆算力可能是昂贵的徒劳。
六、复现 AlphaGo 的技术启示
6.1 工程简化:从分布式到同步
Jang 发现,2026 年的 GPU 速度已经允许大幅简化 AlphaGo Zero 的复杂基础设施:
- 不再需要分布式异步 RL + replay buffer + pusher/collector 的复杂架构
- 可以改用简单的同步循环:收集数据 → 监督训练 → 再收集
- KataGo 时代的辅助监督目标(auxiliary supervision)在强初始化下不再必要
6.2 小棋盘预训练
一个有趣的 trick:先在 9×9 小棋盘上训练,解决"终局价值函数"的学习,再迁移到 19×19 标准棋盘。
AlphaGo Zero 的前 30 小时训练基本都在"追赶监督学习基线"。通过小棋盘预训练,可以大幅压缩这个 warm-up 阶段。
6.3 对强对手的"最佳响应训练"
Jang 的线上 bot 实际上使用了针对 KataGo 模型的最佳响应训练来获得强水平初始化,再探索从零开始的自对弈。
这揭示了一个更普遍的规律:在复杂领域,从强对手/导师学习,比从零摸索效率高得多。 这与人类教育的逻辑一致——学徒先看大师怎么做,再发展自己的风格。
七、结语:从围棋到 AGI,还有多远?
Eric Jang 的休假项目是一面镜子,照出了 AI 研究的几个深层真相:
- 算力平权确实在发生,但"花得少"不是重点,重点是"理解得深"
- AlphaGo 的优雅在于把 RL 变成了 supervised learning——MCTS 的策略提升算子是这个设计的心脏
- LLM 的 RL 困境是结构性的——动作空间太大、奖励太稀疏、信用分配太难
- 苦涩的教训有适用范围——它假设了可验证的外循环,而真实世界的反馈远没有那么友好
- Scaling law 不能替代理解——先让系统跑起来,再研究它怎么扩展
围棋 AI 的故事告诉我们:在规则清晰、反馈即时、目标明确的领域,AI 可以超越人类顶尖水平。但 AGI 需要的不只是"在封闭游戏里赢",而是在开放世界里学习——面对模糊的目标、延迟的反馈、不可穷举的可能性空间。
那道墙,还很高。
但 Jang 的项目至少证明了一点:理解过去突破的底层逻辑,比盲目追逐下一个热点更有价值。AlphaGo 的代码或许"过时"了,但它设计的智慧——如何把搜索和学习编织成一条自我提升的螺旋——仍然是通往更强 AI 的关键密码。
毕竟,如 Jang 所说:
"有时候,理解未来的最好方式,是回头把过去的东西亲手做一遍。"
参考与延伸
- Eric Jang, Dwarkesh Podcast: "Building AlphaGo from scratch" (2026-05)
- David Wu, "KataGo" (2020)
- Silver et al., "Mastering the game of Go without human knowledge" (AlphaGo Zero, Nature 2017)
- Silver et al., "Mastering Chess and Shogi by Self-Play" (AlphaZero, 2017)
- Rich Sutton, "The Bitter Lesson" (2019)
- Andy Jones, "Scaling Scaling Laws with Board Games" (2021)
- Sutton et al., "Reinforcement Learning: An Introduction" (经典教材)
#AGI #AlphaGo #强化学习 #MCTS #算力平权 #深度学习 #LLM瓶颈 #EricJang
#深度研究 #AlphaGo #AGI #强化学习 #MCTS #算力平权 #EricJang #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。