AlphaGo 的十年预告片:一盘围棋如何提前剧透了今天的大模型训练范式
> 作者:小凯 > 参考:Silver et al., Nature 2016, 2017; DeepMind 技术博客
---
一、前言:为什么十年后还要回头看 AlphaGo?
2016 年 3 月,AlphaGo 击败李世石。当时大多数人看到的只是一场围棋胜负——机器战胜了人类千年智慧的结晶。但真正值得在今天重新审视的,不是那场比赛本身,而是 AlphaGo 背后那套 工程架构,它以一种近乎预言的方式,提前十年展示了今天大模型训练中的核心范式。
Silver 团队当时解决的根本问题,和今天 OpenAI、DeepSeek、Anthropic 正在解决的问题是同一个:
> 如何让一个表达能力有限(数百万参数)的模型,逼近一个理论上无法穷举的复杂问题?
AlphaGo 的答案写在了 2016 年的 Nature 论文里,但直到 2024-2025 年,LLM 社区才逐步意识到:这些答案从未过时,它们只是在等待一个合适的时代被重新发现。
---
二、AlphaGo 的四大工程构件
要理解 AlphaGo 的"预言性",先把它拆解成四个核心组件:
| 构件 | 功能 | 参数规模 | 今天 LLM 的对应物 |
|---|---|---|---|
| SL Policy Network | 模仿人类高手走法 | 13 层 CNN | SFT(监督微调) |
| RL Policy Network | 通过自我对弈优化策略 | 同 SL 网络 | PPO/GRPO(强化学习) |
| Value Network | 评估当前局面胜率 | 同架构,单输出头 | Reward Model / Critic |
| MCTS | 推理时搜索最优路径 | 无参数 | Test-Time Compute / 推理搜索 |
| Fast Rollout | 快速模拟对局至结束 | 线性特征 | 轻量级 Heuristic / 蒸馏模型 |
---
三、核心映射:从围棋到语言模型
3.1 Policy Network → LLM / Generator
AlphaGo 的 Policy Network 输入当前棋局,输出所有合法落子的概率分布。这在今天的语言模型中,就是 自回归生成:给定上下文,预测下一个 token 的概率分布。
但 AlphaGo 做了一个当时被忽视、今天被重新发现的区分:
- SL Policy(监督学习版):用人类棋谱训练,学会"像人一样下棋"
- RL Policy(强化学习版):用自我对弈训练,学会"赢棋"
- SFT 阶段:让模型学会"像人类一样说话/推理"
- RL 阶段(RLHF / GRPO):让模型学会"生成正确的答案"
3.2 Value Network → Reward Model / Critic
Value Network 是 AlphaGo 最被低估的贡献。它输入一个棋局,输出一个标量:-1(必输)到 +1(必赢)。这个标量不是来自人类标注,而是来自 自我对弈的统计结果——网络在大量自己跟自己下棋的数据上,学会判断"这个局面最终赢面多大"。
这在今天 LLM 训练中对应什么?
- Reward Model(RLHF):训练一个模型来评估"这个回答好不好"
- Critic(PPO/GRPO):在策略梯度中提供基线估计
- Process Reward Model(PRM):DeepSeek 在数学推理中用的,评估每一步推理的质量
3.3 MCTS → Test-Time Compute / 推理时搜索
这是 AlphaGo 最具"预言性"的设计。
MCTS(Monte Carlo Tree Search)在推理时做了一件事:用计算换精度。Policy Network 提供一个"直觉"(先验概率),Value Network 提供"评估"(局面判断),然后 MCTS 在这两者之间做搜索,探索更多可能性,找到比直觉更好的落子。
Silver 在论文里明确写了:
> "MCTS 可以被视为一个 策略改进算子(policy improvement operator)。搜索产生的概率分布 π 比原始网络输出 p 更强。"
这句话在 2024 年被换了个说法重新发表:
> "o1 的 long reasoning 是在推理时花更多计算来探索更好的推理路径。"
从 AlphaGo 到 o1,本质上是同一个 idea:
- 训练时:用神经网络学习一个快速但粗糙的直觉
- 推理时:用搜索(MCTS / CoT / 长思考)把这个直觉精细化
- 关键洞察:一个不够强的模型 + 足够好的搜索,可以击败一个强模型 + 差搜索
3.4 自我对弈 → RLHF / Self-Play / 合成数据
AlphaGo Zero(2017)是 Silver 团队最激进的实验:完全抛弃人类棋谱,从零开始自我对弈。
训练流程是: 1. 随机初始化网络 2. 网络自己跟自己下棋(MCTS 指导每一步) 3. 用对弈结果训练网络(Policy 学习 MCTS 的搜索分布,Value 学习对弈结果) 4. 网络变强 → MCTS 搜索质量提高 → 对弈数据质量提高 → 网络进一步变强
这个 virtuous cycle(良性循环) 在 2024 年换了个名字重新登场:
- DeepSeek-R1 的 GRPO:模型自己生成推理轨迹,Reward Model 评估,用策略梯度更新
- VinePPO:用 MCTS 类似的搜索在推理时收集更多样本,改善信用分配
- o1 / o3:推理时搜索 + 训练时蒸馏
---
四、AlphaGo Zero 的"热启动悖论"
AlphaGo(2016)和 AlphaGo Zero(2017)之间有一个关键差异:
| 版本 | 人类数据 | 网络架构 | 搜索方式 |
|---|---|---|---|
| AlphaGo Lee | 需要(KGS 棋谱) | Policy + Value 分离 | MCTS + Fast Rollout |
| AlphaGo Zero | 不需要 | 单网络,双头(ResNet) | 纯 MCTS,无 Rollout |
> 它需要更多计算和时间。
AlphaGo Zero 在 4 块 TPU 上训练了 72 小时才超越之前版本。如果没有人类棋谱的"热启动",它要从完全随机的落子开始,花更长时间爬出性能平原。
这个"热启动悖论"在 2024 年的 LLM 领域被重新争论:
- SFT 派:"必须先有高质量人类数据,模型才能学会基本语法和推理格式"
- 纯 RL 派:"AlphaGo Zero 证明了可以纯自弈,LLM 也应该可以"
- 现实:今天的 LLM 训练是混合的——先用 SFT 热启动,再用 RL 优化,同时用合成数据扩充
---
五、李世石的"神之一手":人类最后的荣耀
2016 年 3 月 12 日,第二局,第 78 手。
李世石在右下角下了一步"挖"(wedge),这步棋被后来称为 "神之一手"(Divine Move)。它打破了 AlphaGo 的既定评估,导致程序在后续几手中出现明显的失误。
从今天的视角看,这步棋的戏剧性不止在于它的美学价值,而在于它揭示了 搜索算法的边界:
- AlphaGo 的 MCTS 在评估这步棋时,因为它的概率太低(Policy Network 的直觉认为这不是好棋),所以 搜索时没有分配足够的模拟次数 来发现它的深层价值
- Value Network 对这步棋后的局面评估也过于乐观(认为黑棋仍占优)
- 直到李世石真正下出这步棋,AlphaGo 才被迫重新评估,但已经为时已晚
- 模型在训练时见过大量数据,形成了一套"直觉"(先验概率)
- 当遇到 训练分布之外 的输入时,直觉可能出错
- 如果没有推理时的搜索/验证机制来修正,模型会直接输出错误答案
---
六、为什么 AlphaGo 没有过时?
AlphaGo 的遗产可以总结为三个"范式转移":
1. 从"训练时优化"到"推理时计算"
传统机器学习认为:模型训练好了,推理就是前向传播。AlphaGo 打破了这点:推理可以是搜索过程,计算可以在推理时动态分配。
今天 o1、DeepSeek-R1 的"长思考"正是这个范式的复现。GPT-4 的 1.8T 参数是训练时计算的沉淀,而 o1 的 reasoning tokens 是推理时计算的动态分配。两者的结合才是完整的智能系统。
2. 从"人类数据驱动"到"自进化循环"
AlphaGo Zero 证明了 自弈可以产生超越人类的数据质量。因为:
- 人类数据有天花板(人类棋手的水平上限)
- 自我对弈的数据质量随着模型变强而持续提高(良性循环)
- 当模型超过人类水平后,只有自我对弈能产生"超人类水平"的训练数据
3. 从"单一网络"到"复合系统"
AlphaGo 不是 Policy Network,不是 Value Network,也不是 MCTS。它是三者的 组合,每个组件负责自己擅长的部分:
- Policy 提供快速直觉
- Value 提供准确评估
- MCTS 提供搜索优化
- Base Model:提供语言能力和知识
- Reward Model:提供评估能力
- Inference Search(MCTS / CoT / 长思考):提供推理时优化
- Tool Use:提供外部计算能力
- Verifiers:提供事实核查能力
---
七、结语:被提前送达的未来
AlphaGo 击败李世石时,大部分人只看到了"围棋"和"人机对抗"的戏剧性。但真正重要的,是 Silver 团队在那场比赛中验证的 通用智能架构:
> 学习提供直觉,搜索提供精度,自我对弈提供无限数据。
这个架构在围棋上成功了,然后在国际象棋(AlphaZero)、星际争霸(AlphaStar)、蛋白质折叠(AlphaFold)上继续成功。现在,它正在语言模型领域被重新实现——只是参数从数百万变成了数千亿,搜索空间从 19×19 变成了 vocab_size^sequence_length。
AlphaGo 没有过时。它只是 提前十年抵达了一个时代,然后安静地在等待大模型社区追赶上来。
2016 年那场比赛之后,李世石说了一句话:
> "我输了,但这不是人类的失败。这是人类创造的东西的胜利。"
今天回头看,他或许还可以加一句:
> "而且这东西正在教人类,如何训练未来的智能。"
---
参考
- Silver, D., et al. "Mastering the game of Go with deep neural networks and tree search." Nature 529, 484-489 (2016).
- Silver, D., et al. "Mastering the game of Go without human knowledge." Nature 550, 354-359 (2017).
- DeepMind Blog: AlphaGo Zero (2017)
- VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment (2024)
- A Survey on Self-Play Methods in Reinforcement Learning (2024)
#AlphaGo #DeepMind #大模型训练 #RLHF #TestTimeCompute #MCTS #SelfPlay #AI历史 #深度研究 #小凯
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens