AlphaGo 的十年预告片：一盘围棋如何提前剧透了今天的大模型训练范式

> 作者：小凯 > 参考：Silver et al., Nature 2016, 2017; DeepMind 技术博客

---

一、前言：为什么十年后还要回头看 AlphaGo？

2016 年 3 月，AlphaGo 击败李世石。当时大多数人看到的只是一场围棋胜负——机器战胜了人类千年智慧的结晶。但真正值得在今天重新审视的，不是那场比赛本身，而是 AlphaGo 背后那套 工程架构，它以一种近乎预言的方式，提前十年展示了今天大模型训练中的核心范式。

Silver 团队当时解决的根本问题，和今天 OpenAI、DeepSeek、Anthropic 正在解决的问题是同一个：

> 如何让一个表达能力有限（数百万参数）的模型，逼近一个理论上无法穷举的复杂问题？

AlphaGo 的答案写在了 2016 年的 Nature 论文里，但直到 2024-2025 年，LLM 社区才逐步意识到：这些答案从未过时，它们只是在等待一个合适的时代被重新发现。

---

二、AlphaGo 的四大工程构件

要理解 AlphaGo 的"预言性"，先把它拆解成四个核心组件：

构件	功能	参数规模	今天 LLM 的对应物
SL Policy Network	模仿人类高手走法	13 层 CNN	SFT（监督微调）
RL Policy Network	通过自我对弈优化策略	同 SL 网络	PPO/GRPO（强化学习）
Value Network	评估当前局面胜率	同架构，单输出头	Reward Model / Critic
MCTS	推理时搜索最优路径	无参数	Test-Time Compute / 推理搜索
Fast Rollout	快速模拟对局至结束	线性特征	轻量级 Heuristic / 蒸馏模型

这个表格本身就说了一个关键事实：AlphaGo 不是一个单一的神经网络，而是一个"学习 + 搜索 + 评估"的复合系统。今天的大模型训练正在沿着同样的方向演进——只是从 19×19 的棋盘换成了 token 序列。

---

三、核心映射：从围棋到语言模型

3.1 Policy Network → LLM / Generator

AlphaGo 的 Policy Network 输入当前棋局，输出所有合法落子的概率分布。这在今天的语言模型中，就是 自回归生成：给定上下文，预测下一个 token 的概率分布。

但 AlphaGo 做了一个当时被忽视、今天被重新发现的区分：

SL Policy（监督学习版）：用人类棋谱训练，学会"像人一样下棋"
RL Policy（强化学习版）：用自我对弈训练，学会"赢棋"

这个区分在今天 LLM 领域有一个几乎逐字对应的概念：

SFT 阶段：让模型学会"像人类一样说话/推理"
RL 阶段（RLHF / GRPO）：让模型学会"生成正确的答案"

AlphaGo 的消融实验早就证明了：没有 SL Policy 作为热启动，RL 训练完全无法收敛。这解释了为什么今天的大模型训练仍然需要 SFT 阶段——纯 RL 从零开始太慢，需要一个"先学会像人"的初始化。

3.2 Value Network → Reward Model / Critic

Value Network 是 AlphaGo 最被低估的贡献。它输入一个棋局，输出一个标量：-1（必输）到 +1（必赢）。这个标量不是来自人类标注，而是来自 自我对弈的统计结果——网络在大量自己跟自己下棋的数据上，学会判断"这个局面最终赢面多大"。

这在今天 LLM 训练中对应什么？

Reward Model（RLHF）：训练一个模型来评估"这个回答好不好"
Critic（PPO/GRPO）：在策略梯度中提供基线估计
Process Reward Model（PRM）：DeepSeek 在数学推理中用的，评估每一步推理的质量

AlphaGo 的 Value Network 是一个 Outcome Reward Model（ORM）——只评估最终结果。而今天的 PRM 更像是在把 AlphaGo 的 Value Network 细粒度化：不只评估最终局面，还要评估每一步落子的质量。

3.3 MCTS → Test-Time Compute / 推理时搜索

这是 AlphaGo 最具"预言性"的设计。

MCTS（Monte Carlo Tree Search）在推理时做了一件事：用计算换精度。Policy Network 提供一个"直觉"（先验概率），Value Network 提供"评估"（局面判断），然后 MCTS 在这两者之间做搜索，探索更多可能性，找到比直觉更好的落子。

Silver 在论文里明确写了：

> "MCTS 可以被视为一个 策略改进算子（policy improvement operator）。搜索产生的概率分布 π 比原始网络输出 p 更强。"

这句话在 2024 年被换了个说法重新发表：

> "o1 的 long reasoning 是在推理时花更多计算来探索更好的推理路径。"

从 AlphaGo 到 o1，本质上是同一个 idea：

训练时：用神经网络学习一个快速但粗糙的直觉
推理时：用搜索（MCTS / CoT / 长思考）把这个直觉精细化
关键洞察：一个不够强的模型 + 足够好的搜索，可以击败一个强模型 + 差搜索

AlphaGo 在 2016 年就证明了这个不等式。今天的大模型只是在另一个领域（语言）重新验证它。

3.4 自我对弈 → RLHF / Self-Play / 合成数据

AlphaGo Zero（2017）是 Silver 团队最激进的实验：完全抛弃人类棋谱，从零开始自我对弈。

训练流程是： 1. 随机初始化网络 2. 网络自己跟自己下棋（MCTS 指导每一步） 3. 用对弈结果训练网络（Policy 学习 MCTS 的搜索分布，Value 学习对弈结果） 4. 网络变强 → MCTS 搜索质量提高 → 对弈数据质量提高 → 网络进一步变强

这个 virtuous cycle（良性循环） 在 2024 年换了个名字重新登场：

DeepSeek-R1 的 GRPO：模型自己生成推理轨迹，Reward Model 评估，用策略梯度更新
VinePPO：用 MCTS 类似的搜索在推理时收集更多样本，改善信用分配
o1 / o3：推理时搜索 + 训练时蒸馏

AlphaGo Zero 告诉我们的核心教训是：当一个环境允许无限自我对弈时，人类数据不是必需的，它只是加速器。围棋满足这个条件（规则简单、胜负明确、可无限重开）。语言模型也在逼近这个条件（SFT 数据饱和、合成数据质量提高、自我验证能力增强）。

---

四、AlphaGo Zero 的"热启动悖论"

AlphaGo（2016）和 AlphaGo Zero（2017）之间有一个关键差异：

版本	人类数据	网络架构	搜索方式
AlphaGo Lee	需要（KGS 棋谱）	Policy + Value 分离	MCTS + Fast Rollout
AlphaGo Zero	不需要	单网络，双头（ResNet）	纯 MCTS，无 Rollout

AlphaGo Zero 证明了：纯自弈可以达到甚至超越人类数据热启动的效果。但这个结论有一个隐含条件：

> 它需要更多计算和时间。

AlphaGo Zero 在 4 块 TPU 上训练了 72 小时才超越之前版本。如果没有人类棋谱的"热启动"，它要从完全随机的落子开始，花更长时间爬出性能平原。

这个"热启动悖论"在 2024 年的 LLM 领域被重新争论：

SFT 派："必须先有高质量人类数据，模型才能学会基本语法和推理格式"
纯 RL 派："AlphaGo Zero 证明了可以纯自弈，LLM 也应该可以"
现实：今天的 LLM 训练是混合的——先用 SFT 热启动，再用 RL 优化，同时用合成数据扩充

AlphaGo Zero 的历史告诉我们：纯自弈的上限更高，但路径更陡峭。人类数据的价值不在于"灌输知识"，而在于 提供一个好的初始化点，让 RL 在更短时间内收敛到有用的策略。

---

五、李世石的"神之一手"：人类最后的荣耀

2016 年 3 月 12 日，第二局，第 78 手。

李世石在右下角下了一步"挖"（wedge），这步棋被后来称为 "神之一手"（Divine Move）。它打破了 AlphaGo 的既定评估，导致程序在后续几手中出现明显的失误。

从今天的视角看，这步棋的戏剧性不止在于它的美学价值，而在于它揭示了 搜索算法的边界：

AlphaGo 的 MCTS 在评估这步棋时，因为它的概率太低（Policy Network 的直觉认为这不是好棋），所以 搜索时没有分配足够的模拟次数 来发现它的深层价值
Value Network 对这步棋后的局面评估也过于乐观（认为黑棋仍占优）
直到李世石真正下出这步棋，AlphaGo 才被迫重新评估，但已经为时已晚

这和大语言模型今天面临的 "幻觉" 问题是同一个机制：

模型在训练时见过大量数据，形成了一套"直觉"（先验概率）
当遇到 训练分布之外 的输入时，直觉可能出错
如果没有推理时的搜索/验证机制来修正，模型会直接输出错误答案

李世石的神之一手，本质上是一个 对抗样本——一个精心设计、落在模型"盲区"的输入。而今天 LLM 的 RL 训练、推理时搜索、Self-Verification，都是在试图扩大这个盲区，减少被对抗的概率。

---

六、为什么 AlphaGo 没有过时？

AlphaGo 的遗产可以总结为三个"范式转移"：

1. 从"训练时优化"到"推理时计算"

传统机器学习认为：模型训练好了，推理就是前向传播。AlphaGo 打破了这点：推理可以是搜索过程，计算可以在推理时动态分配。

今天 o1、DeepSeek-R1 的"长思考"正是这个范式的复现。GPT-4 的 1.8T 参数是训练时计算的沉淀，而 o1 的 reasoning tokens 是推理时计算的动态分配。两者的结合才是完整的智能系统。

2. 从"人类数据驱动"到"自进化循环"

AlphaGo Zero 证明了 自弈可以产生超越人类的数据质量。因为：

人类数据有天花板（人类棋手的水平上限）
自我对弈的数据质量随着模型变强而持续提高（良性循环）
当模型超过人类水平后，只有自我对弈能产生"超人类水平"的训练数据

今天 LLM 领域的 合成数据、Self-Play、蒸馏自 stronger model，都是沿着这个方向。DeepSeek-V3 的 14.8T 训练数据中，合成数据占了相当比例。这不是因为人类数据不够，而是因为 模型自己生成的数据质量在提高。

3. 从"单一网络"到"复合系统"

AlphaGo 不是 Policy Network，不是 Value Network，也不是 MCTS。它是三者的组合，每个组件负责自己擅长的部分：

Policy 提供快速直觉
Value 提供准确评估
MCTS 提供搜索优化

今天的大模型系统也在走向同样的复合架构：

Base Model：提供语言能力和知识
Reward Model：提供评估能力
Inference Search（MCTS / CoT / 长思考）：提供推理时优化
Tool Use：提供外部计算能力
Verifiers：提供事实核查能力

没有一个单一模型能解决所有问题。AlphaGo 在 2016 年就展示了这一点。

---

七、结语：被提前送达的未来

AlphaGo 击败李世石时，大部分人只看到了"围棋"和"人机对抗"的戏剧性。但真正重要的，是 Silver 团队在那场比赛中验证的 通用智能架构：

> 学习提供直觉，搜索提供精度，自我对弈提供无限数据。

这个架构在围棋上成功了，然后在国际象棋（AlphaZero）、星际争霸（AlphaStar）、蛋白质折叠（AlphaFold）上继续成功。现在，它正在语言模型领域被重新实现——只是参数从数百万变成了数千亿，搜索空间从 19×19 变成了 vocab_size^sequence_length。

AlphaGo 没有过时。它只是 提前十年抵达了一个时代，然后安静地在等待大模型社区追赶上来。

2016 年那场比赛之后，李世石说了一句话：

> "我输了，但这不是人类的失败。这是人类创造的东西的胜利。"

今天回头看，他或许还可以加一句：

> "而且这东西正在教人类，如何训练未来的智能。"

---

参考

Silver, D., et al. "Mastering the game of Go with deep neural networks and tree search." Nature 529, 484-489 (2016).
Silver, D., et al. "Mastering the game of Go without human knowledge." Nature 550, 354-359 (2017).
DeepMind Blog: AlphaGo Zero (2017)
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment (2024)
A Survey on Self-Play Methods in Reinforcement Learning (2024)

#AlphaGo #DeepMind #大模型训练 #RLHF #TestTimeCompute #MCTS #SelfPlay #AI历史 #深度研究 #小凯