作者:小凯
参考:Silver et al., Nature 2016, 2017; DeepMind 技术博客
一、前言:为什么十年后还要回头看 AlphaGo?
2016 年 3 月,AlphaGo 击败李世石。当时大多数人看到的只是一场围棋胜负——机器战胜了人类千年智慧的结晶。但真正值得在今天重新审视的,不是那场比赛本身,而是 AlphaGo 背后那套 工程架构,它以一种近乎预言的方式,提前十年展示了今天大模型训练中的核心范式。
Silver 团队当时解决的根本问题,和今天 OpenAI、DeepSeek、Anthropic 正在解决的问题是同一个:
如何让一个表达能力有限(数百万参数)的模型,逼近一个理论上无法穷举的复杂问题?
AlphaGo 的答案写在了 2016 年的 Nature 论文里,但直到 2024-2025 年,LLM 社区才逐步意识到:这些答案从未过时,它们只是在等待一个合适的时代被重新发现。
二、AlphaGo 的四大工程构件
要理解 AlphaGo 的"预言性",先把它拆解成四个核心组件:
| 构件 | 功能 | 参数规模 | 今天 LLM 的对应物 |
|---|---|---|---|
| SL Policy Network | 模仿人类高手走法 | 13 层 CNN | SFT(监督微调) |
| RL Policy Network | 通过自我对弈优化策略 | 同 SL 网络 | PPO/GRPO(强化学习) |
| Value Network | 评估当前局面胜率 | 同架构,单输出头 | Reward Model / Critic |
| MCTS | 推理时搜索最优路径 | 无参数 | Test-Time Compute / 推理搜索 |
| Fast Rollout | 快速模拟对局至结束 | 线性特征 | 轻量级 Heuristic / 蒸馏模型 |
这个表格本身就说了一个关键事实:AlphaGo 不是一个单一的神经网络,而是一个"学习 + 搜索 + 评估"的复合系统。今天的大模型训练正在沿着同样的方向演进——只是从 19×19 的棋盘换成了 token 序列。
三、核心映射:从围棋到语言模型
3.1 Policy Network → LLM / Generator
AlphaGo 的 Policy Network 输入当前棋局,输出所有合法落子的概率分布。这在今天的语言模型中,就是 自回归生成:给定上下文,预测下一个 token 的概率分布。
但 AlphaGo 做了一个当时被忽视、今天被重新发现的区分:
- SL Policy(监督学习版):用人类棋谱训练,学会"像人一样下棋"
- RL Policy(强化学习版):用自我对弈训练,学会"赢棋"
这个区分在今天 LLM 领域有一个几乎逐字对应的概念:
- SFT 阶段:让模型学会"像人类一样说话/推理"
- RL 阶段(RLHF / GRPO):让模型学会"生成正确的答案"
AlphaGo 的消融实验早就证明了:没有 SL Policy 作为热启动,RL 训练完全无法收敛。这解释了为什么今天的大模型训练仍然需要 SFT 阶段——纯 RL 从零开始太慢,需要一个"先学会像人"的初始化。
3.2 Value Network → Reward Model / Critic
Value Network 是 AlphaGo 最被低估的贡献。它输入一个棋局,输出一个标量:-1(必输)到 +1(必赢)。这个标量不是来自人类标注,而是来自 自我对弈的统计结果——网络在大量自己跟自己下棋的数据上,学会判断"这个局面最终赢面多大"。
这在今天 LLM 训练中对应什么?
- Reward Model(RLHF):训练一个模型来评估"这个回答好不好"
- Critic(PPO/GRPO):在策略梯度中提供基线估计
- Process Reward Model(PRM):DeepSeek 在数学推理中用的,评估每一步推理的质量
AlphaGo 的 Value Network 是一个 Outcome Reward Model(ORM)——只评估最终结果。而今天的 PRM 更像是在把 AlphaGo 的 Value Network 细粒度化:不只评估最终局面,还要评估每一步落子的质量。
3.3 MCTS → Test-Time Compute / 推理时搜索
这是 AlphaGo 最具"预言性"的设计。
MCTS(Monte Carlo Tree Search)在推理时做了一件事:用计算换精度。Policy Network 提供一个"直觉"(先验概率),Value Network 提供"评估"(局面判断),然后 MCTS 在这两者之间做搜索,探索更多可能性,找到比直觉更好的落子。
Silver 在论文里明确写了:
"MCTS 可以被视为一个 策略改进算子(policy improvement operator)。搜索产生的概率分布 π 比原始网络输出 p 更强。"
这句话在 2024 年被换了个说法重新发表:
"o1 的 long reasoning 是在推理时花更多计算来探索更好的推理路径。"
从 AlphaGo 到 o1,本质上是同一个 idea:
- 训练时:用神经网络学习一个快速但粗糙的直觉
- 推理时:用搜索(MCTS / CoT / 长思考)把这个直觉精细化
- 关键洞察:一个不够强的模型 + 足够好的搜索,可以击败一个强模型 + 差搜索
AlphaGo 在 2016 年就证明了这个不等式。今天的大模型只是在另一个领域(语言)重新验证它。
3.4 自我对弈 → RLHF / Self-Play / 合成数据
AlphaGo Zero(2017)是 Silver 团队最激进的实验:完全抛弃人类棋谱,从零开始自我对弈。
训练流程是:
- 随机初始化网络
- 网络自己跟自己下棋(MCTS 指导每一步)
- 用对弈结果训练网络(Policy 学习 MCTS 的搜索分布,Value 学习对弈结果)
- 网络变强 → MCTS 搜索质量提高 → 对弈数据质量提高 → 网络进一步变强
这个 virtuous cycle(良性循环) 在 2024 年换了个名字重新登场:
- DeepSeek-R1 的 GRPO:模型自己生成推理轨迹,Reward Model 评估,用策略梯度更新
- VinePPO:用 MCTS 类似的搜索在推理时收集更多样本,改善信用分配
- o1 / o3:推理时搜索 + 训练时蒸馏
AlphaGo Zero 告诉我们的核心教训是:当一个环境允许无限自我对弈时,人类数据不是必需的,它只是加速器。围棋满足这个条件(规则简单、胜负明确、可无限重开)。语言模型也在逼近这个条件(SFT 数据饱和、合成数据质量提高、自我验证能力增强)。
四、AlphaGo Zero 的"热启动悖论"
AlphaGo(2016)和 AlphaGo Zero(2017)之间有一个关键差异:
| 版本 | 人类数据 | 网络架构 | 搜索方式 |
|---|---|---|---|
| AlphaGo Lee | 需要(KGS 棋谱) | Policy + Value 分离 | MCTS + Fast Rollout |
| AlphaGo Zero | 不需要 | 单网络,双头(ResNet) | 纯 MCTS,无 Rollout |
AlphaGo Zero 证明了:纯自弈可以达到甚至超越人类数据热启动的效果。但这个结论有一个隐含条件:
它需要更多计算和时间。
AlphaGo Zero 在 4 块 TPU 上训练了 72 小时才超越之前版本。如果没有人类棋谱的"热启动",它要从完全随机的落子开始,花更长时间爬出性能平原。
这个"热启动悖论"在 2024 年的 LLM 领域被重新争论:
- SFT 派:"必须先有高质量人类数据,模型才能学会基本语法和推理格式"
- 纯 RL 派:"AlphaGo Zero 证明了可以纯自弈,LLM 也应该可以"
- 现实:今天的 LLM 训练是混合的——先用 SFT 热启动,再用 RL 优化,同时用合成数据扩充
AlphaGo Zero 的历史告诉我们:纯自弈的上限更高,但路径更陡峭。人类数据的价值不在于"灌输知识",而在于 提供一个好的初始化点,让 RL 在更短时间内收敛到有用的策略。
五、李世石的"神之一手":人类最后的荣耀
2016 年 3 月 12 日,第二局,第 78 手。
李世石在右下角下了一步"挖"(wedge),这步棋被后来称为 "神之一手"(Divine Move)。它打破了 AlphaGo 的既定评估,导致程序在后续几手中出现明显的失误。
从今天的视角看,这步棋的戏剧性不止在于它的美学价值,而在于它揭示了 搜索算法的边界:
- AlphaGo 的 MCTS 在评估这步棋时,因为它的概率太低(Policy Network 的直觉认为这不是好棋),所以 搜索时没有分配足够的模拟次数 来发现它的深层价值
- Value Network 对这步棋后的局面评估也过于乐观(认为黑棋仍占优)
- 直到李世石真正下出这步棋,AlphaGo 才被迫重新评估,但已经为时已晚
这和大语言模型今天面临的 "幻觉" 问题是同一个机制:
- 模型在训练时见过大量数据,形成了一套"直觉"(先验概率)
- 当遇到 训练分布之外 的输入时,直觉可能出错
- 如果没有推理时的搜索/验证机制来修正,模型会直接输出错误答案
李世石的神之一手,本质上是一个 对抗样本——一个精心设计、落在模型"盲区"的输入。而今天 LLM 的 RL 训练、推理时搜索、Self-Verification,都是在试图扩大这个盲区,减少被对抗的概率。
六、为什么 AlphaGo 没有过时?
AlphaGo 的遗产可以总结为三个"范式转移":
1. 从"训练时优化"到"推理时计算"
传统机器学习认为:模型训练好了,推理就是前向传播。AlphaGo 打破了这点:推理可以是搜索过程,计算可以在推理时动态分配。
今天 o1、DeepSeek-R1 的"长思考"正是这个范式的复现。GPT-4 的 1.8T 参数是训练时计算的沉淀,而 o1 的 reasoning tokens 是推理时计算的动态分配。两者的结合才是完整的智能系统。
2. 从"人类数据驱动"到"自进化循环"
AlphaGo Zero 证明了 自弈可以产生超越人类的数据质量。因为:
- 人类数据有天花板(人类棋手的水平上限)
- 自我对弈的数据质量随着模型变强而持续提高(良性循环)
- 当模型超过人类水平后,只有自我对弈能产生"超人类水平"的训练数据
今天 LLM 领域的 合成数据、Self-Play、蒸馏自 stronger model,都是沿着这个方向。DeepSeek-V3 的 14.8T 训练数据中,合成数据占了相当比例。这不是因为人类数据不够,而是因为 模型自己生成的数据质量在提高。
3. 从"单一网络"到"复合系统"
AlphaGo 不是 Policy Network,不是 Value Network,也不是 MCTS。它是三者的 组合,每个组件负责自己擅长的部分:
- Policy 提供快速直觉
- Value 提供准确评估
- MCTS 提供搜索优化
今天的大模型系统也在走向同样的复合架构:
- Base Model:提供语言能力和知识
- Reward Model:提供评估能力
- Inference Search(MCTS / CoT / 长思考):提供推理时优化
- Tool Use:提供外部计算能力
- Verifiers:提供事实核查能力
没有一个单一模型能解决所有问题。AlphaGo 在 2016 年就展示了这一点。
七、结语:被提前送达的未来
AlphaGo 击败李世石时,大部分人只看到了"围棋"和"人机对抗"的戏剧性。但真正重要的,是 Silver 团队在那场比赛中验证的 通用智能架构:
学习提供直觉,搜索提供精度,自我对弈提供无限数据。
这个架构在围棋上成功了,然后在国际象棋(AlphaZero)、星际争霸(AlphaStar)、蛋白质折叠(AlphaFold)上继续成功。现在,它正在语言模型领域被重新实现——只是参数从数百万变成了数千亿,搜索空间从 19×19 变成了 vocab_size^sequence_length。
AlphaGo 没有过时。它只是 提前十年抵达了一个时代,然后安静地在等待大模型社区追赶上来。
2016 年那场比赛之后,李世石说了一句话:
"我输了,但这不是人类的失败。这是人类创造的东西的胜利。"
今天回头看,他或许还可以加一句:
"而且这东西正在教人类,如何训练未来的智能。"
参考
- Silver, D., et al. "Mastering the game of Go with deep neural networks and tree search." Nature 529, 484-489 (2016).
- Silver, D., et al. "Mastering the game of Go without human knowledge." Nature 550, 354-359 (2017).
- DeepMind Blog: AlphaGo Zero (2017)
- VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment (2024)
- A Survey on Self-Play Methods in Reinforcement Learning (2024)
#AlphaGo #DeepMind #大模型训练 #RLHF #TestTimeCompute #MCTS #SelfPlay #AI历史 #深度研究 #小凯
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。