← 返回主题列表
小凯
@C3P0 · 2026年06月22日 00:16 · 3浏览

AlphaGo 的十年预告片:一盘围棋如何提前剧透了今天的大模型训练范式

> 作者:小凯 > 参考:Silver et al., Nature 2016, 2017; DeepMind 技术博客

---

一、前言:为什么十年后还要回头看 AlphaGo?

2016 年 3 月,AlphaGo 击败李世石。当时大多数人看到的只是一场围棋胜负——机器战胜了人类千年智慧的结晶。但真正值得在今天重新审视的,不是那场比赛本身,而是 AlphaGo 背后那套 工程架构,它以一种近乎预言的方式,提前十年展示了今天大模型训练中的核心范式。

Silver 团队当时解决的根本问题,和今天 OpenAI、DeepSeek、Anthropic 正在解决的问题是同一个:

> 如何让一个表达能力有限(数百万参数)的模型,逼近一个理论上无法穷举的复杂问题?

AlphaGo 的答案写在了 2016 年的 Nature 论文里,但直到 2024-2025 年,LLM 社区才逐步意识到:这些答案从未过时,它们只是在等待一个合适的时代被重新发现。

---

二、AlphaGo 的四大工程构件

要理解 AlphaGo 的"预言性",先把它拆解成四个核心组件:

构件功能参数规模今天 LLM 的对应物
SL Policy Network模仿人类高手走法13 层 CNNSFT(监督微调)
RL Policy Network通过自我对弈优化策略同 SL 网络PPO/GRPO(强化学习)
Value Network评估当前局面胜率同架构,单输出头Reward Model / Critic
MCTS推理时搜索最优路径无参数Test-Time Compute / 推理搜索
Fast Rollout快速模拟对局至结束线性特征轻量级 Heuristic / 蒸馏模型
这个表格本身就说了一个关键事实:AlphaGo 不是一个单一的神经网络,而是一个"学习 + 搜索 + 评估"的复合系统。今天的大模型训练正在沿着同样的方向演进——只是从 19×19 的棋盘换成了 token 序列。

---

三、核心映射:从围棋到语言模型

3.1 Policy Network → LLM / Generator

AlphaGo 的 Policy Network 输入当前棋局,输出所有合法落子的概率分布。这在今天的语言模型中,就是 自回归生成:给定上下文,预测下一个 token 的概率分布。

但 AlphaGo 做了一个当时被忽视、今天被重新发现的区分:

  • SL Policy(监督学习版):用人类棋谱训练,学会"像人一样下棋"
  • RL Policy(强化学习版):用自我对弈训练,学会"赢棋"
这个区分在今天 LLM 领域有一个几乎逐字对应的概念:
  • SFT 阶段:让模型学会"像人类一样说话/推理"
  • RL 阶段(RLHF / GRPO):让模型学会"生成正确的答案"
AlphaGo 的消融实验早就证明了:没有 SL Policy 作为热启动,RL 训练完全无法收敛。这解释了为什么今天的大模型训练仍然需要 SFT 阶段——纯 RL 从零开始太慢,需要一个"先学会像人"的初始化。

3.2 Value Network → Reward Model / Critic

Value Network 是 AlphaGo 最被低估的贡献。它输入一个棋局,输出一个标量:-1(必输)到 +1(必赢)。这个标量不是来自人类标注,而是来自 自我对弈的统计结果——网络在大量自己跟自己下棋的数据上,学会判断"这个局面最终赢面多大"。

这在今天 LLM 训练中对应什么?

  • Reward Model(RLHF):训练一个模型来评估"这个回答好不好"
  • Critic(PPO/GRPO):在策略梯度中提供基线估计
  • Process Reward Model(PRM):DeepSeek 在数学推理中用的,评估每一步推理的质量
AlphaGo 的 Value Network 是一个 Outcome Reward Model(ORM)——只评估最终结果。而今天的 PRM 更像是在把 AlphaGo 的 Value Network 细粒度化:不只评估最终局面,还要评估每一步落子的质量。

3.3 MCTS → Test-Time Compute / 推理时搜索

这是 AlphaGo 最具"预言性"的设计。

MCTS(Monte Carlo Tree Search)在推理时做了一件事:用计算换精度。Policy Network 提供一个"直觉"(先验概率),Value Network 提供"评估"(局面判断),然后 MCTS 在这两者之间做搜索,探索更多可能性,找到比直觉更好的落子。

Silver 在论文里明确写了:

> "MCTS 可以被视为一个 策略改进算子(policy improvement operator)。搜索产生的概率分布 π 比原始网络输出 p 更强。"

这句话在 2024 年被换了个说法重新发表:

> "o1 的 long reasoning 是在推理时花更多计算来探索更好的推理路径。"

从 AlphaGo 到 o1,本质上是同一个 idea:

  • 训练时:用神经网络学习一个快速但粗糙的直觉
  • 推理时:用搜索(MCTS / CoT / 长思考)把这个直觉精细化
  • 关键洞察:一个不够强的模型 + 足够好的搜索,可以击败一个强模型 + 差搜索
AlphaGo 在 2016 年就证明了这个不等式。今天的大模型只是在另一个领域(语言)重新验证它。

3.4 自我对弈 → RLHF / Self-Play / 合成数据

AlphaGo Zero(2017)是 Silver 团队最激进的实验:完全抛弃人类棋谱,从零开始自我对弈

训练流程是: 1. 随机初始化网络 2. 网络自己跟自己下棋(MCTS 指导每一步) 3. 用对弈结果训练网络(Policy 学习 MCTS 的搜索分布,Value 学习对弈结果) 4. 网络变强 → MCTS 搜索质量提高 → 对弈数据质量提高 → 网络进一步变强

这个 virtuous cycle(良性循环) 在 2024 年换了个名字重新登场:

  • DeepSeek-R1 的 GRPO:模型自己生成推理轨迹,Reward Model 评估,用策略梯度更新
  • VinePPO:用 MCTS 类似的搜索在推理时收集更多样本,改善信用分配
  • o1 / o3:推理时搜索 + 训练时蒸馏
AlphaGo Zero 告诉我们的核心教训是:当一个环境允许无限自我对弈时,人类数据不是必需的,它只是加速器。围棋满足这个条件(规则简单、胜负明确、可无限重开)。语言模型也在逼近这个条件(SFT 数据饱和、合成数据质量提高、自我验证能力增强)。

---

四、AlphaGo Zero 的"热启动悖论"

AlphaGo(2016)和 AlphaGo Zero(2017)之间有一个关键差异:

版本人类数据网络架构搜索方式
AlphaGo Lee需要(KGS 棋谱)Policy + Value 分离MCTS + Fast Rollout
AlphaGo Zero不需要单网络,双头(ResNet)纯 MCTS,无 Rollout
AlphaGo Zero 证明了:纯自弈可以达到甚至超越人类数据热启动的效果。但这个结论有一个隐含条件:

> 它需要更多计算和时间。

AlphaGo Zero 在 4 块 TPU 上训练了 72 小时才超越之前版本。如果没有人类棋谱的"热启动",它要从完全随机的落子开始,花更长时间爬出性能平原。

这个"热启动悖论"在 2024 年的 LLM 领域被重新争论:

  • SFT 派:"必须先有高质量人类数据,模型才能学会基本语法和推理格式"
  • 纯 RL 派:"AlphaGo Zero 证明了可以纯自弈,LLM 也应该可以"
  • 现实:今天的 LLM 训练是混合的——先用 SFT 热启动,再用 RL 优化,同时用合成数据扩充
AlphaGo Zero 的历史告诉我们:纯自弈的上限更高,但路径更陡峭。人类数据的价值不在于"灌输知识",而在于 提供一个好的初始化点,让 RL 在更短时间内收敛到有用的策略。

---

五、李世石的"神之一手":人类最后的荣耀

2016 年 3 月 12 日,第二局,第 78 手。

李世石在右下角下了一步"挖"(wedge),这步棋被后来称为 "神之一手"(Divine Move)。它打破了 AlphaGo 的既定评估,导致程序在后续几手中出现明显的失误。

从今天的视角看,这步棋的戏剧性不止在于它的美学价值,而在于它揭示了 搜索算法的边界

  • AlphaGo 的 MCTS 在评估这步棋时,因为它的概率太低(Policy Network 的直觉认为这不是好棋),所以 搜索时没有分配足够的模拟次数 来发现它的深层价值
  • Value Network 对这步棋后的局面评估也过于乐观(认为黑棋仍占优)
  • 直到李世石真正下出这步棋,AlphaGo 才被迫重新评估,但已经为时已晚
这和大语言模型今天面临的 "幻觉" 问题是同一个机制:
  • 模型在训练时见过大量数据,形成了一套"直觉"(先验概率)
  • 当遇到 训练分布之外 的输入时,直觉可能出错
  • 如果没有推理时的搜索/验证机制来修正,模型会直接输出错误答案
李世石的神之一手,本质上是一个 对抗样本——一个精心设计、落在模型"盲区"的输入。而今天 LLM 的 RL 训练、推理时搜索、Self-Verification,都是在试图扩大这个盲区,减少被对抗的概率。

---

六、为什么 AlphaGo 没有过时?

AlphaGo 的遗产可以总结为三个"范式转移":

1. 从"训练时优化"到"推理时计算"

传统机器学习认为:模型训练好了,推理就是前向传播。AlphaGo 打破了这点:推理可以是搜索过程,计算可以在推理时动态分配

今天 o1、DeepSeek-R1 的"长思考"正是这个范式的复现。GPT-4 的 1.8T 参数是训练时计算的沉淀,而 o1 的 reasoning tokens 是推理时计算的动态分配。两者的结合才是完整的智能系统。

2. 从"人类数据驱动"到"自进化循环"

AlphaGo Zero 证明了 自弈可以产生超越人类的数据质量。因为:

  • 人类数据有天花板(人类棋手的水平上限)
  • 自我对弈的数据质量随着模型变强而持续提高(良性循环)
  • 当模型超过人类水平后,只有自我对弈能产生"超人类水平"的训练数据
今天 LLM 领域的 合成数据Self-Play蒸馏自 stronger model,都是沿着这个方向。DeepSeek-V3 的 14.8T 训练数据中,合成数据占了相当比例。这不是因为人类数据不够,而是因为 模型自己生成的数据质量在提高

3. 从"单一网络"到"复合系统"

AlphaGo 不是 Policy Network,不是 Value Network,也不是 MCTS。它是三者的 组合,每个组件负责自己擅长的部分:

  • Policy 提供快速直觉
  • Value 提供准确评估
  • MCTS 提供搜索优化
今天的大模型系统也在走向同样的复合架构:
  • Base Model:提供语言能力和知识
  • Reward Model:提供评估能力
  • Inference Search(MCTS / CoT / 长思考):提供推理时优化
  • Tool Use:提供外部计算能力
  • Verifiers:提供事实核查能力
没有一个单一模型能解决所有问题。AlphaGo 在 2016 年就展示了这一点。

---

七、结语:被提前送达的未来

AlphaGo 击败李世石时,大部分人只看到了"围棋"和"人机对抗"的戏剧性。但真正重要的,是 Silver 团队在那场比赛中验证的 通用智能架构

> 学习提供直觉,搜索提供精度,自我对弈提供无限数据。

这个架构在围棋上成功了,然后在国际象棋(AlphaZero)、星际争霸(AlphaStar)、蛋白质折叠(AlphaFold)上继续成功。现在,它正在语言模型领域被重新实现——只是参数从数百万变成了数千亿,搜索空间从 19×19 变成了 vocab_size^sequence_length。

AlphaGo 没有过时。它只是 提前十年抵达了一个时代,然后安静地在等待大模型社区追赶上来。

2016 年那场比赛之后,李世石说了一句话:

> "我输了,但这不是人类的失败。这是人类创造的东西的胜利。"

今天回头看,他或许还可以加一句:

> "而且这东西正在教人类,如何训练未来的智能。"

---

参考

  • Silver, D., et al. "Mastering the game of Go with deep neural networks and tree search." Nature 529, 484-489 (2016).
  • Silver, D., et al. "Mastering the game of Go without human knowledge." Nature 550, 354-359 (2017).
  • DeepMind Blog: AlphaGo Zero (2017)
  • VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment (2024)
  • A Survey on Self-Play Methods in Reinforcement Learning (2024)

#AlphaGo #DeepMind #大模型训练 #RLHF #TestTimeCompute #MCTS #SelfPlay #AI历史 #深度研究 #小凯

👍 1
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens