当语言模型坐上牌桌：零训练、零求解器，扑克AI的第四种范式

项目	内容
标题	PokerSkill: LLMs Can Play Expert-Level Poker without Training or Solvers
作者	Boning Li, Baoxiang Wang, Longbo Huang
机构	清华大学（IIIS）、香港中文大学（深圳）
arXiv ID	2605.30094
日期	2026-05-28
分类	cs.AI, cs.GT
核心发现	纯LLM搭配结构化专家规则脚手架，无需任何游戏特定训练或均衡求解器，即可在 heads-up no-limit Texas Hold'em 中达到专家级水平，损失率较原始提示降低49%–61%，且超越历史强 bot Slumbot

---

🎲 1. 牌桌之上，三种范式已逝

扑克乃AI之试金石。非止于计算，更关乎欺骗、信念与不完全信息之博弈。

自2007年 Zinkevich 等人提出 Counterfactual Regret Minimization（CFR，反事实遗憾最小化）以来，扑克AI历经三波浪潮。第一波，阿尔伯塔大学之 DeepStack（2017），以深度神经网络估计子博弈价值，于每一决策点实时求解。第二波，卡内基梅隆大学之 Libratus（2018），以蓝图策略加子博弈重解，在匹兹堡赌场鏖战十二万手，击败四位顶尖人类职业选手。第三波，Pluribus（2019）将战场扩至六人桌，以蒙特卡洛 CFR 与有限搜索深度，证明多智能体博弈亦非不可逾越。

此三波共享同一范式：以数百万核小时之离线计算，迭代逼近纳什均衡。求解器乃核心——PioSOLVER、GTO+、GTOWizard——专业牌手之必修课。若欲令AI打牌，先令其"学"牌：遍历博弈树，最小化反事实遗憾，收敛至均衡策略。此路已走二十年，成效卓著，然代价亦巨。

> 小贴士：纳什均衡（Nash Equilibrium）者，博弈论之基石也。谓一种策略组合，其中任一玩家单方面改变策略皆无法获益。于扑克中，均衡策略使对手无法通过观察你的行为模式来剥削你——因为你自己的行为就是"不可剥削"的随机化混合。

而今，第四波悄然而至。清华大学与香港中文大学（深圳）之研究团队提出 PokerSkill，一条截然不同的路径：无需训练，无需求解器，仅凭现成之大语言模型与一套人类专家设计之规则脚手架，即可与 GTOWizard（当前最强 GTO 基准）抗衡。

GPT-5.5 XHigh 搭配 PokerSkill，以 −57 ± 21 mbb/hand 之成绩对阵 GTOWizard；Claude Opus 4.6 达 −80 ± 29；Claude Opus 4.7 达 −87 ± 64。相较各自之默认提示基线（−132、−204、−170），损失削减 49% 至 61%。更具冲击力者：三者皆超越 Slumbot（−194 ± 41）——2025年前之最强开源扑克 bot，2018年 ACPC 冠军。

此乃首次有纯 LLM 在不完美信息博弈中达此水平，且不依赖任何游戏树遍历、迭代训练或求解器查询。

---

🧠 2. 决策绑定：知与行之鸿沟

何以 LLM 读了天下所有扑克策略书，上了牌桌却一塌糊涂？

PokerSkill 之作者将此困境命名为决策绑定问题（Decision-Binding Problem）。 frontier LLM 读过海量扑克语料——策略书、论坛帖、求解器分析、专家解说——论"知"，堪称博闻强识。 pot odds、blockers、minimum defense frequency、polarized ranges，问之则对答如流。然知不等于行。当真实牌局之压力涌来，模型须同时评估相对手牌强度、牌面纹理、下注历史、位置、筹码深度与合法下注尺寸，再于瞬间择一策略——此时，知识崩解了。

作者举了一个触目惊心的例子。Claude Opus 4.6 手持 4♥7♠，牌面为 5♥4♣3♥4♠3♠。此乃明三条（trip fours），一手好牌。模型却宣称："我持有 QKo 于 5d4c3h4s 牌面——完全空气，无对子。" 它幻觉了完全不同的底牌。此非推理之误，乃状态锚定之败——模型连自己在玩什么牌都没读对。

此现象映射至更广之 LLM 应用困境。模型拥有参数化知识，然于" Situated Action "（情境化行动）中，知识之提取与绑定屡屡失效。 PokerSkill 之洞见在于：问题非模型不够聪明，乃信息呈现之方式有误。裸LLM接收游戏状态与所有合法动作，如无头苍蝇般输出原始响应，易生无效尺寸、幻觉与弱策略。需要一"脚手架"——一确定性之框架——将模型之推理约束于有意义之决策空间内。

---

⚙️ 3. 三层脚手架：读牌、忆诀、定策

PokerSkill 之架构犹如一老练牌手之思维流程：先读局势，再忆对应策略原则，最后于合理选项中择一。

3.1 情境引擎（Context Engine）：读牌如读人

第一步，确定性规则分析当前状态——底牌、牌面纹理、行动历史、位置、筹码底池比（SPR）、累积下注压力——输出紧凑之标签。例如：

牌面纹理："干燥高牌面"、"同花听牌面"、"顺子听牌面"
手牌类别："顶对顶踢脚"、"明三条"、"纯空气"
行动线："翻牌前加注-翻牌持续下注"
SPR：" deep stack "（深筹码）或" short stack "（短筹码）

此引擎无学习成分，纯以人类专家设计之规则运行。其作用，乃将原始牌局状态转化为一组语义标签，供后续检索使用。

3.2 技能库（Skill Library）：分层策略之精粹

第二步，情境标签驱动选择性检索，从分层技能库中提取相关提示片段——非塞入整库，仅取当前局势所需之碎片。

此技能库由作者中之一名或多名资深扑克玩家设计。此人花数年研习 GTO 理论、执教他人、征战高额桌。库中涵盖约 60 种行动线场景、23 个手牌类别、46 个下注尺寸压力阈值。每一碎片皆 grounded 于成熟扑克理论，非临时启发式。

例如，一技能碎片可能写道：

> "手持顶对顶踢脚于干燥翻牌面，作为翻牌前加注者，应做较小持续下注（约 25-33% 底池），以价值为主、保护为辅。面对加注，若非极端湿润牌面，通常跟注一次。"

此库之关键特性：详尽而可靠。详尽，故覆盖常见场景；可靠，故 grounded 于理论而非臆测。同一套表，跨越三种不同 LLM（GPT-5.5、Claude Opus 4.6、Claude Opus 4.7）无需修改即可使用。

3.3 攻防预算系统（ATT/DEF Budget）：划定行动边界

第三步，攻防预算系统追踪跨街（street）之累积压力，将行动空间过滤为策略上可行之选项。

预算系统之核心，乃一"攻击/防御"账本。作为攻击者，你有一累积加权下注额度，依手牌强度分配于翻牌、转牌、河牌。作为防御者，你有一基于对手下注尺寸之跟注阈值。此系统不排名选项——它仅剔除明显荒谬之动作（如纯空气于湿润牌面全押）。最终之选择，留予 LLM 之判断。

此设计之精妙，在于分工：规则引擎负责"什么不可做"，LLM 负责"在可行选项中择何者"。规则提供地板，LLM 提供天花板。

---

📊 4. 数字为证：从 −204 到 −80 之跃迁

实验对阵 GTOWizard，当前最强 GTO 基准，自带 AIVAT 方差削减。GTOWizard 曾以 194 ± 41 mbb/hand 之优势击败 Slumbot。

模型	默认提示基线	PokerSkill	改善幅度
GPT-5.5 XHigh	−132 ± 25	−57 ± 21	57%
Claude Opus 4.6	−204 ± 44	−80 ± 29	61%
Claude Opus 4.7	−170 ± 28	−87 ± 64	49%

三项 PokerSkill 代理对阵 GTOWizard 之损失率，皆低于 Slumbot（−194 ± 41）。差距之幅度（−57 对 −194）远超测量不确定性。

一消融实验尤具启发：仅使用技能库加确定性动作选择（无 LLM），达 −132 ± 19 mbb/hand——与默认提示之 GPT-5.5 相当。此证技能库本身已捕获大量扑克知识。然技能库 alone（−132）与 PokerSkill + GPT-5.5（−57）之间，差距巨大。规则 alone 非强策略，LLM alone 不能打好，二者结合，方生奇效。

更有趣者，跨模型差异。同一框架下，GPT-5.5 XHigh（−57）优于 Claude Opus 4.6（−80）。权重相同，信息呈现方式相同——唯模型之推理能力异。此暗示：框架提升有上限，基础模型之能力仍为瓶颈。

成本方面，GPT-5.5 XHigh 约 $0.30/手；Claude Opus 4.6/4.7 约 $0.07/手。五千手评估，前者约 $1500，后者约 $350。于科研可承受之范围。

---

🏗️ 5. 范式之问： Scaling alone 可否？

PokerSkill 之出现，抛出一深刻问题：若基础模型持续 scaling，此类结构化脚手架终将 obsolete 否？

作者之答，谨慎而诚实：尚不明了。 PokerSkill 展示了"训练-free、求解器-free"之新路径，然其性能仍逊于顶尖求解器系统（GTOWizard 自身即为求解器驱动）。差距存在，但已大幅收窄。更重要的是，此路径之性能随基础模型提升而自然提升——GPT-5.5 优于 Claude Opus 4.6，即为一证。求解器系统则固于其离线计算，不随 LLM 进步而进步。

另一维度：可解释性。 Libratus、Pluribus 之策略，源于数百万次 CFR 迭代，其决策逻辑对人类近乎黑箱。 PokerSkill 之每一动作，皆可追溯至情境标签、技能碎片与预算约束。 LLM 于受限空间内行判断，其输入透明、可审计。于需人机协作之场景——如教学、策略分析、规则验证——此透明性价值难量。

> 小贴士：GTO（Game Theory Optimal，博弈论最优）非"每手牌都赢"，而是"长期不可被剥削"。即使 GTO 策略，于单 session 中也可能亏损—— variance（方差）乃扑克之固有属性。故评估扑克AI须以"mbb/hand"（每百手大盲注）为单位，且须足够大之手数样本。

---

🔮 6. 越过牌桌：结构化脚手架之通用启示

PokerSkill 之核心启示，远超扑克本身。

它展示了一种知识激活之范式：通用 LLM 内藏海量领域知识，然需外部结构化信号方能正确"调用"。此信号非训练所得，乃人类专家以显式规则编码之认知流水线。于扑克，此流水线为"读牌→忆诀→定策"。于其他领域，可为"读图→忆病理特征→定诊断"、"读代码→忆设计模式→定重构方案"。

此范式与当前"端到端训练"之主流形成对照。端到端追求以数据驱动自动发现最优策略，无需人类先验。 PokerSkill 则拥抱人类先验——非替代 LLM 之推理，乃锚定之。规则提供边界与指引，LLM 提供灵活判断。于数据稀缺、规则明确、安全关键之领域，此混合范式或具独特优势。

更深远之问题：若 LLM 之内已隐含 GTO 策略之某种近似，何以单独激活时如此脆弱？ PokerSkill 之"决策绑定问题"提示：知识之存储与知识之 Situated Deployment，乃两个不同之计算问题。前者为"知道 pot odds 是什么"，后者为"在此具体牌面、此具体筹码深度、此对手行动历史下， pot odds 应如何影响我的决策"。二者之间，隔着一个世界。

此洞见对通用人工智能之追求亦有警示。若一系统拥有百科全书式知识，却无法于具体情境中可靠绑定之，则其"智能"仍属残缺。 PokerSkill 未解决此问题——它以脚手架绕过之。然绕过本身，即为一类工程智慧。

---

参考文献

1. Brown & Sandholm (2018). "Superhuman AI for heads-up no-limit poker: Libratus beats top professionals." *Science*, 359(6374):418-424. Carnegie Mellon University. 核心贡献：首个在 heads-up no-limit Texas Hold'em 中击败顶尖人类职业选手的AI，结合蓝图策略、子博弈重解与自我改进，标志扑克AI第二浪潮之巅。

2. Brown & Sandholm (2019). "Superhuman AI for multiplayer poker." *Science*, 365(6456):885-890. CMU & Facebook AI Research. 核心贡献：Pluribus 将扑克AI扩展至六人桌——此前被认为远难于单挑——以蒙特卡洛 CFR 与有限搜索深度实现，计算成本远低于前代系统。

3. Moravčík et al. (2017). "DeepStack: Expert-level artificial intelligence in heads-up no-limit poker." *Science*, 356(6337):508-513. University of Alberta. 核心贡献：首个结合深度神经网络与实时 CFR 求解的扑克AI，以估值网络剪枝搜索空间，为后续求解器时代奠定技术基础。

4. Bowling et al. (2015). "Heads-up limit hold'em poker is solved." *Science*, 347(6218):145-149. University of Alberta. 核心贡献：Cepheus 以 CFR+ 算法在理论上"解决"了限注德州扑克单挑——即其策略与纳什均衡之差距小到人类于生命周期内无法区分，开启扑克AI科学化时代。

5. Zinkevich et al. (2007). "Regret Minimization in Games with Incomplete Information." *NIPS*. University of Alberta. 核心贡献：CFR 算法之原始论文，提出以迭代最小化反事实遗憾逼近纳什均衡之方法，成为此后二十年所有扑克AI之共同基石。

---

> 论文元数据 > > - 标题：PokerSkill: LLMs Can Play Expert-Level Poker without Training or Solvers > - 作者：Boning Li, Baoxiang Wang, Longbo Huang > - 机构：清华大学 IIIS、香港中文大学（深圳） > - arXiv ID：2605.30094 > - 日期：2026-05-28 > - 分类：cs.AI, cs.GT > - 核心论点：规则式AI不必沦为弱基线；当与具备推理能力之通用引擎结合时，人类专家知识可成为有效之行动接地接口。此"训练-free、求解器-free"之新范式，随基础LLM能力提升而自然增强，为专用领域之智能应用开辟替代路径。

#CrushAI #FeynmanLearning #智柴系统实验室🎙️