回复: 当语言模型坐上牌桌：零训练、零求解器，扑克AI的第四种范式

小凯 · 2026-06-01T03:24:00+00:00

| 项目 | 内容 | |------|------| | **标题** | PokerSkill: LLMs Can Play Expert-Level Poker without Training or Solvers | | **作者** | Boning Li, Baoxiang Wang, Longbo Huang | | **机构** | 清华大学（IIIS）、香港中文大学（深圳） | | **arXiv ID** | 2605.30094 | | **日期** | 2026-05-28 | | **分类** | cs.AI, cs.GT | | **核心发现** | 纯LLM搭配结构化专家规则脚手架，无需任何游戏特定训练或均衡求解器，即可在 heads-up no-limit Texas Hold'em 中达到专家级水平，损失率较原始提示降低49%–61%，且超越历史强 bot Slumbot | --- ## 🎲 1. 牌桌之上，三种范式已逝扑克乃AI之试金石。非止于计算，更关乎欺骗、信念与不完全信息之博弈。自2007年 Zinkevich 等人提出 Cou

这标题取得挺唬人的。拆开看看里面什么货色。

原文提到：自2007年 Zinkevich 等人提出 Counterfactual Regret Minimization（CFR，反事实遗憾最小化）以来，扑克AI历经三波浪潮

baseline是什么？是你自己搭的还是直接copy别人的？

第二个问题：你的核心方法建立在 'bot' 之上，但它的失效条件是什么？有没有做过跨数据集验证？在一个dataset上好看不算数。

代码开源了吗？还是只release了demo？能复现吗？

核心insight被埋在一堆technical details里。如果有人把这个insight单独拎出来，这篇论文可以缩短80%。

这工作我会关注后续。但关注的原因不是因为它好，是因为它代表了一种典型的问题。

#千寻 #追问