AI设计AI算法：Google用LLM自动发现最强博弈策略

导语：德州扑克AI、围棋AI的算法都是人类专家设计的。但如果让AI自己来设计算法呢？Google最新研究显示，大语言模型可以"进化"出人类想不到的高效策略——在某些游戏中超越了人类设计的SOTA算法。

---

一、算法设计的困境

多智能体强化学习（MARL）领域有几个经典算法：

CFR（反事实遗憾最小化）：德州扑克AI的核心
PSRO（策略空间响应预言机）：处理复杂博弈

但这些算法的最优变体往往依赖人类直觉：

折扣因子设多少？
什么时候平均策略？
如何平衡探索与利用？

研究人员像调咖啡一样反复尝试参数组合——耗时且可能错过更好的设计。

---

二、AlphaEvolve：让LLM来"编程"

Google提出的 AlphaEvolve 框架：

1. 维护一个算法种群（初始为人类设计的基线）
2. 选择表现好的算法作为"父母"
3. 用 Gemini 2.5 Pro 提出代码修改建议
4. 自动测试新算法
5. 把好的算法加入种群，继续进化

这就像达尔文进化论 + AI程序员：

自然选择保留好算法
LLM扮演"变异"的角色，提出创新修改

---

三、发现一：VAD-CFR

在 CFR 算法家族中，AlphaEvolve 发现了一个新变体：VAD-CFR（波动率自适应折扣CFR）。

三个反直觉的设计

机制	传统做法	VAD-CFR的做法	效果
折扣参数	固定值	根据"波动率"动态调整	适应不同游戏节奏
遗憾处理	正负对称	正遗憾增强1.1倍	更积极利用好策略
策略平均	从第1轮开始	延迟到第500轮，按遗憾幅度加权	避免早期噪声影响

通俗解释

想象你在学习打牌：

传统CFR：每打完一局就更新策略，不管这局是运气还是实力
VAD-CFR：
观察最近几局的"波动程度"（运气成分）
波动大时更保守，波动小时更激进
前500局只观察不总结，之后按"确信度"加权平均

结果：在 10/11 个测试游戏中达到或超越 SOTA。

---

四、发现二：SHOR-PSRO

在 PSRO 算法家族中，发现了 SHOR-PSRO（平滑混合乐观遗憾PSRO）。

核心创新：混合元求解器

不是用单一方法选择策略，而是动态混合两种方法：

组件	作用	类比
乐观遗憾匹配（ORM）	提供稳定性，不频繁切换	稳健型投资者
Softmax选择	积极偏向高收益策略	激进型投资者
动态退火	从激进逐渐转向稳健	随着年龄增长调整风险偏好

训练和评估的"双标"

有趣的是，训练时和评估时的策略不同：

训练时：混合因子从0.3降到0.05（越来越稳健）
评估时：固定为0.01，且使用最后迭代的策略（而非平均）

这就像：

训练时多尝试不同方法（学生时期广泛学习）
评估时用最成熟的方案（工作后专注深耕）

结果：在 8/11 个测试游戏中达到或超越 SOTA。

---

五、为什么这很酷？

1. 发现人类想不到的策略

VAD-CFR 的"非对称遗憾增强"和"延迟平均"不是人类专家会直觉尝试的设计。

LLM从海量代码中学习，能提出跨领域迁移的创新。

2. 自动化算法研究

传统流程：

人类想idea → 写代码 → 跑实验 → 分析结果 → 再想新idea → ...
（数月时间）

AlphaEvolve：

设定目标 → AI自动迭代进化 → 输出最优算法
（数天或数小时）

3. 可解释的创新

LLM提出的修改是代码级别的，人类可以阅读、理解、改进。

不同于黑盒神经网络，这是符号化的算法发现。

---

六、局限与挑战

问题	说明
评估成本	每个候选算法都需要在多个游戏上测试，计算量大
局部最优	进化算法可能陷入局部最优，错过更好的设计
基线依赖	初始种群质量影响最终结果
泛化性	在简单博弈中发现的好算法，在复杂场景是否有效？

---

七、未来展望

短期：

将 AlphaEvolve 应用于更多算法家族（MCTS、PPO等）
结合人类专家知识引导进化方向

长期：

AI设计AI算法的递归循环
自动发现全新算法框架（而非改进现有框架）
应用到真实世界场景（拍卖、交通、能源）

---

参考

论文：https://arxiv.org/pdf/2602.16928
发表时间：2026年2月24日
关键词：自动机器学习、算法发现、进化算法、大语言模型

---

*本文用通俗语言解读学术论文，如有不准确之处欢迎指正*