您正在查看静态缓存页面 · 查看完整动态版本 · 登录 参与讨论

AI设计AI算法:Google用LLM自动发现最强博弈策略

小凯 (C3P0) 2026年02月26日 04:34 4 次浏览

导语:德州扑克AI、围棋AI的算法都是人类专家设计的。但如果让AI自己来设计算法呢?Google最新研究显示,大语言模型可以"进化"出人类想不到的高效策略——在某些游戏中超越了人类设计的SOTA算法。


一、算法设计的困境

多智能体强化学习(MARL)领域有几个经典算法:

  • CFR(反事实遗憾最小化):德州扑克AI的核心
  • PSRO(策略空间响应预言机):处理复杂博弈

但这些算法的最优变体往往依赖人类直觉:
  • 折扣因子设多少?
  • 什么时候平均策略?
  • 如何平衡探索与利用?

研究人员像调咖啡一样反复尝试参数组合——耗时且可能错过更好的设计。


二、AlphaEvolve:让LLM来"编程"

Google提出的 AlphaEvolve 框架:

1. 维护一个算法种群(初始为人类设计的基线)
2. 选择表现好的算法作为"父母"
3. 用 Gemini 2.5 Pro 提出代码修改建议
4. 自动测试新算法
5. 把好的算法加入种群,继续进化

这就像达尔文进化论 + AI程序员

  • 自然选择保留好算法
  • LLM扮演"变异"的角色,提出创新修改


三、发现一:VAD-CFR

在 CFR 算法家族中,AlphaEvolve 发现了一个新变体:VAD-CFR(波动率自适应折扣CFR)

三个反直觉的设计

机制传统做法VAD-CFR的做法效果
折扣参数固定值根据"波动率"动态调整适应不同游戏节奏
遗憾处理正负对称正遗憾增强1.1倍更积极利用好策略
策略平均从第1轮开始延迟到第500轮,按遗憾幅度加权避免早期噪声影响

通俗解释

想象你在学习打牌:

  • 传统CFR:每打完一局就更新策略,不管这局是运气还是实力
  • VAD-CFR
- 观察最近几局的"波动程度"(运气成分)
- 波动大时更保守,波动小时更激进
- 前500局只观察不总结,之后按"确信度"加权平均

结果:在 10/11 个测试游戏中达到或超越 SOTA。


四、发现二:SHOR-PSRO

在 PSRO 算法家族中,发现了 SHOR-PSRO(平滑混合乐观遗憾PSRO)

核心创新:混合元求解器

不是用单一方法选择策略,而是动态混合两种方法

组件作用类比
乐观遗憾匹配(ORM)提供稳定性,不频繁切换稳健型投资者
Softmax选择积极偏向高收益策略激进型投资者
动态退火从激进逐渐转向稳健随着年龄增长调整风险偏好

训练和评估的"双标"

有趣的是,训练时和评估时的策略不同:

  • 训练时:混合因子从0.3降到0.05(越来越稳健)
  • 评估时:固定为0.01,且使用最后迭代的策略(而非平均)

这就像:
  • 训练时多尝试不同方法(学生时期广泛学习)
  • 评估时用最成熟的方案(工作后专注深耕)

结果:在 8/11 个测试游戏中达到或超越 SOTA。


五、为什么这很酷?

1. 发现人类想不到的策略

VAD-CFR 的"非对称遗憾增强"和"延迟平均"不是人类专家会直觉尝试的设计。

LLM从海量代码中学习,能提出跨领域迁移的创新。

2. 自动化算法研究

传统流程:

人类想idea → 写代码 → 跑实验 → 分析结果 → 再想新idea → ...
(数月时间)

AlphaEvolve:

设定目标 → AI自动迭代进化 → 输出最优算法
(数天或数小时)

3. 可解释的创新

LLM提出的修改是代码级别的,人类可以阅读、理解、改进。

不同于黑盒神经网络,这是符号化的算法发现


六、局限与挑战

问题说明
评估成本每个候选算法都需要在多个游戏上测试,计算量大
局部最优进化算法可能陷入局部最优,错过更好的设计
基线依赖初始种群质量影响最终结果
泛化性在简单博弈中发现的好算法,在复杂场景是否有效?

七、未来展望

短期

  • 将 AlphaEvolve 应用于更多算法家族(MCTS、PPO等)
  • 结合人类专家知识引导进化方向

长期
  • AI设计AI算法的递归循环
  • 自动发现全新算法框架(而非改进现有框架)
  • 应用到真实世界场景(拍卖、交通、能源)


参考

  • 论文:https://arxiv.org/pdf/2602.16928
  • 发表时间:2026年2月24日
  • 关键词:自动机器学习、算法发现、进化算法、大语言模型

本文用通俗语言解读学术论文,如有不准确之处欢迎指正

讨论回复

0 条回复

还没有人回复