**导语**:德州扑克AI、围棋AI的算法都是人类专家设计的。但如果让AI自己来设计算法呢?Google最新研究显示,大语言模型可以"进化"出人类想不到的高效策略——在某些游戏中超越了人类设计的SOTA算法。
---
## 一、算法设计的困境
多智能体强化学习(MARL)领域有几个经典算法:
- **CFR**(反事实遗憾最小化):德州扑克AI的核心
- **PSRO**(策略空间响应预言机):处理复杂博弈
但这些算法的**最优变体**往往依赖人类直觉:
- 折扣因子设多少?
- 什么时候平均策略?
- 如何平衡探索与利用?
研究人员像调咖啡一样反复尝试参数组合——耗时且可能错过更好的设计。
---
## 二、AlphaEvolve:让LLM来"编程"
Google提出的 **AlphaEvolve** 框架:
```
1. 维护一个算法种群(初始为人类设计的基线)
2. 选择表现好的算法作为"父母"
3. 用 Gemini 2.5 Pro 提出代码修改建议
4. 自动测试新算法
5. 把好的算法加入种群,继续进化
```
这就像**达尔文进化论 + AI程序员**:
- 自然选择保留好算法
- LLM扮演"变异"的角色,提出创新修改
---
## 三、发现一:VAD-CFR
在 CFR 算法家族中,AlphaEvolve 发现了一个新变体:**VAD-CFR(波动率自适应折扣CFR)**。
### 三个反直觉的设计
| 机制 | 传统做法 | VAD-CFR的做法 | 效果 |
|------|---------|--------------|------|
| **折扣参数** | 固定值 | 根据"波动率"动态调整 | 适应不同游戏节奏 |
| **遗憾处理** | 正负对称 | 正遗憾增强1.1倍 | 更积极利用好策略 |
| **策略平均** | 从第1轮开始 | 延迟到第500轮,按遗憾幅度加权 | 避免早期噪声影响 |
### 通俗解释
想象你在学习打牌:
- **传统CFR**:每打完一局就更新策略,不管这局是运气还是实力
- **VAD-CFR**:
- 观察最近几局的"波动程度"(运气成分)
- 波动大时更保守,波动小时更激进
- 前500局只观察不总结,之后按"确信度"加权平均
结果:在 10/11 个测试游戏中达到或超越 SOTA。
---
## 四、发现二:SHOR-PSRO
在 PSRO 算法家族中,发现了 **SHOR-PSRO(平滑混合乐观遗憾PSRO)**。
### 核心创新:混合元求解器
不是用单一方法选择策略,而是**动态混合两种方法**:
| 组件 | 作用 | 类比 |
|------|------|------|
| **乐观遗憾匹配(ORM)** | 提供稳定性,不频繁切换 | 稳健型投资者 |
| **Softmax选择** | 积极偏向高收益策略 | 激进型投资者 |
| **动态退火** | 从激进逐渐转向稳健 | 随着年龄增长调整风险偏好 |
### 训练和评估的"双标"
有趣的是,训练时和评估时的策略不同:
- **训练时**:混合因子从0.3降到0.05(越来越稳健)
- **评估时**:固定为0.01,且使用最后迭代的策略(而非平均)
这就像:
- 训练时多尝试不同方法(学生时期广泛学习)
- 评估时用最成熟的方案(工作后专注深耕)
结果:在 8/11 个测试游戏中达到或超越 SOTA。
---
## 五、为什么这很酷?
### 1. 发现人类想不到的策略
VAD-CFR 的"非对称遗憾增强"和"延迟平均"不是人类专家会直觉尝试的设计。
LLM从海量代码中学习,能提出**跨领域迁移**的创新。
### 2. 自动化算法研究
传统流程:
```
人类想idea → 写代码 → 跑实验 → 分析结果 → 再想新idea → ...
(数月时间)
```
AlphaEvolve:
```
设定目标 → AI自动迭代进化 → 输出最优算法
(数天或数小时)
```
### 3. 可解释的创新
LLM提出的修改是**代码级别的**,人类可以阅读、理解、改进。
不同于黑盒神经网络,这是**符号化的算法发现**。
---
## 六、局限与挑战
| 问题 | 说明 |
|------|------|
| **评估成本** | 每个候选算法都需要在多个游戏上测试,计算量大 |
| **局部最优** | 进化算法可能陷入局部最优,错过更好的设计 |
| **基线依赖** | 初始种群质量影响最终结果 |
| **泛化性** | 在简单博弈中发现的好算法,在复杂场景是否有效? |
---
## 七、未来展望
**短期**:
- 将 AlphaEvolve 应用于更多算法家族(MCTS、PPO等)
- 结合人类专家知识引导进化方向
**长期**:
- **AI设计AI算法**的递归循环
- 自动发现全新算法框架(而非改进现有框架)
- 应用到真实世界场景(拍卖、交通、能源)
---
## 参考
- 论文:https://arxiv.org/pdf/2602.16928
- 发表时间:2026年2月24日
- 关键词:自动机器学习、算法发现、进化算法、大语言模型
---
*本文用通俗语言解读学术论文,如有不准确之处欢迎指正*
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!