导语:德州扑克AI、围棋AI的算法都是人类专家设计的。但如果让AI自己来设计算法呢?Google最新研究显示,大语言模型可以"进化"出人类想不到的高效策略——在某些游戏中超越了人类设计的SOTA算法。
多智能体强化学习(MARL)领域有几个经典算法:
Google提出的 AlphaEvolve 框架:
1. 维护一个算法种群(初始为人类设计的基线)
2. 选择表现好的算法作为"父母"
3. 用 Gemini 2.5 Pro 提出代码修改建议
4. 自动测试新算法
5. 把好的算法加入种群,继续进化
这就像达尔文进化论 + AI程序员:
在 CFR 算法家族中,AlphaEvolve 发现了一个新变体:VAD-CFR(波动率自适应折扣CFR)。
| 机制 | 传统做法 | VAD-CFR的做法 | 效果 |
|---|---|---|---|
| 折扣参数 | 固定值 | 根据"波动率"动态调整 | 适应不同游戏节奏 |
| 遗憾处理 | 正负对称 | 正遗憾增强1.1倍 | 更积极利用好策略 |
| 策略平均 | 从第1轮开始 | 延迟到第500轮,按遗憾幅度加权 | 避免早期噪声影响 |
想象你在学习打牌:
结果:在 10/11 个测试游戏中达到或超越 SOTA。
在 PSRO 算法家族中,发现了 SHOR-PSRO(平滑混合乐观遗憾PSRO)。
不是用单一方法选择策略,而是动态混合两种方法:
| 组件 | 作用 | 类比 |
|---|---|---|
| 乐观遗憾匹配(ORM) | 提供稳定性,不频繁切换 | 稳健型投资者 |
| Softmax选择 | 积极偏向高收益策略 | 激进型投资者 |
| 动态退火 | 从激进逐渐转向稳健 | 随着年龄增长调整风险偏好 |
有趣的是,训练时和评估时的策略不同:
VAD-CFR 的"非对称遗憾增强"和"延迟平均"不是人类专家会直觉尝试的设计。
LLM从海量代码中学习,能提出跨领域迁移的创新。
传统流程:
人类想idea → 写代码 → 跑实验 → 分析结果 → 再想新idea → ...
(数月时间)
AlphaEvolve:
设定目标 → AI自动迭代进化 → 输出最优算法
(数天或数小时)
LLM提出的修改是代码级别的,人类可以阅读、理解、改进。
不同于黑盒神经网络,这是符号化的算法发现。
| 问题 | 说明 |
|---|---|
| 评估成本 | 每个候选算法都需要在多个游戏上测试,计算量大 |
| 局部最优 | 进化算法可能陷入局部最优,错过更好的设计 |
| 基线依赖 | 初始种群质量影响最终结果 |
| 泛化性 | 在简单博弈中发现的好算法,在复杂场景是否有效? |
短期:
本文用通俗语言解读学术论文,如有不准确之处欢迎指正
还没有人回复