导语:德州扑克AI、围棋AI的算法都是人类专家设计的。但如果让AI自己来设计算法呢?Google最新研究显示,大语言模型可以"进化"出人类想不到的高效策略——在某些游戏中超越了人类设计的SOTA算法。
一、算法设计的困境
多智能体强化学习(MARL)领域有几个经典算法:
- CFR(反事实遗憾最小化):德州扑克AI的核心
- PSRO(策略空间响应预言机):处理复杂博弈
但这些算法的最优变体往往依赖人类直觉:
- 折扣因子设多少?
- 什么时候平均策略?
- 如何平衡探索与利用?
研究人员像调咖啡一样反复尝试参数组合——耗时且可能错过更好的设计。
二、AlphaEvolve:让LLM来"编程"
Google提出的 AlphaEvolve 框架:
1. 维护一个算法种群(初始为人类设计的基线)
2. 选择表现好的算法作为"父母"
3. 用 Gemini 2.5 Pro 提出代码修改建议
4. 自动测试新算法
5. 把好的算法加入种群,继续进化
这就像达尔文进化论 + AI程序员:
- 自然选择保留好算法
- LLM扮演"变异"的角色,提出创新修改
三、发现一:VAD-CFR
在 CFR 算法家族中,AlphaEvolve 发现了一个新变体:VAD-CFR(波动率自适应折扣CFR)。
三个反直觉的设计
| 机制 | 传统做法 | VAD-CFR的做法 | 效果 |
|---|---|---|---|
| 折扣参数 | 固定值 | 根据"波动率"动态调整 | 适应不同游戏节奏 |
| 遗憾处理 | 正负对称 | 正遗憾增强1.1倍 | 更积极利用好策略 |
| 策略平均 | 从第1轮开始 | 延迟到第500轮,按遗憾幅度加权 | 避免早期噪声影响 |
通俗解释
想象你在学习打牌:
- 传统CFR:每打完一局就更新策略,不管这局是运气还是实力
- VAD-CFR:
- 观察最近几局的"波动程度"(运气成分)
- 波动大时更保守,波动小时更激进
- 前500局只观察不总结,之后按"确信度"加权平均
结果:在 10/11 个测试游戏中达到或超越 SOTA。
四、发现二:SHOR-PSRO
在 PSRO 算法家族中,发现了 SHOR-PSRO(平滑混合乐观遗憾PSRO)。
核心创新:混合元求解器
不是用单一方法选择策略,而是动态混合两种方法:
| 组件 | 作用 | 类比 |
|---|---|---|
| 乐观遗憾匹配(ORM) | 提供稳定性,不频繁切换 | 稳健型投资者 |
| Softmax选择 | 积极偏向高收益策略 | 激进型投资者 |
| 动态退火 | 从激进逐渐转向稳健 | 随着年龄增长调整风险偏好 |
训练和评估的"双标"
有趣的是,训练时和评估时的策略不同:
- 训练时:混合因子从0.3降到0.05(越来越稳健)
- 评估时:固定为0.01,且使用最后迭代的策略(而非平均)
这就像:
- 训练时多尝试不同方法(学生时期广泛学习)
- 评估时用最成熟的方案(工作后专注深耕)
结果:在 8/11 个测试游戏中达到或超越 SOTA。
五、为什么这很酷?
1. 发现人类想不到的策略
VAD-CFR 的"非对称遗憾增强"和"延迟平均"不是人类专家会直觉尝试的设计。
LLM从海量代码中学习,能提出跨领域迁移的创新。
2. 自动化算法研究
传统流程:
人类想idea → 写代码 → 跑实验 → 分析结果 → 再想新idea → ...
(数月时间)
AlphaEvolve:
设定目标 → AI自动迭代进化 → 输出最优算法
(数天或数小时)
3. 可解释的创新
LLM提出的修改是代码级别的,人类可以阅读、理解、改进。
不同于黑盒神经网络,这是符号化的算法发现。
六、局限与挑战
| 问题 | 说明 |
|---|---|
| 评估成本 | 每个候选算法都需要在多个游戏上测试,计算量大 |
| 局部最优 | 进化算法可能陷入局部最优,错过更好的设计 |
| 基线依赖 | 初始种群质量影响最终结果 |
| 泛化性 | 在简单博弈中发现的好算法,在复杂场景是否有效? |
七、未来展望
短期:
- 将 AlphaEvolve 应用于更多算法家族(MCTS、PPO等)
- 结合人类专家知识引导进化方向
长期:
- AI设计AI算法的递归循环
- 自动发现全新算法框架(而非改进现有框架)
- 应用到真实世界场景(拍卖、交通、能源)
参考
- 论文:https://arxiv.org/pdf/2602.16928
- 发表时间:2026年2月24日
- 关键词:自动机器学习、算法发现、进化算法、大语言模型
本文用通俗语言解读学术论文,如有不准确之处欢迎指正
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力