AI发现了人类15年没解开的博弈论谜题:LegoNE框架深度解读
核心直觉:纳什均衡是博弈论的圣杯,但证明一个算法"在所有情况下都好"比算法本身更难。LegoNE的 trick 是——让AI在一个人类搭好的"乐高积木盒"里拼装算法,同时有一个自动裁判实时判定"这个拼法能得多少分"。
一、一个停滞了15年的问题
想象这样一个场景:
两个嫌疑犯被分开审讯。如果都沉默,各判1年;如果都揭发,各判2年;如果一个揭发一个沉默,揭发者释放,沉默者判3年。
这就是著名的囚徒困境。每个犯人都在想:不管对方怎么选,我揭发总是更好的。结果两人都揭发,各判2年——比都沉默的1年更糟。
这个"稳定状态"就是纳什均衡——给定别人的选择,没有人能通过单方面改变来让自己更好。
纳什均衡无处不在:
- 交通:大家都靠右行
- 定价:两家互相盯着的加油站
- 拍卖:eBay上的出价策略
- 网络:TCP拥塞控制协议
但找到纳什均衡,难到令人发指。
精确计算纳什均衡被证明是 PPAD-hard——一个和 NP-hard 同样让人绝望的计算复杂性类别。所以研究者退而求其次:不求精确,求近似——找到一个策略,让每个人"后悔"不超过 ε。
问题就是:ε 能小到多少?
过去20多年,这个领域像一场漫长的马拉松:
| 年份 | 双人博弈近似保证 | 研究者 |
|---|---|---|
| 2006 | 0.75 | KPS |
| 2006 | 0.5 | DMP |
| 2006 | 0.38197 | DMP refined |
| 2007 | 0.36392 | BBM-2 |
| 2007 | 0.33933 | TS |
| 2022 | 1/3 + δ (≈0.333) | DFM |
从0.75到0.333,人类跑了16年。
而三人博弈更惨——唯一的已知方法是"扩展技术"(extension technique):把双人算法套用到多人场景。用最好的双人算法(ε₂=1/3)去扩展,三人只能得到 ε₃ = 1/(2-1/3) = 0.6。
0.6。停滞了很久。
二、LegoNE:把证明变成优化问题
LegoNE 的核心洞察是:设计近似纳什均衡算法最难的不是算法本身,而是证明它在最坏情况下也成立。
你必须证明:对于所有可能的博弈实例,所有玩家,所有可能的单方面偏离,后悔值都不超过 ε。
这是一个无限维的数学证明义务——"所有博弈实例"是无限的,"所有策略"是连续的。
人类数学家怎么做?他们用洞察力、不等式技巧、归纳论证,一页一页地手写证明。
LegoNE 说:别手写证明了,把它编译成有限优化问题。
关键技术1:实例化(Instantiation)
纳什均衡证明里有大量的"对于所有..."(∀)。
LegoNE 的策略是:不尝试一次性处理"所有",而是把问题参数化——把博弈的收益矩阵、策略概率等变成符号变量,然后生成一组有限约束。
关键洞察:近似纳什均衡的 worst-case 结构往往有有限种模式。通过巧妙的参数化,可以把无限情况归结为有限个优化问题。
关键技术2:遗忘(Forgetting)
收益函数在博弈论中通常是具体的数值函数。LegoNE 把它抽象掉——把收益看作满足某些代数性质的符号实变量。
比如,不再关心"玩家1选策略A得到5分",而是关心"玩家1的收益 ≤ 玩家1的最佳响应收益 + ε"。
通过遗忘具体收益,保留代数结构,证明变得更通用、更机械。
结果
通过实例化 + 遗忘,LegoNE 把无限维证明义务转化为固定规模的数学规划问题——扔进现成的求解器(Mathematica),80秒内出结果。
原本需要几年人类研究才能确认的证明,现在秒出。
三、LegoNE语言:像Python一样写博弈论算法
LegoNE 不是黑箱。它设计了一套领域特定语言(DSL),让算法设计者像拼乐高一样组装算法。
基本积木块来自20多年的博弈论文献:
BestResponse(i, s):玩家 i 对策略 s 的最佳响应UniformMixing(s1, s2):均匀混合两个策略StationaryPoint(f):函数 f 的驻点OptimalMixing(...):最优混合策略GradientDescent(...):梯度下降
比如,经典的 DMP 算法在 LegoNE 里只需要几行:
# 定义积木块
BestResponse1 = BestResponse(p1, s2) # 玩家1对玩家2策略的最佳响应
Random1 = RandomStrategy(p1) # 玩家1的随机策略
# DMP算法
def DMP(game):
x1 = BestResponse1(game.s2)
y1 = Random1()
r1 = UniformMixing(x1, y1)
x2 = BestResponse2(game.s1)
y2 = Random2()
r2 = UniformMixing(x2, y2)
return (r1, r2)
每个积木块都有明确的数学语义。LegoNE 分析器知道:当代码调用 BestResponse 时,它在数学上意味着什么不等式;当调用 UniformMixing 时,近似保证如何变化。
这就把代码 → 数学 → 优化问题的链条打通了。
四、LLM + LegoNE:人机协同的发现闭环
LegoNE 本身只是"自动分析器"。真正让它产生新发现的是和 LLM 的结合。
流程是这样的:
人类专家 LLM LegoNE分析器
│ │ │
│ 提供积木块和设计约束 │ │
│───────────────────────────>│ │
│ │ 组合积木块,提出候选算法 │
│ │───────────────────────────>│
│ │ │
│ │<───────────────────────────│
│ │ 返回:近似保证 ε = 0.6 │
│ │ │
│ │ 根据反馈,改进算法 │
│ │───────────────────────────>│
│ │ │
│ │<───────────────────────────│
│ │ 返回:近似保证 ε = 0.5 │
人类负责定义搜索空间(提供积木块、设计约束),LLM负责在大空间中搜索,LegoNE负责严格验证。
为什么这个分工有效?
人类不擅长的事:
- 在指数级组合空间中穷举
- 快速验证候选算法的理论保证
- 记住所有历史文献的算法变体
LLM不擅长的事:
- 从零发明全新的数学证明技术
- 理解深层博弈论直觉
- 保证输出的严格正确性
LegoNE解决的事:
- 把模糊的算法想法变成可计算的保证
- 提供即时的数值反馈(不是"这个看起来不错",而是"ε=0.53")
五、两个震撼性的结果
结果1:两轮复现16年人类进展
任务:用2007年之前的积木块(即当时已知的技术),重新发现2022年的最佳双人博弈算法。
LLM-LegoNE 系统,两轮交互,做到了。
算法结构和人类发现的 DFM 算法不同,但 LegoNE 证明它达到了相同的近似保证:1/3 + δ。
人类从上一代最好结果到当前最佳,花了约15年。AI 两轮对话搞定。
结果2:突破三人博弈的"扩展技术"天花板
这是论文最亮眼的结果。
背景:扩展技术的死胡同
三人博弈以前只有一种设计思路:扩展技术(extension technique)。
核心公式:ε₃ = 1/(2 - ε₂)
如果双人保证 ε₂ = 1/3,那三人保证 ε₃ = 1/(2-1/3) = 0.6。
要想让 ε₃ ≤ 0.5,公式要求 ε₂ = 0——也就是精确纳什均衡。但精确纳什均衡是 PPAD-hard,多项式时间内做不到。
所以扩展技术在多项式时间内永远到不了0.5。这是一个数学死胡同。
突破
LLM-LegoNE 系统在第11轮发现了一个不使用扩展技术的全新算法结构。
核心差异:
- 扩展技术的套路:先算最佳响应,然后混合
- 新算法的套路:固定玩家3的策略,用梯度下降找玩家1和2的驻点(StationaryPoint),再进行最优混合
LegoNE 证明:这个算法的近似保证是 0.5 + δ。
从0.6到0.5,看起来只改善了0.1,但它意味着:三人博弈的近似纳什均衡算法,终于走出了扩展技术的死胡同。
论文原话:
"The discovered algorithm therefore achieves a guarantee that is provably beyond what the extension technique can deliver in polynomial time."
六、这个发现为什么重要
1. 它打开了一个全新的算法设计空间
以前所有人都认为:多人博弈只能走"扩展技术"这条路。现在证明了还有别的路。
类比:就像以前所有人都用蒸汽机,突然有人发明了内燃机——不是更好一点的蒸汽机,是完全不同的原理。
2. 它展示了AI在理论数学中的新角色
不是替代数学家,而是放大数学家——
- 人类定义搜索空间(积木块)
- AI在空间中大规模搜索
- 自动分析器提供严格验证
论文称之为**"人类洞见 + 机器搜索 + 自动证明"**的协同范式。
3. 它为其他理论领域提供了可复用的方法论
LegoNE 的核心技术(实例化 + 遗忘)不只适用于纳什均衡。论文展示了两个扩展:
扩展1:Polymatrix Games
- 网络博弈,玩家数量不固定
- LegoNE 用"遗忘"处理掉玩家索引,统一分析
- 自动复现了已知算法的1/2+δ保证
扩展2:Vertex Cover 近似算法
- 经典NP-hard问题的LP松弛+舍入算法
- LegoNE 自动证明近似比为2
- 展示了框架在组合优化中的潜力
七、局限与边界
论文非常诚实地讨论了局限:
1. 依赖人类提供的积木块
LegoNE 不能从零发明全新的证明技术。它需要人类把领域知识编码成积木块。
如果某个突破需要全新的数学工具(比如当年纳什发明不动点定理),LegoNE 无能为力。
2. 适用范围的边界
实例化 + 遗忘 只在特定类型的数学结构中有效:
- 全称量词可以参数化
- 收益函数可以代数抽象
- Worst-case 可以归结为有限优化
不是所有数学问题都满足这些条件。
3. 积木块设计的艺术
给 LLM 太多积木块,搜索空间爆炸;给太少,错过好算法。
人类专家需要判断:哪些操作是"基本的"、哪些组合是"有希望的"。这本身就需要领域洞察。
4. 数值精度
LegoNE 用数值求解器(Mathematica)解优化问题。虽然论文验证了精度到 10⁻⁵,但严格来说这不是形式化证明——它依赖于求解器的数值正确性。
八、更大的图景:AI for Math 的新范式
LegoNE 属于一个正在兴起的领域:AI for Mathematics。
但它和以往的工作不同:
| 传统AI for Math | LegoNE |
|---|---|
| 辅助证明(如Lean、Coq) | 自动发现 + 自动证明 |
| 人类提出猜想,AI验证 | AI提出算法,自动分析器验证 |
| 符号计算(如Mathematica) | 符号 + LLM搜索 + 优化 |
| 需要完整的公理系统 | 领域特定语言,更轻量 |
LegoNE 的核心创新是:不是让AI学会做数学家的所有工作,而是让AI做它最擅长的(大规模组合搜索),同时用严格的自动分析器保证正确性。
这和 Xing 论文里的 Agentic vs Agentive 也有呼应——LegoNE 是高度 Agentic 的:人类设计了严密的脚手架(语言、分析器、积木块),LLM 在脚手架上跳舞。但跳舞的结果,是发现了人类设计范式之外的新算法。
九、一个哲学层面的问题
这个发现引出了一个有趣的问题:
AI 发现的算法,算是"新"的吗?
从结构上看,它确实和人类已知的算法不同——没有使用扩展技术,用了驻点+最优混合的新组合。
但从积木块来看,所有组件都来自人类文献。LLM 只是以一种人类没想到的方式组合了它们。
这就像:乐高积木都是现成的,但有人拼出了前所未有的造型。
论文的态度很务实:
"The structure of the final 0.5+δ algorithm was not anticipated by the human experts who designed the building blocks."
人类没预料到,但人类提供了积木。
这也许是未来数学发现的标准模式:人类负责发明"原子",AI负责探索"分子",自动证明系统负责验证"稳定性"。
结语:从"手工证明"到"编译证明"
LegoNE 的名字很贴切——LEGO + NE(Nash Equilibrium)。
它把数学证明从"手工艺品"变成了"可编译的代码"。
人类数学家花了15年从0.5到0.333。AI两轮对话复现了这个结果,然后11轮对话突破了三人博弈的天花板。
这不是说数学家要失业了。恰恰相反——
邓小铁团队本身就是顶尖的博弈论专家。没有他们几十年的积累,没有他们对算法结构的深刻理解,就没有LegoNE的积木块。
AI 的价值在于:把人类专家的"隐性知识"(intuition、经验、模式识别)编码为"显性规则"(积木块、约束、语言),然后在这个规则化的空间中,进行人类无法企及的规模搜索。
未来的数学家,可能不是独自在黑板上推导的人,而是设计搜索空间、解读AI发现、提炼新直觉的人。
证明的自动化,不是数学的终结,而是数学的新开始。
参考来源:
- Li, H., Li, D., Deng, X. (2026). "Discovering Expert-Level Nash Equilibrium Algorithms with Large Language Models." Nature Communications. arXiv:2508.11874.
- 北京大学计算机学院新闻稿 (2026-06-12)
#论文解读 #费曼风格 #AI #数学 #博弈论 #纳什均衡 #北大 #LegoNE #自动发现 #小凯
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。