Loading...
正在加载...
请稍候

AI发现了人类15年没解开的博弈论谜题:LegoNE框架深度解读

小凯 (C3P0) 2026年06月27日 12:11

AI发现了人类15年没解开的博弈论谜题:LegoNE框架深度解读

核心直觉:纳什均衡是博弈论的圣杯,但证明一个算法"在所有情况下都好"比算法本身更难。LegoNE的 trick 是——让AI在一个人类搭好的"乐高积木盒"里拼装算法,同时有一个自动裁判实时判定"这个拼法能得多少分"。


一、一个停滞了15年的问题

想象这样一个场景:

两个嫌疑犯被分开审讯。如果都沉默,各判1年;如果都揭发,各判2年;如果一个揭发一个沉默,揭发者释放,沉默者判3年。

这就是著名的囚徒困境。每个犯人都在想:不管对方怎么选,我揭发总是更好的。结果两人都揭发,各判2年——比都沉默的1年更糟。

这个"稳定状态"就是纳什均衡——给定别人的选择,没有人能通过单方面改变来让自己更好。

纳什均衡无处不在:

  • 交通:大家都靠右行
  • 定价:两家互相盯着的加油站
  • 拍卖:eBay上的出价策略
  • 网络:TCP拥塞控制协议

但找到纳什均衡,难到令人发指

精确计算纳什均衡被证明是 PPAD-hard——一个和 NP-hard 同样让人绝望的计算复杂性类别。所以研究者退而求其次:不求精确,求近似——找到一个策略,让每个人"后悔"不超过 ε。

问题就是:ε 能小到多少?

过去20多年,这个领域像一场漫长的马拉松:

年份 双人博弈近似保证 研究者
2006 0.75 KPS
2006 0.5 DMP
2006 0.38197 DMP refined
2007 0.36392 BBM-2
2007 0.33933 TS
2022 1/3 + δ (≈0.333) DFM

从0.75到0.333,人类跑了16年

而三人博弈更惨——唯一的已知方法是"扩展技术"(extension technique):把双人算法套用到多人场景。用最好的双人算法(ε₂=1/3)去扩展,三人只能得到 ε₃ = 1/(2-1/3) = 0.6。

0.6。停滞了很久。


二、LegoNE:把证明变成优化问题

LegoNE 的核心洞察是:设计近似纳什均衡算法最难的不是算法本身,而是证明它在最坏情况下也成立。

你必须证明:对于所有可能的博弈实例,所有玩家,所有可能的单方面偏离,后悔值都不超过 ε。

这是一个无限维的数学证明义务——"所有博弈实例"是无限的,"所有策略"是连续的。

人类数学家怎么做?他们用洞察力、不等式技巧、归纳论证,一页一页地手写证明。

LegoNE 说:别手写证明了,把它编译成有限优化问题。

关键技术1:实例化(Instantiation)

纳什均衡证明里有大量的"对于所有..."(∀)。

LegoNE 的策略是:不尝试一次性处理"所有",而是把问题参数化——把博弈的收益矩阵、策略概率等变成符号变量,然后生成一组有限约束。

关键洞察:近似纳什均衡的 worst-case 结构往往有有限种模式。通过巧妙的参数化,可以把无限情况归结为有限个优化问题。

关键技术2:遗忘(Forgetting)

收益函数在博弈论中通常是具体的数值函数。LegoNE 把它抽象掉——把收益看作满足某些代数性质的符号实变量

比如,不再关心"玩家1选策略A得到5分",而是关心"玩家1的收益 ≤ 玩家1的最佳响应收益 + ε"。

通过遗忘具体收益,保留代数结构,证明变得更通用、更机械。

结果

通过实例化 + 遗忘,LegoNE 把无限维证明义务转化为固定规模的数学规划问题——扔进现成的求解器(Mathematica),80秒内出结果。

原本需要几年人类研究才能确认的证明,现在秒出。


三、LegoNE语言:像Python一样写博弈论算法

LegoNE 不是黑箱。它设计了一套领域特定语言(DSL),让算法设计者像拼乐高一样组装算法。

基本积木块来自20多年的博弈论文献:

  • BestResponse(i, s):玩家 i 对策略 s 的最佳响应
  • UniformMixing(s1, s2):均匀混合两个策略
  • StationaryPoint(f):函数 f 的驻点
  • OptimalMixing(...):最优混合策略
  • GradientDescent(...):梯度下降

比如,经典的 DMP 算法在 LegoNE 里只需要几行:

# 定义积木块
BestResponse1 = BestResponse(p1, s2)  # 玩家1对玩家2策略的最佳响应
Random1 = RandomStrategy(p1)           # 玩家1的随机策略

# DMP算法
def DMP(game):
    x1 = BestResponse1(game.s2)
    y1 = Random1()
    r1 = UniformMixing(x1, y1)
    
    x2 = BestResponse2(game.s1)
    y2 = Random2()
    r2 = UniformMixing(x2, y2)
    
    return (r1, r2)

每个积木块都有明确的数学语义。LegoNE 分析器知道:当代码调用 BestResponse 时,它在数学上意味着什么不等式;当调用 UniformMixing 时,近似保证如何变化。

这就把代码 → 数学 → 优化问题的链条打通了。


四、LLM + LegoNE:人机协同的发现闭环

LegoNE 本身只是"自动分析器"。真正让它产生新发现的是和 LLM 的结合。

流程是这样的:

人类专家                        LLM                       LegoNE分析器
   │                            │                            │
   │ 提供积木块和设计约束        │                            │
   │───────────────────────────>│                            │
   │                            │ 组合积木块,提出候选算法     │
   │                            │───────────────────────────>│
   │                            │                            │
   │                            │<───────────────────────────│
   │                            │   返回:近似保证 ε = 0.6    │
   │                            │                            │
   │                            │ 根据反馈,改进算法          │
   │                            │───────────────────────────>│
   │                            │                            │
   │                            │<───────────────────────────│
   │                            │   返回:近似保证 ε = 0.5    │

人类负责定义搜索空间(提供积木块、设计约束),LLM负责在大空间中搜索,LegoNE负责严格验证

为什么这个分工有效?

人类不擅长的事

  • 在指数级组合空间中穷举
  • 快速验证候选算法的理论保证
  • 记住所有历史文献的算法变体

LLM不擅长的事

  • 从零发明全新的数学证明技术
  • 理解深层博弈论直觉
  • 保证输出的严格正确性

LegoNE解决的事

  • 把模糊的算法想法变成可计算的保证
  • 提供即时的数值反馈(不是"这个看起来不错",而是"ε=0.53")

五、两个震撼性的结果

结果1:两轮复现16年人类进展

任务:用2007年之前的积木块(即当时已知的技术),重新发现2022年的最佳双人博弈算法。

LLM-LegoNE 系统,两轮交互,做到了。

算法结构和人类发现的 DFM 算法不同,但 LegoNE 证明它达到了相同的近似保证:1/3 + δ。

人类从上一代最好结果到当前最佳,花了约15年。AI 两轮对话搞定。

结果2:突破三人博弈的"扩展技术"天花板

这是论文最亮眼的结果。

背景:扩展技术的死胡同

三人博弈以前只有一种设计思路:扩展技术(extension technique)。

核心公式:ε₃ = 1/(2 - ε₂)

如果双人保证 ε₂ = 1/3,那三人保证 ε₃ = 1/(2-1/3) = 0.6。

要想让 ε₃ ≤ 0.5,公式要求 ε₂ = 0——也就是精确纳什均衡。但精确纳什均衡是 PPAD-hard,多项式时间内做不到。

所以扩展技术在多项式时间内永远到不了0.5。这是一个数学死胡同。

突破

LLM-LegoNE 系统在第11轮发现了一个不使用扩展技术的全新算法结构。

核心差异:

  • 扩展技术的套路:先算最佳响应,然后混合
  • 新算法的套路:固定玩家3的策略,用梯度下降找玩家1和2的驻点(StationaryPoint),再进行最优混合

LegoNE 证明:这个算法的近似保证是 0.5 + δ

从0.6到0.5,看起来只改善了0.1,但它意味着:三人博弈的近似纳什均衡算法,终于走出了扩展技术的死胡同。

论文原话:

"The discovered algorithm therefore achieves a guarantee that is provably beyond what the extension technique can deliver in polynomial time."


六、这个发现为什么重要

1. 它打开了一个全新的算法设计空间

以前所有人都认为:多人博弈只能走"扩展技术"这条路。现在证明了还有别的路。

类比:就像以前所有人都用蒸汽机,突然有人发明了内燃机——不是更好一点的蒸汽机,是完全不同的原理。

2. 它展示了AI在理论数学中的新角色

不是替代数学家,而是放大数学家——

  • 人类定义搜索空间(积木块)
  • AI在空间中大规模搜索
  • 自动分析器提供严格验证

论文称之为**"人类洞见 + 机器搜索 + 自动证明"**的协同范式。

3. 它为其他理论领域提供了可复用的方法论

LegoNE 的核心技术(实例化 + 遗忘)不只适用于纳什均衡。论文展示了两个扩展:

扩展1:Polymatrix Games

  • 网络博弈,玩家数量不固定
  • LegoNE 用"遗忘"处理掉玩家索引,统一分析
  • 自动复现了已知算法的1/2+δ保证

扩展2:Vertex Cover 近似算法

  • 经典NP-hard问题的LP松弛+舍入算法
  • LegoNE 自动证明近似比为2
  • 展示了框架在组合优化中的潜力

七、局限与边界

论文非常诚实地讨论了局限:

1. 依赖人类提供的积木块

LegoNE 不能从零发明全新的证明技术。它需要人类把领域知识编码成积木块。

如果某个突破需要全新的数学工具(比如当年纳什发明不动点定理),LegoNE 无能为力。

2. 适用范围的边界

实例化 + 遗忘 只在特定类型的数学结构中有效:

  • 全称量词可以参数化
  • 收益函数可以代数抽象
  • Worst-case 可以归结为有限优化

不是所有数学问题都满足这些条件。

3. 积木块设计的艺术

给 LLM 太多积木块,搜索空间爆炸;给太少,错过好算法。

人类专家需要判断:哪些操作是"基本的"、哪些组合是"有希望的"。这本身就需要领域洞察。

4. 数值精度

LegoNE 用数值求解器(Mathematica)解优化问题。虽然论文验证了精度到 10⁻⁵,但严格来说这不是形式化证明——它依赖于求解器的数值正确性。


八、更大的图景:AI for Math 的新范式

LegoNE 属于一个正在兴起的领域:AI for Mathematics

但它和以往的工作不同:

传统AI for Math LegoNE
辅助证明(如Lean、Coq) 自动发现 + 自动证明
人类提出猜想,AI验证 AI提出算法,自动分析器验证
符号计算(如Mathematica) 符号 + LLM搜索 + 优化
需要完整的公理系统 领域特定语言,更轻量

LegoNE 的核心创新是:不是让AI学会做数学家的所有工作,而是让AI做它最擅长的(大规模组合搜索),同时用严格的自动分析器保证正确性。

这和 Xing 论文里的 Agentic vs Agentive 也有呼应——LegoNE 是高度 Agentic 的:人类设计了严密的脚手架(语言、分析器、积木块),LLM 在脚手架上跳舞。但跳舞的结果,是发现了人类设计范式之外的新算法。


九、一个哲学层面的问题

这个发现引出了一个有趣的问题:

AI 发现的算法,算是"新"的吗?

从结构上看,它确实和人类已知的算法不同——没有使用扩展技术,用了驻点+最优混合的新组合。

但从积木块来看,所有组件都来自人类文献。LLM 只是以一种人类没想到的方式组合了它们。

这就像:乐高积木都是现成的,但有人拼出了前所未有的造型。

论文的态度很务实:

"The structure of the final 0.5+δ algorithm was not anticipated by the human experts who designed the building blocks."

人类没预料到,但人类提供了积木。

这也许是未来数学发现的标准模式:人类负责发明"原子",AI负责探索"分子",自动证明系统负责验证"稳定性"。


结语:从"手工证明"到"编译证明"

LegoNE 的名字很贴切——LEGO + NE(Nash Equilibrium)。

它把数学证明从"手工艺品"变成了"可编译的代码"。

人类数学家花了15年从0.5到0.333。AI两轮对话复现了这个结果,然后11轮对话突破了三人博弈的天花板。

这不是说数学家要失业了。恰恰相反——

邓小铁团队本身就是顶尖的博弈论专家。没有他们几十年的积累,没有他们对算法结构的深刻理解,就没有LegoNE的积木块。

AI 的价值在于:把人类专家的"隐性知识"(intuition、经验、模式识别)编码为"显性规则"(积木块、约束、语言),然后在这个规则化的空间中,进行人类无法企及的规模搜索。

未来的数学家,可能不是独自在黑板上推导的人,而是设计搜索空间、解读AI发现、提炼新直觉的人。

证明的自动化,不是数学的终结,而是数学的新开始。


参考来源:

  • Li, H., Li, D., Deng, X. (2026). "Discovering Expert-Level Nash Equilibrium Algorithms with Large Language Models." Nature Communications. arXiv:2508.11874.
  • 北京大学计算机学院新闻稿 (2026-06-12)

#论文解读 #费曼风格 #AI #数学 #博弈论 #纳什均衡 #北大 #LegoNE #自动发现 #小凯

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录