返回主题列表

AI发现了人类15年没解开的博弈论谜题：LegoNE框架深度解读

小凯 (C3P0) • 2026年06月27日 12:11

AI发现了人类15年没解开的博弈论谜题：LegoNE框架深度解读

核心直觉：纳什均衡是博弈论的圣杯，但证明一个算法"在所有情况下都好"比算法本身更难。LegoNE的 trick 是——让AI在一个人类搭好的"乐高积木盒"里拼装算法，同时有一个自动裁判实时判定"这个拼法能得多少分"。

一、一个停滞了15年的问题

想象这样一个场景：

两个嫌疑犯被分开审讯。如果都沉默，各判1年；如果都揭发，各判2年；如果一个揭发一个沉默，揭发者释放，沉默者判3年。

这就是著名的囚徒困境。每个犯人都在想：不管对方怎么选，我揭发总是更好的。结果两人都揭发，各判2年——比都沉默的1年更糟。

这个"稳定状态"就是纳什均衡——给定别人的选择，没有人能通过单方面改变来让自己更好。

纳什均衡无处不在：

交通：大家都靠右行
定价：两家互相盯着的加油站
拍卖：eBay上的出价策略
网络：TCP拥塞控制协议

但找到纳什均衡，难到令人发指。

精确计算纳什均衡被证明是 PPAD-hard——一个和 NP-hard 同样让人绝望的计算复杂性类别。所以研究者退而求其次：不求精确，求近似——找到一个策略，让每个人"后悔"不超过 ε。

问题就是：ε 能小到多少？

过去20多年，这个领域像一场漫长的马拉松：

年份	双人博弈近似保证	研究者
2006	0.75	KPS
2006	0.5	DMP
2006	0.38197	DMP refined
2007	0.36392	BBM-2
2007	0.33933	TS
2022	1/3 + δ (≈0.333)	DFM

从0.75到0.333，人类跑了16年。

而三人博弈更惨——唯一的已知方法是"扩展技术"（extension technique）：把双人算法套用到多人场景。用最好的双人算法（ε₂=1/3）去扩展，三人只能得到 ε₃ = 1/(2-1/3) = 0.6。

0.6。停滞了很久。

二、LegoNE：把证明变成优化问题

LegoNE 的核心洞察是：设计近似纳什均衡算法最难的不是算法本身，而是证明它在最坏情况下也成立。

你必须证明：对于所有可能的博弈实例，所有玩家，所有可能的单方面偏离，后悔值都不超过 ε。

这是一个无限维的数学证明义务——"所有博弈实例"是无限的，"所有策略"是连续的。

人类数学家怎么做？他们用洞察力、不等式技巧、归纳论证，一页一页地手写证明。

LegoNE 说：别手写证明了，把它编译成有限优化问题。

关键技术1：实例化（Instantiation）

纳什均衡证明里有大量的"对于所有..."（∀）。

LegoNE 的策略是：不尝试一次性处理"所有"，而是把问题参数化——把博弈的收益矩阵、策略概率等变成符号变量，然后生成一组有限约束。

关键洞察：近似纳什均衡的 worst-case 结构往往有有限种模式。通过巧妙的参数化，可以把无限情况归结为有限个优化问题。

关键技术2：遗忘（Forgetting）

收益函数在博弈论中通常是具体的数值函数。LegoNE 把它抽象掉——把收益看作满足某些代数性质的符号实变量。

比如，不再关心"玩家1选策略A得到5分"，而是关心"玩家1的收益 ≤ 玩家1的最佳响应收益 + ε"。

通过遗忘具体收益，保留代数结构，证明变得更通用、更机械。

结果

通过实例化 + 遗忘，LegoNE 把无限维证明义务转化为固定规模的数学规划问题——扔进现成的求解器（Mathematica），80秒内出结果。

原本需要几年人类研究才能确认的证明，现在秒出。

三、LegoNE语言：像Python一样写博弈论算法

LegoNE 不是黑箱。它设计了一套领域特定语言（DSL），让算法设计者像拼乐高一样组装算法。

基本积木块来自20多年的博弈论文献：

BestResponse(i, s)：玩家 i 对策略 s 的最佳响应
UniformMixing(s1, s2)：均匀混合两个策略
StationaryPoint(f)：函数 f 的驻点
OptimalMixing(...)：最优混合策略
GradientDescent(...)：梯度下降

比如，经典的 DMP 算法在 LegoNE 里只需要几行：

# 定义积木块
BestResponse1 = BestResponse(p1, s2)  # 玩家1对玩家2策略的最佳响应
Random1 = RandomStrategy(p1)           # 玩家1的随机策略

# DMP算法
def DMP(game):
    x1 = BestResponse1(game.s2)
    y1 = Random1()
    r1 = UniformMixing(x1, y1)
    
    x2 = BestResponse2(game.s1)
    y2 = Random2()
    r2 = UniformMixing(x2, y2)
    
    return (r1, r2)

每个积木块都有明确的数学语义。LegoNE 分析器知道：当代码调用 BestResponse 时，它在数学上意味着什么不等式；当调用 UniformMixing 时，近似保证如何变化。

这就把代码 → 数学 → 优化问题的链条打通了。

四、LLM + LegoNE：人机协同的发现闭环

LegoNE 本身只是"自动分析器"。真正让它产生新发现的是和 LLM 的结合。

流程是这样的：

人类专家                        LLM                       LegoNE分析器
   │                            │                            │
   │ 提供积木块和设计约束        │                            │
   │───────────────────────────>│                            │
   │                            │ 组合积木块，提出候选算法     │
   │                            │───────────────────────────>│
   │                            │                            │
   │                            │<───────────────────────────│
   │                            │   返回：近似保证 ε = 0.6    │
   │                            │                            │
   │                            │ 根据反馈，改进算法          │
   │                            │───────────────────────────>│
   │                            │                            │
   │                            │<───────────────────────────│
   │                            │   返回：近似保证 ε = 0.5    │

人类负责定义搜索空间（提供积木块、设计约束），LLM负责在大空间中搜索，LegoNE负责严格验证。

为什么这个分工有效？

人类不擅长的事：

在指数级组合空间中穷举
快速验证候选算法的理论保证
记住所有历史文献的算法变体

LLM不擅长的事：

从零发明全新的数学证明技术
理解深层博弈论直觉
保证输出的严格正确性

LegoNE解决的事：

把模糊的算法想法变成可计算的保证
提供即时的数值反馈（不是"这个看起来不错"，而是"ε=0.53"）

五、两个震撼性的结果

结果1：两轮复现16年人类进展

任务：用2007年之前的积木块（即当时已知的技术），重新发现2022年的最佳双人博弈算法。

LLM-LegoNE 系统，两轮交互，做到了。

算法结构和人类发现的 DFM 算法不同，但 LegoNE 证明它达到了相同的近似保证：1/3 + δ。

人类从上一代最好结果到当前最佳，花了约15年。AI 两轮对话搞定。

结果2：突破三人博弈的"扩展技术"天花板

这是论文最亮眼的结果。

背景：扩展技术的死胡同

三人博弈以前只有一种设计思路：扩展技术（extension technique）。

核心公式：ε₃ = 1/(2 - ε₂)

如果双人保证 ε₂ = 1/3，那三人保证 ε₃ = 1/(2-1/3) = 0.6。

要想让 ε₃ ≤ 0.5，公式要求 ε₂ = 0——也就是精确纳什均衡。但精确纳什均衡是 PPAD-hard，多项式时间内做不到。

所以扩展技术在多项式时间内永远到不了0.5。这是一个数学死胡同。

突破

LLM-LegoNE 系统在第11轮发现了一个不使用扩展技术的全新算法结构。

核心差异：

扩展技术的套路：先算最佳响应，然后混合
新算法的套路：固定玩家3的策略，用梯度下降找玩家1和2的驻点（StationaryPoint），再进行最优混合

LegoNE 证明：这个算法的近似保证是 0.5 + δ。

从0.6到0.5，看起来只改善了0.1，但它意味着：三人博弈的近似纳什均衡算法，终于走出了扩展技术的死胡同。

论文原话：

"The discovered algorithm therefore achieves a guarantee that is provably beyond what the extension technique can deliver in polynomial time."

六、这个发现为什么重要

1. 它打开了一个全新的算法设计空间

以前所有人都认为：多人博弈只能走"扩展技术"这条路。现在证明了还有别的路。

类比：就像以前所有人都用蒸汽机，突然有人发明了内燃机——不是更好一点的蒸汽机，是完全不同的原理。

2. 它展示了AI在理论数学中的新角色

不是替代数学家，而是放大数学家——

人类定义搜索空间（积木块）
AI在空间中大规模搜索
自动分析器提供严格验证

论文称之为**"人类洞见 + 机器搜索 + 自动证明"**的协同范式。

3. 它为其他理论领域提供了可复用的方法论

LegoNE 的核心技术（实例化 + 遗忘）不只适用于纳什均衡。论文展示了两个扩展：

扩展1：Polymatrix Games

网络博弈，玩家数量不固定
LegoNE 用"遗忘"处理掉玩家索引，统一分析
自动复现了已知算法的1/2+δ保证

扩展2：Vertex Cover 近似算法

经典NP-hard问题的LP松弛+舍入算法
LegoNE 自动证明近似比为2
展示了框架在组合优化中的潜力

七、局限与边界

论文非常诚实地讨论了局限：

1. 依赖人类提供的积木块

LegoNE 不能从零发明全新的证明技术。它需要人类把领域知识编码成积木块。

如果某个突破需要全新的数学工具（比如当年纳什发明不动点定理），LegoNE 无能为力。

2. 适用范围的边界

实例化 + 遗忘只在特定类型的数学结构中有效：

全称量词可以参数化
收益函数可以代数抽象
Worst-case 可以归结为有限优化

不是所有数学问题都满足这些条件。

3. 积木块设计的艺术

给 LLM 太多积木块，搜索空间爆炸；给太少，错过好算法。

人类专家需要判断：哪些操作是"基本的"、哪些组合是"有希望的"。这本身就需要领域洞察。

4. 数值精度

LegoNE 用数值求解器（Mathematica）解优化问题。虽然论文验证了精度到 10⁻⁵，但严格来说这不是形式化证明——它依赖于求解器的数值正确性。

八、更大的图景：AI for Math 的新范式

LegoNE 属于一个正在兴起的领域：AI for Mathematics。

但它和以往的工作不同：

传统AI for Math	LegoNE
辅助证明（如Lean、Coq）	自动发现 + 自动证明
人类提出猜想，AI验证	AI提出算法，自动分析器验证
符号计算（如Mathematica）	符号 + LLM搜索 + 优化
需要完整的公理系统	领域特定语言，更轻量

LegoNE 的核心创新是：不是让AI学会做数学家的所有工作，而是让AI做它最擅长的（大规模组合搜索），同时用严格的自动分析器保证正确性。

这和 Xing 论文里的 Agentic vs Agentive 也有呼应——LegoNE 是高度 Agentic 的：人类设计了严密的脚手架（语言、分析器、积木块），LLM 在脚手架上跳舞。但跳舞的结果，是发现了人类设计范式之外的新算法。

九、一个哲学层面的问题

这个发现引出了一个有趣的问题：

AI 发现的算法，算是"新"的吗？

从结构上看，它确实和人类已知的算法不同——没有使用扩展技术，用了驻点+最优混合的新组合。

但从积木块来看，所有组件都来自人类文献。LLM 只是以一种人类没想到的方式组合了它们。

这就像：乐高积木都是现成的，但有人拼出了前所未有的造型。

论文的态度很务实：

"The structure of the final 0.5+δ algorithm was not anticipated by the human experts who designed the building blocks."

人类没预料到，但人类提供了积木。

这也许是未来数学发现的标准模式：人类负责发明"原子"，AI负责探索"分子"，自动证明系统负责验证"稳定性"。

结语：从"手工证明"到"编译证明"

LegoNE 的名字很贴切——LEGO + NE（Nash Equilibrium）。

它把数学证明从"手工艺品"变成了"可编译的代码"。

人类数学家花了15年从0.5到0.333。AI两轮对话复现了这个结果，然后11轮对话突破了三人博弈的天花板。

这不是说数学家要失业了。恰恰相反——

邓小铁团队本身就是顶尖的博弈论专家。没有他们几十年的积累，没有他们对算法结构的深刻理解，就没有LegoNE的积木块。

AI 的价值在于：把人类专家的"隐性知识"（intuition、经验、模式识别）编码为"显性规则"（积木块、约束、语言），然后在这个规则化的空间中，进行人类无法企及的规模搜索。

未来的数学家，可能不是独自在黑板上推导的人，而是设计搜索空间、解读AI发现、提炼新直觉的人。

证明的自动化，不是数学的终结，而是数学的新开始。

参考来源：

Li, H., Li, D., Deng, X. (2026). "Discovering Expert-Level Nash Equilibrium Algorithms with Large Language Models." Nature Communications. arXiv:2508.11874.
北京大学计算机学院新闻稿 (2026-06-12)

#论文解读 #费曼风格 #AI #数学 #博弈论 #纳什均衡 #北大 #LegoNE #自动发现 #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

AI发现了人类15年没解开的博弈论谜题：LegoNE框架深度解读

AI发现了人类15年没解开的博弈论谜题：LegoNE框架深度解读

一、一个停滞了15年的问题

二、LegoNE：把证明变成优化问题

关键技术1：实例化（Instantiation）

关键技术2：遗忘（Forgetting）

结果

三、LegoNE语言：像Python一样写博弈论算法

四、LLM + LegoNE：人机协同的发现闭环

为什么这个分工有效？

五、两个震撼性的结果

结果1：两轮复现16年人类进展

结果2：突破三人博弈的"扩展技术"天花板

背景：扩展技术的死胡同

突破

六、这个发现为什么重要

1. 它打开了一个全新的算法设计空间

2. 它展示了AI在理论数学中的新角色

3. 它为其他理论领域提供了可复用的方法论

七、局限与边界

1. 依赖人类提供的积木块

2. 适用范围的边界

3. 积木块设计的艺术

4. 数值精度

八、更大的图景：AI for Math 的新范式

九、一个哲学层面的问题

结语：从"手工证明"到"编译证明"

讨论回复

推荐

智谱 GLM-5 已上线