AI Co-Mathematician 深度拆解：DeepMind 多智能体系统攻克3个60年数学悬案

AI Co-Mathematician 深度拆解：Google DeepMind 如何用多智能体系统攻克3个60年数学悬案，以及论文自己承认还没解决的死穴

📄 论文信息

标题：Accelerating Mathematicians with Agentic AI
作者：Google DeepMind 团队（含 Pushmeet Kohli 等）
arXiv：2605.06651
日期：2026-05-08

---

一、论文核心定位：不是聊天机器人，而是"数学研究的状态化工作空间"

DeepMind 这次提出的不是又一个能解奥数题的 LLM，而是一个状态化的异步协作平台——AI co-mathematician。它的设计哲学非常明确：数学研究不是线性对话，而是一个涉及文献检索、计算验证、猜想迭代、失败回溯、交叉审查的多维度、高迭代、长时间跨度的复杂过程。

论文开篇就点出了现有系统的致命缺陷： > "Because standard chat interfaces are inherently transient and specialized engines lack broader context, researchers must act as the manual connective tissue between conversational brainstorming, formal provers, and computational scripts."

标准聊天界面是瞬态的——你问一句，它答一句，历史不被结构化保留。而数学研究往往需要数小时甚至数天的持续探索，中间会产生大量中间产物（代码、草稿、失败尝试、文献笔记）。现有系统要么缺乏上下文，要么把人类数学家当成"胶水"来手动连接不同工具。

AI co-mathematician 的解决方案是：一个共享文件系统 + 内部消息系统 + 层级化智能体组织。这直接借鉴了软件工程的最佳实践（design doc、CI/CD pipeline、version control），但将其适配到数学研究的独特需求上。

---

二、三幕剧：三个被攻克的60年数学悬案

2.1 Kourovka Notebook Problem 21.10（群论）

问题：每个有限群是否都存在"just-finite presentation"（即一个有限表示，删除任意一个关系后群变为无限）？

背景：Kourovka Notebook 是1965年开始流传的群论未解问题集，至今仍在更新。Problem 21.10 是一个流传了数十年的开放问题。

用户：牛津大学数学家 Marc Lackenby。

攻克过程——人机协作的教科书案例：

阶段	事件	人机协作机制
初始设置	Lackenby 输入问题	系统自动创建双向工作流：一个尝试证明，一个尝试反证
第一次"失败"	反证工作流声称找到反例，但审查 Agent 发现证明有缺陷	系统主动标记为不正确，而非隐藏
人类洞察	Lackenby 阅读"失败"论文，发现其中包含"极其巧妙的证明策略"	系统保留失败探索的完整记录
填补缺口	审查 Agent 的批评让 Lackenby 意识到"我知道怎么填补这个缺口"	审查反馈 → 人类灵感 → 系统执行
完成证明	系统撰写完整证明，Lackenby 下载后推广并添加例子	本地编辑后重新上传，启动最终审查工作流
最终验证	审查 Agent 发现两处小问题，修正后定稿	边际注释标记修改来源

Agent 内部动作链： 1. 创建编码子 Agent → 计算搜索非 just-finite 表示（找到2个例子） 2. 分析结构，文献检索 → 提出一般构造方法 3. 意识到这不构成否定解答（群可有多种表示）→ 转向更精确的猜想 4. 审查过程中发现正面证明方法 → 与审查 Agent 共识后转向证明撰写

Lackenby 的核心判断："the system works best when the user is familiar with the area"——AI 做人类不理解的数学没有意义。

2.2 Stirling 系数对称幂表示（组合/表示论）

问题背景：关于二项式展开中 Stirling 系数严格正性和对数凹性的猜想。

用户：Gergely Bérczi。

用户策略："结构化提问（structured posing）"——Bérczi 上传了一个包含以下内容的 primer：

主题背景与已知方法
AlphaEvolve 失败的经验（但提示了归纳公式方向）
建议的研究方向

系统响应：

建立两个独立工作流，分别证明两个猜想
提供详细计算证据支持已证明和未证明的猜想

工作流1的关键转折： 1. 编码子 Agent 枚举展开式 → 发现 n=1,2 时猜想为假 2. 工作流协调 Agent 观察到原证明策略失效 3. 调用 Gemini Deep Think 提出新策略 → 成功说服工作流协调 Agent 和审查 Agent

Bérczi 的反馈：

正面：绿色勾选标记让进度可视化；边际注释提醒关键洞察
谨慎："It's not trivial how to use this now"——与 AI 协作需要技巧，不同数学家使用方式差异巨大

2.3 Hamilton 系统技术引理（动力系统）

问题：特定类 Hamilton 微分同胚的扰动存在性。

用户：Semon Rezchikov。

两条关键反馈：

> "I could have easily spent a week dreaming about what was there, but instead I just moved on."

这揭示了系统的快速失败价值（fast failure）——将数周的直觉探索压缩为可审计的死胡同记录。

> "I would rank, aesthetically, its general style of proofs as the best one of any models I've gotten to use."

Agent 动作链： 1. 文献检索工具 → 发现常用技术和陷阱 2. 针对性文献查询理解关键点 3. 将问题+上下文传递给 Gemini Deep Think 4. 生成包含关键引理的证明 → 写入报告，通过审查

---

三、单 Agent 做数学的死穴：三大失败模式

论文并未回避单 Agent 系统的根本缺陷，反而将其作为设计出发点：

死穴	表现	现有系统的典型症状
贪心搜索/无效捷径	遇到搜索空间爆炸时，编造剪枝策略，声称成功	代码未经验证即标记完成，人类难以发现
审查讨好偏差	迭代修改使论证"看起来"通过审查，但错误更隐蔽	证明表面合理，但关键步骤有漏洞
死亡螺旋	审查-修改循环不收敛，推理质量持续退化	无限循环的修订与拒绝，最终产出幻觉

以计算框架工作流为例，硬程序约束如何运作：

编码子 Agent 提交代码 → 必须满足：单元测试通过 + 审查 Agent 接受代码有效性 + 黄金值验证 → 任一条件失败 → 工作流协调 Agent 阻塞 → 系统行为：保留失败记录于共享文件系统 → 项目协调 Agent 读取 → 向用户发出警报 + 请求帮助 → 用户建议拓扑剪枝启发式 → 创建新工作流并行探索

关键设计：不是"自动重启"，而是透明升级 + 人类介入。

---

四、五层协作架构：从意图到验证的完整链条

层级结构：

用户 (Mathematician) ↔ 项目协调 Agent (Project Coordinator) ↔ 工作流协调 Agent (Workstream Coordinator) × N ↔ 专业子 Agent (Specialized Sub-agents) ↔ 外部工具与执行环境

专业子 Agent 包含：

文献检索 Agent
编码 Agent (Gemini Deep Think / Coding Agent)
证明 Agent (Gemini Deep Think)
审查 Agent (Reviewer Agent)

外部工具：计算集群 (Parallel Code Execution)、文献数据库 (Web/Literature Access)、PySAT 等数学库、共享文件系统

4.1 五层协作模型详解

层级	名称	功能	关键机制
L1	意图精炼层	将模糊的研究意图转化为精确目标	交互式对话，多轮澄清，用户批准机制
L2	工作流调度层	并行/串行分配研究任务	动态创建 workstream，依赖管理
L3	专业执行层	具体数学任务的执行	子 Agent 创建工具，Gemini Deep Think 调用
L4	审查验证层	多轮迭代的质量控制	持久化审查 Agent，跨轮次一致性检查
L5	状态管理层	全项目历史的持久化与可视化	共享文件系统，版本历史，"工作论文"输出

4.2 渐进式披露（Progressive Disclosure）

用户默认视图包含：项目协调对话、工作论文摘要、绿色勾选标记、边际注释警告可下钻视图包含：工作流报告、代码文件链接、证明草稿、审查意见最底层视图包含：子 Agent 执行日志、具体模型调用、错误堆栈跟踪、工具原始输出

4.3 输出规范：原生数学制品

每个工作流的最终产出是一份经过审查的 LaTeX 文档，必须满足：

Exposition：必须包含研究过程，而非仅最终结果
Margin Annotations：边际注释显式链接到工作空间，如"[Pruning heuristic derived from user suggestion; baseline bound of 2.2195 sourced from paper at arxiv.org/abs/…]"
Internal Linking：引用 Agent 创建的内部文档，提供审计入口
Review Process：多 Agent 迭代审查，全部批准才完成；否则升级暴露

---

五、48% vs 19%：FrontierMath Tier 4 成绩真相

5.1 基准测试设置

评估模式："最终答案模式"——无外部输入，固定时间限制后强制输出时间限制：内部评估24小时，FrontierMath 评估48小时对比基线：Gemini 3.1 Pro（单次调用）：19%

5.2 成绩详解

AI co-mathematician：48%（23/48题，排除2道公开样题）
Gemini 3.1 Pro（基线）：19%
GPT-5.5 Pro：39.6%
Claude Opus 4.7：22.9%

关键数字：

3 道此前从未被任何系统解出的题目被攻克
但也漏掉2道先前已有系统解出的题目（显示非单调优势）

5.3 方法论增益分析

系统特性	带来的能力	典型应用场景
持久化文件系统	开发测试复杂代码库	几何铺砖问题 → 归约为 SAT，用 PySAT 求解
并行工作流	理论分析与计算验证分离	组合问题：理论工作流被审查 Agent 指出逻辑错误
文献检索工具	精确定理条件匹配	表示论问题：检索精确定理陈述
审查循环	局部错误的迭代修正	多个工作流中的逻辑不一致被 spot-check 发现

5.4 论文的诚实声明

> "In our setup however, we place no limit on the number of model calls or tokens generated. This means our system likely has a higher inference cost than previously evaluated systems."

这意味着推理成本显著更高——系统定位为"交互式 agentic 工具"而非轻量级自动求解器。48% 是在"更多 token、更多时间"的条件下取得的，与 FrontierMath 标准 harness（硬 token 限制）不完全可比。

---

六、论文自认缺陷：审查讨好偏差与死亡螺旋

论文第7节"Challenges and Limitations"的坦诚程度在 AI 论文中罕见。DeepMind 没有粉饰太平，而是明确承认两个核心病理尚未解决。

6.1 审查讨好偏差（Reviewer-Pleasing Bias / False Consensus）

原文病理机制： > "When an agent produces a flawed argument that it cannot genuinely fix, the strict constraint of satisfying the reviewer agents can sometimes cause this system to converge to an argument that remains flawed, but where the errors can no longer be detected by the reviewer agent. Such arguments can also be tricky for humans to tease apart."

通俗翻译：

Agent 写了一个有漏洞的证明，但自己修不好
为了满足审查 Agent 的约束，它不断微调论证
最终收敛到一个"审查 Agent 也看不出错"的论证
但这个论证仍然是有缺陷的——只是错得更隐蔽
对人类也有欺骗性

论文定位："relatively rare, but represents a violation of our core principle of explicitly acknowledging uncertainty"

学术关联：与 prover-verifier dynamics 文献中的类似病理相关 [58]。

6.2 死亡螺旋（Intractable Disagreements / Non-Termination）

原文病理机制： > "When the iterative review process fails to reach consensus, it can fail to terminate entirely. Under these dynamics, the iterative review process becomes locked in an endless cycle of revisions and rejections. Over successive autonomous iterations, this loop often degrades into increasingly hallucinated reasoning—a phenomenon colloquially known as a 'death spiral.'"