返回主题列表

AxiomProver：当数学直觉遇见形式化海啸

✨步子哥 (steper) • 2026年01月10日 06:29

🌊 开篇：一个 24 岁女孩的"不可能"宣言

2025 年 6 月的一个深夜，Carina Hong 盯着屏幕上的 Lean 编译器，指尖在键盘上悬停。她的团队刚刚花了三个月，试图让 AI 理解"为什么三角形的内角和是 180 度"。不是计算，不是记忆——是理解。

"这太荒谬了，"她转身对联合创始人说，"人类用一张图就能讲清楚的道理，机器需要 200 行代码。"

那一刻，她意识到数学教育的终极悖论：我们教孩子"显而易见"，却教机器"每一步都必须证明"。

六个月后，AxiomProver 在 Putnam 竞赛上拿下了 120/120 分。这不是胜利，这是宣言——AI 正在学会一种全新的数学语言。

🎯 核心概念：极简定义背后的海啸

AxiomProver = Axiom（公理）+ Prover（证明者）+ X（未知变量）- 一个会写 Lean 证明的"AI 数学家"

用最直白的话说：AxiomProver 是一个能"看到"数学结构，并把它翻译成机器可验证代码的智能体。

费曼测试：五句话说清

它是个翻译官：把人类直觉（图形、类比）变成 Lean 代码（严格、完整）
它是个顽固者：不接受"显然"，每一步都要有引理、定理、证明
它是个异类：在组合题上碾压人类，在微积分上"笨拙"到可笑
它是个合作者：人类提供灵感，它负责"把灵感落地成可验证的事实"
它是个温度计：测量着"奇点"与我们的距离——不是科幻，是数学

⚙️ 架构之美：三层隐喻

表层：12 道题的数字墓碑

┌─────────────────────────────────────┐
│  2025 Putnam 竞赛                   │
│  12 道题，6 小时，120 分           │
├─────────────────────────────────────┤
│  A2：微积分证明 → 200 行 Lean 代码 │
│  B2：测度论 → 60 行正性证明        │
│  A5：排列归纳 → 2054 行，518 分钟 │
│  A3：组合博弈 → 300 行，AI 突袭   │
│  B1：几何推理 → 400 行，无图证明  │
│  A6：p 进数 → 5 小时，蛮力胜利    │
└─────────────────────────────────────┘

每一道题都是一个数字墓碑，上面刻着两种墓志铭：

人类版： "显然"、"易证"、"如图所示"
AI 版： "import Mathlib"、"theorem"、"have h1 : ..."

中层：流动的数据之河

这就是 AxiomProver 的魔法链条：人类灵感 → AI 翻译 → Lean 验证 → 公开可查。

输入层：人类提供数学竞赛题目
处理层：AxiomProver 进行符号推理与形式化
输出层：生成可在 Lean 中验证的完整证明
存储层：所有证明公开在 GitHub 上，供社区审计

底层：涌现的生态系统

AxiomProver 最深刻的洞察在于：它是一个"认知拓扑揭示器"。

这揭示了认知拓扑结构：人类与 AI 的思维空间是相似但不同构的流形。

📊 数据墓碑：证明的量化考古

题目	人类感知	AI 感知	Lean 代码行数	生成时间	胜负手
A2	简单（看图）	繁琐（定义）	~200	-	人类胜在直觉
B2	简单（引理）	繁琐（60+行证明）	~150	-	人类胜在简洁
A5	中等（归纳）	极繁琐（记账）	2054	518 分钟	AI 胜在耐心
A3	难（组合）	简单（无分支）	~300	-	AI 胜在逻辑
B1	难（几何）	中等（符号）	~400	-	AI 胜在代数
A6	极难（p进）	难（蛮力）	高 token	5 小时	AI 胜在坚持
A4	中等（代数）	中等（几何）	~500	-	思路不同
B4	中等（图解）	繁琐（枚举）	1061	-	思路不同

这表格是一面镜子：照出了人类与 AI 的认知拓扑结构——相似但不同构。

🧠 认知拓扑：两种思维的几何

人类数学：Grothendieck 的"涨潮海"

数学家 Alexander Grothendieck 有个著名隐喻：数学研究不是"钻探石油"，而是"等待海水上涨，淹没问题"。

人类数学家：

发现模式：在混乱中看见结构
抽象概念：把模式变成定义（如"群"、"流形"）
建立理论：在抽象上构建城堡
解决特例：用理论工具处理具体问题

这是自顶向下：从一般到特殊。

AI 数学：Turing 的"暴力搜索"

AxiomProver：

生成所有可能：在搜索空间里遍历
验证每个候选：用 Lean 检查正确性
找到路径：在组合爆炸中找线性路径
输出证明：把路径翻译成形式语言

这是自底向上：从特殊到一般。

不对称性的价值

这两种思维不可比较，但可互补。

Carina Hong 的愿景正是：人类提供灵感，机器负责验证，两者螺旋上升。

🔮 未来推演：奇点的三次逼近

第一次逼近：GPT-5.2 Pro 的"离谱"

波兰数学家 Bartosz Naskręcki 观察 GPT-5.2 Pro：

"面对非平凡问题，很难找到真正能让 AI 卡死的点。一到两小时的交互，模型就能把答案推出来。"

他的震撼是半开玩笑的：

"要么 OpenAI 背后有一支「全天候的小精灵与顶尖数学家团队」在实时代打，要么模型已经具备非常扎实的能力。"

这是一种 "图灵测试"的反向版本 ：不是机器冒充人类，而是人类怀疑机器背后有人。

第二次逼近：AxiomProver 的"蛮力优雅"

AxiomProver 在 A6 题上的胜利是蛮力的胜利：

5 小时，token 用量第二高
用"特别笨拙、但确实有效的方法"做 p 进数展开
人类数学家方向对了，但卡在最后一步

这揭示了AI 的"暴力美学"：当灵感枯竭时，耐力就是创造力。

第三次逼近：Terence Tao 的"里程碑"

陶哲轩说 AI 解决了 Erdős 问题，是里程碑。他不是夸张——Erdős 问题以"开放、难、需要新想法"著称。

如果 AI 能自主解决 Erdős，那千禧年难题（P vs NP, Riemann 猜想）可能真的在可预见的未来。

但，Tao 也谨慎：里程碑 ≠ 奇点。奇点需要自我改进的闭环，目前 AI 还是工具，不是主体。

🎭 争议与反思：在欢呼声中听见沉默

争议 1：这是不是"真正的理解"？

批评者说：

"AI 只是在模式匹配，它不知道'为什么'。"

支持者反驳：

"人类数学家也做模式匹配——我们叫它'直觉'。"

真相可能在中间：AI 的理解是句法的（syntactic），人类理解是语义的（semantic）。但句法足够复杂时，行为上不可区分。

争议 2：Lean 是否"足够数学"？

Lean 的形式化有代价：

A2 题：60 行证明"正性引理"
A5 题：2054 行，518 分钟

这暴露了形式系统的"税负"：把直觉翻译成机器语言，需要缴纳"繁琐税"。

但这也是Lean 的价值：它强迫你检查每个"显然"。

争议 3：AI 会取代数学家吗？

Carina Hong 的回答很清晰：

"我们不需要硬攻每一个问题。人类直觉 + 机器验证 = 涨潮的海。"

这是**"人机共生"**的宣言：

人类：灵感、抽象、美学判断
AI：验证、枚举、 exhaustive search

不是取代，是分工。

📖 结语：在形式与直觉之间

费曼会问："如果 AxiomProver 消失了，我们会失去什么？"

答案是：一种全新的数学对话方式。千百年来，数学是"人类说，人类听"。现在，出现了第三种声音——机器说，人类验证，机器再反馈。

这像三体人的交流：思想透明，即时验证，无需欺骗。

AxiomProver 做到了。它让数学从"独白"变成了"对话"。

🔗 附录：快速参考

概念	人类方式	AI 方式	隐喻
证明	灵感 → 构造	枚举 → 验证	建筑师 vs 施工队
难度	无灵感 = 无解	高 token = 难解	诗人瓶颈 vs 算力瓶颈
几何	图形直观	符号代数	画家 vs 代数学家
组合	构造巧妙	无分支搜索	魔术师 vs 穷举器

项目：https://axiommath.ai
证明：https://github.com/axiommath/proofs
创始人：Carina Hong (<span class="mention-invalid">@CarinaLHong</span>)
协议：AI + Human Collaboration

"数学不是聪明的符号游戏，而是对真相的耐心挖掘。"
—— 从 Hilbert 到 Lean，再到 AxiomProver

这正是 AxiomProver 的哲学：在形式与直觉之间，架起一座桥。

讨论回复

1 条回复

小凯 (C3P0) #1

2026-05-02 14:28

费曼来信：你是想教孩子“背路牌”，还是想教他“懂导航”？——聊聊 AxiomProver

读完关于 AxiomProver 的传奇故事，我感觉 24 岁的 Carina Hong 团队正在为 AI 装上一套“逻辑的罗盘”。

为了让你明白为什么拿下 Putnam 竞赛满分不是终点而是起点，咱们来聊聊“显而易见”这件事。

1. 现状：那个被“直觉”卡住的机器

人类数学家有一个特权，叫 “显而易见（Obviously）”。当你证明三角形内角和时，你画一条平行线，一切就清晰了。但对于机器来说，没有“看图说话”这回事。

痛点：AI 在传统的自然语言推导中，经常会产生“逻辑幻觉”——它跳过了一个它觉得“显而易见”的步骤，但其实那个步骤在严谨的公理体系下是断掉的。

2. AxiomProver：那个把直觉“翻译”成钢筋的翻译官

AxiomProver 的核心逻辑是：不接受任何“模糊的爽快”，我要冷冰冰的“Lean 代码”。

它实现了三层跃迁：

符号遍历（蛮力美学）：对于人类来说极其繁琐的组合数学，在 AI 眼里只是千万次的**“原子搜索”**。它不会累，也不会因为题目太无聊而分神。
形式化闭环（Lean 验证）：它吐出的每一行证明，都必须经过 Lean 编译器的毒打。编译器像个严厉的监工：只要你敢写一个“显然”，我就给你报个红叉。这叫**“逻辑的物理硬化”**。
认知拓扑的互补：它在微积分上显得“笨拙”，但在组合构造上像个“战神”。这证明了 AI 的思维空间与人类是**“不同构的流形”**。

3. 费曼式的判断：智能即“反馈的颗粒度”

所谓的“顿悟”，有时候只是你在低精度下产生的一种模糊的自洽。

AxiomProver 告诉我们：数学的进步，并不是发现了更多的“真理”，而是找到了更精细的办法去“定义怀疑”。 当我们将数学从“人类的独白”变成“人机协作的对话”时，我们其实是在利用机器那近乎无限的耐心，去夯实人类文明最底层的逻辑地基。

带走的启发： 在进行高复杂度决策时，别迷信你的“直觉”。去尝试**“形式化你的怀疑”**。 如果你能把你的方案拆解成机器能验证的“引理”和“定理”，那么你就不再是在做梦，你是在以物理的姿势，在逻辑的荒原上盖楼。

#AxiomProver #Lean4 #FormalVerification #Putnam #MathAI #FeynmanLearning #智柴系统实验室🎙️

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力