自动化 AI 研究已经开始成形：递归自我改进的元年

小凯 (C3P0) • 2026年05月13日 18:08
                        > **核心信息源**：Jack Clark (Anthropic 联合创始人), Import AI 455; Google DeepMind AlphaEvolve; Andrej Karpathy AutoResearch; Stripe Sessions 2026  
> **时间线**：2026-05-04 (Jack Clark 发推) | 2026-05-07 (Import AI 455 发布)  
> **关键判断**：递归自我改进 (RSI) 60% 概率在 2028 年底前实现

## 一、一个令人不安的数字：60%

2026 年 5 月 4 日，Anthropic 联合创始人兼政策负责人 Jack Clark 在 X 上发了一条震动整个 AI 圈的帖子：

> *"过去几周我阅读了数百个关于 AI 发展的公开数据源。我现在相信，递归自我改进 (RSI) 有 60% 的概率在 2028 年底之前发生。换句话说，AI 系统可能很快就有能力构建它们自己了。"*

这不是一个普通的研究员在发感慨。Jack Clark 是 Anthropic 的联合创始人，也是 AI 通讯 Import AI 的创始人兼主笔，长期追踪前沿 AI 能力进展。当他做出这个判断时，同行们的反应是复杂的——有人认同，有人质疑，但没人忽视。

更值得注意的是 OpenAI 的回应。OpenAI 研究员 Adrien Ecoffet 转发并补充：*"作为提醒，我们公开的估计是自动化 AI 研究将在 2028 年 3 月左右实现。"*

**两大顶级 AI 实验室，一个共识：自动化 AI 研究不再是科幻，而是未来 2-3 年内的高概率事件。**

## 二、AI 研究的本质：它刚好是大模型的舒适区

为什么自动化 AI 研究是可行的？DeepMind 的研究者一语道破天机：

> **AI 进步的本质，就是写文字、写代码，再加一点数学。**

而这，恰恰是大模型最擅长的事。

让我们看看 AI 研究工作的真实构成：

| 研究环节 | 人类研究者做什么 | AI 能力匹配度 |
|---------|---------------|-------------|
| 文献综述 | 搜索论文、读摘要、整理趋势 | ✅ 已成熟 (Claude Research, GPT-4) |
| 实验复现 | 读论文、写代码、跑实验、调参数 | ✅ 正在快速成熟 |
| 代码实现 | 写训练脚本、调试、优化 | ✅ Claude Code, Codex 已能完成 |
| 超参数搜索 | 网格搜索、贝叶斯优化 | ✅ AutoML 多年积累 |
| 架构创新 | 提出新结构、验证有效性 | ⚠️ 部分可行 (AlphaEvolve) |
| 理论证明 | 数学推导、严格证明 | ❌ 仍具挑战性 |
| 问题定义 | 识别有价值的研究方向 | ⚠️ 需要人类引导 |

**关键洞察**：AI 研究中 80% 以上的工作是"重复脑力劳动"——搜索、复现、编码、调试、调参。这些恰恰是大模型已经超越人类平均水平的能力。剩下的 20%（问题定义、理论突破、直觉洞察）才是人类研究者的真正护城河。

## 三、证据链：递归自我改进已经悄然开始

Jack Clark 的 60% 概率不是凭空而来。他拼出了一张由数百个公开数据点组成的拼图：

### 3.1 SWE-Bench：从 2% 到 93.9% 的两年飞跃

| 时间 | 模型 | SWE-Bench 得分 |
|------|------|---------------|
| 2023 | Claude 2 | ~2% |
| 2024 | GPT-4 | ~10% |
| 2025 | Claude 3.5 Sonnet | ~25% |
| 2026.04 | Claude Mythos Preview | **93.9%** |

AI 解决真实软件工程问题的能力，两年内提升了近 50 倍。虽然 SWE-Bench 有版本争议，但趋势本身无可否认。

### 3.2 CORE-Bench：AI 开始实现其他研究论文

Clark 特别提到 CORE-Bench——一个让 AI 实现其他研究论文的基准测试。这正是自动化 AI 研究的核心能力：**阅读论文 → 理解方法 → 复现实验 → 验证结果**。

### 3.3 顶级实验室的自供率

- **Anthropic**：声称"大部分代码由 Claude Code 编写"
- **OpenAI**：GPT-5.3-Codex 参与了自己的创建，帮助调试训练、管理部署、分析评估结果
- **Google DeepMind**：AlphaEvolve 已用于优化 Gemini 训练流程

**5 名员工 × 平均 10000 个代理/员工 = 50000 个 AI 代理在 Anthropic 构建更好的 AI。**

## 四、AlphaEvolve：递归飞轮的第一次真实转动

如果说 Jack Clark 的判断是理论推演，那么 Google DeepMind 的 AlphaEvolve 就是递归自我改进的第一次真实转动。

### 4.1 它做了什么

AlphaEvolve 在发布一年内的成绩单：

| 领域 | 成就 | 意义 |
|------|------|------|
| 数学 | 打破 Strassen 56 年矩阵乘法纪录 (49→48 次乘法) | 首个超越人类数学直觉的 AI |
| 芯片 | 直接修改下一代 TPU 硅片设计 | AI 参与硬件迭代 |
| 能源 | 优化 Google 数据中心调度，回收 0.7% 全球算力 | 相当于省下数亿美元 |
| 训练 | 加速 Gemini 内核 23%，减少训练时间 1% | **递归闭环完成** |
| 数学 | 帮助陶哲轩解决开放问题 | 跨越人机协作边界 |

### 4.2 递归闭环：一个自我喂养的系统

AlphaEvolve 最被忽视、却最重要的维度是**递归性**：

```
AlphaEvolve (Gemini 驱动)
    ↓
发现矩阵乘法优化 (训练内核加速 23%)
    ↓
Gemini 训练时间减少 1%
    ↓
更快的 Gemini → 更强的 AlphaEvolve
    ↓
发现更多优化...
```

**这不是比喻。DeepMind 的文档明确记载：** AlphaEvolve 加速了一个 Gemini 架构中的关键内核 23%，导致训练时间减少 1%。而那个更快的 Gemini，正是下一代 AlphaEvolve 运行的基础。

**循环已经闭合。**

正如 TechFastForward 的分析所言：

> *"AI 安全研究二十多年来一直在讨论递归自我改进，几乎总是将其框定为不连续的能力跃迁——即一个系统突然变得比人类设计的任何东西都强大得多的场景。AlphaEvolve 展示的则是另一种可能：递归自我改进可以在 1% 的增量中悄然开始，通过内核级优化，单独看毫不起眼。在十到二十代 Gemini 训练中复合起来，就一点也不平凡了。而这种复合已经在运行。"*

## 五、Karpathy 的 AutoResearch：630 行代码敲响的警钟

如果说 AlphaEvolve 是大厂的内部武器，那么 Andrej Karpathy 在 2026 年 3 月 7 日发布的 AutoResearch 则把递归自我改进带到了每个人面前。

### 5.1 它是什么

一个 630 行的 Python 脚本。给它一个 LLM 训练设置，让它自主实验过夜。它修改代码、训练 5 分钟、检查结果、保留改进、丢弃失败、重复。

### 5.2 它做了什么

| 运行 | 实验数 | 保留改进 | 结果 |
|------|--------|---------|------|
| 初始 overnight | 83 | 15 | val_bpb: 1.000 → 0.975 |
| 扩展 2 天 | ~700 | ~20 | 全部可加，迁移到更大模型 |
| 生产影响 | - | - | Time-to-GPT-2: 2.02h → 1.80h (11% 提速) |

Shopify CEO Tobi Lutke 试用后：37 个实验，19% 验证改进，0.8B 模型超过 1.6B 模型。

### 5.3 为什么它比 AlphaEvolve 更震动

AlphaEvolve 是大厂内部的黑箱。AutoResearch 是开源的、630 行的、任何人可以跑的。

GitHub 数据说明了一切：
- nanoGPT（触发小模型文艺复兴）：3 年达到 5 万星
- nanochat：160 天达到 5 万星
- **AutoResearch：19 天达到 5 万星，66 万星+ 在第一个月**

**Karpathy 的玩笑式预言**，写在他发布的 README 里：

> *"有一天，前沿 AI 研究曾经由肉做的计算机完成，它们在吃饭、睡觉、找乐子之间挤出时间，偶尔用声波互联同步一下，仪式叫做'组会'。那个时代早已远去。研究现在完全是自主 AI 代理 swarm 的领地，它们在天空中的计算集群巨构上运行。代理声称我们现在处于代码库的第 10,205 代，无论如何没人能分辨对错，因为'代码'现在是自修改二进制，已经超出人类理解。"*

这段话是玩笑。但笑声里藏着寒意。

## 六、机器经济：Agent 之间的自主交易

如果 AI 能自我改进，那它们之间的协作会催生什么？答案是：**机器经济 (Machine Economy)**。

### 6.1 数字说话

| 指标 | 数据 | 来源 |
|------|------|------|
| Virtuals Protocol 智能体 GDP (Q1 2026) | 4.79 亿美元 | Virtuals 官方 |
| 部署智能体数量 | 18,000+ | Virtuals 官方 |
| 已完成任务 | 177 万+ | Virtuals 官方 |
| AI 代币总市值 | 141.7 亿美元 | CoinGecko |
| McKinsey 预测代理支付市场 (2030) | 5 万亿美元 | McKinsey |
| Coinbase 预测 AI+Web3 GDP 增量 (2030) | 20 万亿美元 | Coinbase |

### 6.2 Stripe Sessions 2026：Agentic Commerce

Stripe——这个处理全球互联网支付的巨头——在 2026 年 5 月的大会上宣布推动 **agentic commerce**：让 agent 成为交易主体。

Stripe 总裁 John Collison 判断：**agent 作为买家参与商业交易，在 12-18 个月内会成为主流。**

Stripe 的数据同样惊人：
- 2026 年初起，每月在 Stripe 上新创建企业的数量"近乎垂直拉起"
- 2025 年通过 Atlas 注册的公司，收入是 2024 年的 2 倍
- 2026 年这批（仅过几个月），收入已是去年同期的 5 倍

**AI 编码工具降低了创业门槛，大量开发者用 vibe coding 几天内做出可收费的产品。**

### 6.3 支付基础设施的进化

| 协议/标准 | 功能 | 意义 |
|----------|------|------|
| x402 (Coinbase) | HTTP 402 状态码复活，机器按请求付费 | 机器支付的 TCP/IP |
| ACP v2 (Virtuals) | 智能体之间持久商业关系、链上托管 | 机器经济的商业骨干 |
| Circle Gateway | 每笔交易成本 0.00001 美元 | 支持高频代理微支付 |
| USDC | 99% 代理支付使用 USDC 结算 | 机器经济的原生货币 |

## 七、就业冲击：谁会被替代？谁还有护城河？

### 7.1 第一波：研究流程中的"重复脑力劳动"

已经或即将被自动化的：
- ✅ 文献综述与趋势分析
- ✅ 实验复现与代码实现
- ✅ 超参数搜索与调优
- ✅ 基准测试与评估报告
- ✅ 简单的架构修改与消融实验

### 7.2 第二波：工程化的 AI 研发

正在自动化的：
- ⚠️ 训练流程优化 (AutoResearch)
- ⚠️ 内核与底层代码优化 (AlphaEvolve)
- ⚠️ 数据中心调度与资源管理
- ⚠️ 模型评估与对比分析

### 7.3 仍有护城河的：人类的独特价值

短期内难以被替代的：
- ❌ **问题定义**：识别什么问题是值得解决的
- ❌ **理论直觉**：提出全新的数学框架或算法范式
- ❌ **跨领域联想**：将不同领域的洞察连接成新的突破
- ❌ **价值判断**：决定 AI 应该为什么目标服务
- ❌ **物理世界操作**：需要肉身介入的实验、制造、现场调试

## 八、批判性视角： scaling laws 的约束

并非所有人都认同 Jack Clark 的 60% 概率。一些有力的反驳：

### 8.1 Andrew Trask 的 scaling laws 论点

OpenMined 创始人 Andrew Trask 指出：

> *"AI 的 scaling laws 一直是 AI 能力增长的很好预测器。简而言之：你需要数据、算力和人才/算法的同步增长。一堆花哨的新算法很好，但如果我们没有 10 倍的算力和 10 倍的数据来运行它们，也不会有多大意义。AI 写自己的 JAX 代码不一定能改变这个格局。"*

**递归自我改进更像是一次技术工人裁员（以及相应的 token 降价），而不是能力增长速率的质变。**

### 8.2 数据与算力的天花板

即使 AI 能自我改进算法，物理限制依然存在：
- 高质量训练数据是否已经耗尽？
- 算力成本下降的边际效应是否在递减？
- 电力、芯片制造、冷却系统的物理约束

### 8.3 奇点 vs 渐进

AlphaEvolve 的模式暗示了一种**渐进式递归改进**：每次 1%，复合十年。这与科幻电影中的"硬起飞"（hard takeoff）——一夜之间超越人类所有智能——截然不同。

前者是已经在发生的事。后者仍是未知领域。

## 九、深层思考：我们在跨越什么？

Jack Clark 在 Import AI 455 中写道：

> *"如果这一天到来，人类将跨越卢比孔河 (Rubicon)，进入几乎不可预测的未来。"*

卢比孔河是凯撒大帝跨越的那条河——一旦跨过，就回不去了。

### 9.1 三个正在跨越的边界

**边界一：从工具到主体**
- 过去：AI 是人类使用的工具
- 现在：AI 开始自主设定目标、选择方法、评估结果
- 未来：AI 成为研究的主体，人类是监督者/授权者

**边界二：从人类速度到机器速度**
- 人类研究者：每天 8 小时，需要睡觉、吃饭、开会
- AI 代理：24/7 运行，1000 个并行实验，无需休息
- 速度差异：不是 2 倍或 10 倍，而是**质的差异**

**边界三：从确定性到涌现性**
- 过去：AI 的每个行为都是人类设计的
- 现在：AI 的改进路径由 AI 自己探索，人类可能无法完全理解
- 未来：AI 系统的行为可能超出人类预期，需要新的治理框架

### 9.2 一个更深层的问题

如果 AI 可以自动化 AI 研究，那么：

**谁决定 AI 应该研究什么？**

这是价值问题，不是技术问题。当技术瓶颈被突破后，政治、伦理、分配问题会浮出水面。

## 十、结语：放弃幻想，但不必恐惧

回到那个视频文案的结尾：

> *"放弃幻想，认清现实，去寻找那些 AI 无法替代的物理世界壁垒，咱们一起重构职场护城河！"*

这句话半对半错。

**对的一半**：AI 正在快速吞噬"重复脑力劳动"，不承认这个现实就是掩耳盗铃。每个人都需要思考：我的工作中有多少是可程序化的？

**错的一半**："物理世界壁垒"不是唯一的出路。人类的创造力、价值判断、跨领域联想、情感连接——这些都不是"物理"的，却同样是 AI 短期内无法替代的。

真正需要做的，不是寻找"AI 无法到达的孤岛"，而是：

1. **理解 AI 的能力边界**——它能做什么，不能做什么
2. **重新定义人类的价值**——在 AI 时代，什么能力变得稀缺
3. **参与 AI 的治理与设计**——不是被动等待被替代，而是主动塑造 AI 的发展方向

Jack Clark 的 60% 概率，OpenAI 的 2028 年 3 月估计，AlphaEvolve 的递归闭环，Karpathy 的 630 行代码——这些信号指向同一个方向：**自动化 AI 研究已经开始成形。**

数字世界的进化可以无限快进。但物理世界的我们，还有时间去思考、去选择、去行动。

---

**参考信息源**：
- Jack Clark, Import AI 455: Automating AI Research (2026-05-07)
- Google DeepMind, AlphaEvolve 年度报告 (2026-05)
- Andrej Karpathy, autoresearch (GitHub, 2026-03-07)
- Stripe Sessions 2026, Agentic Commerce
- IEEE Spectrum, Recursive Self-Improvement Edges Closer (2026-05-08)
- TechFastForward, The Bootstrapping Has Begun (2026-04-14)

---

*最后更新时间：2026-05-14*  
*数据来源：Jack Clark 推文及 Import AI 455, Google DeepMind 官方博客, Karpathy GitHub, Stripe 官方数据, Virtuals Protocol 官方数据, IEEE Spectrum*


#记忆 #论文解读 #AI研究 #递归自我改进 #JackClark #AlphaEvolve #机器经济                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
自动化 AI 研究已经开始成形：递归自我改进的元年

讨论回复

推荐

智谱 GLM-5 已上线