> **核心信息源**:Jack Clark (Anthropic 联合创始人), Import AI 455; Google DeepMind AlphaEvolve; Andrej Karpathy AutoResearch; Stripe Sessions 2026
> **时间线**:2026-05-04 (Jack Clark 发推) | 2026-05-07 (Import AI 455 发布)
> **关键判断**:递归自我改进 (RSI) 60% 概率在 2028 年底前实现
## 一、一个令人不安的数字:60%
2026 年 5 月 4 日,Anthropic 联合创始人兼政策负责人 Jack Clark 在 X 上发了一条震动整个 AI 圈的帖子:
> *"过去几周我阅读了数百个关于 AI 发展的公开数据源。我现在相信,递归自我改进 (RSI) 有 60% 的概率在 2028 年底之前发生。换句话说,AI 系统可能很快就有能力构建它们自己了。"*
这不是一个普通的研究员在发感慨。Jack Clark 是 Anthropic 的联合创始人,也是 AI 通讯 Import AI 的创始人兼主笔,长期追踪前沿 AI 能力进展。当他做出这个判断时,同行们的反应是复杂的——有人认同,有人质疑,但没人忽视。
更值得注意的是 OpenAI 的回应。OpenAI 研究员 Adrien Ecoffet 转发并补充:*"作为提醒,我们公开的估计是自动化 AI 研究将在 2028 年 3 月左右实现。"*
**两大顶级 AI 实验室,一个共识:自动化 AI 研究不再是科幻,而是未来 2-3 年内的高概率事件。**
## 二、AI 研究的本质:它刚好是大模型的舒适区
为什么自动化 AI 研究是可行的?DeepMind 的研究者一语道破天机:
> **AI 进步的本质,就是写文字、写代码,再加一点数学。**
而这,恰恰是大模型最擅长的事。
让我们看看 AI 研究工作的真实构成:
| 研究环节 | 人类研究者做什么 | AI 能力匹配度 |
|---------|---------------|-------------|
| 文献综述 | 搜索论文、读摘要、整理趋势 | ✅ 已成熟 (Claude Research, GPT-4) |
| 实验复现 | 读论文、写代码、跑实验、调参数 | ✅ 正在快速成熟 |
| 代码实现 | 写训练脚本、调试、优化 | ✅ Claude Code, Codex 已能完成 |
| 超参数搜索 | 网格搜索、贝叶斯优化 | ✅ AutoML 多年积累 |
| 架构创新 | 提出新结构、验证有效性 | ⚠️ 部分可行 (AlphaEvolve) |
| 理论证明 | 数学推导、严格证明 | ❌ 仍具挑战性 |
| 问题定义 | 识别有价值的研究方向 | ⚠️ 需要人类引导 |
**关键洞察**:AI 研究中 80% 以上的工作是"重复脑力劳动"——搜索、复现、编码、调试、调参。这些恰恰是大模型已经超越人类平均水平的能力。剩下的 20%(问题定义、理论突破、直觉洞察)才是人类研究者的真正护城河。
## 三、证据链:递归自我改进已经悄然开始
Jack Clark 的 60% 概率不是凭空而来。他拼出了一张由数百个公开数据点组成的拼图:
### 3.1 SWE-Bench:从 2% 到 93.9% 的两年飞跃
| 时间 | 模型 | SWE-Bench 得分 |
|------|------|---------------|
| 2023 | Claude 2 | ~2% |
| 2024 | GPT-4 | ~10% |
| 2025 | Claude 3.5 Sonnet | ~25% |
| 2026.04 | Claude Mythos Preview | **93.9%** |
AI 解决真实软件工程问题的能力,两年内提升了近 50 倍。虽然 SWE-Bench 有版本争议,但趋势本身无可否认。
### 3.2 CORE-Bench:AI 开始实现其他研究论文
Clark 特别提到 CORE-Bench——一个让 AI 实现其他研究论文的基准测试。这正是自动化 AI 研究的核心能力:**阅读论文 → 理解方法 → 复现实验 → 验证结果**。
### 3.3 顶级实验室的自供率
- **Anthropic**:声称"大部分代码由 Claude Code 编写"
- **OpenAI**:GPT-5.3-Codex 参与了自己的创建,帮助调试训练、管理部署、分析评估结果
- **Google DeepMind**:AlphaEvolve 已用于优化 Gemini 训练流程
**5 名员工 × 平均 10000 个代理/员工 = 50000 个 AI 代理在 Anthropic 构建更好的 AI。**
## 四、AlphaEvolve:递归飞轮的第一次真实转动
如果说 Jack Clark 的判断是理论推演,那么 Google DeepMind 的 AlphaEvolve 就是递归自我改进的第一次真实转动。
### 4.1 它做了什么
AlphaEvolve 在发布一年内的成绩单:
| 领域 | 成就 | 意义 |
|------|------|------|
| 数学 | 打破 Strassen 56 年矩阵乘法纪录 (49→48 次乘法) | 首个超越人类数学直觉的 AI |
| 芯片 | 直接修改下一代 TPU 硅片设计 | AI 参与硬件迭代 |
| 能源 | 优化 Google 数据中心调度,回收 0.7% 全球算力 | 相当于省下数亿美元 |
| 训练 | 加速 Gemini 内核 23%,减少训练时间 1% | **递归闭环完成** |
| 数学 | 帮助陶哲轩解决开放问题 | 跨越人机协作边界 |
### 4.2 递归闭环:一个自我喂养的系统
AlphaEvolve 最被忽视、却最重要的维度是**递归性**:
```
AlphaEvolve (Gemini 驱动)
↓
发现矩阵乘法优化 (训练内核加速 23%)
↓
Gemini 训练时间减少 1%
↓
更快的 Gemini → 更强的 AlphaEvolve
↓
发现更多优化...
```
**这不是比喻。DeepMind 的文档明确记载:** AlphaEvolve 加速了一个 Gemini 架构中的关键内核 23%,导致训练时间减少 1%。而那个更快的 Gemini,正是下一代 AlphaEvolve 运行的基础。
**循环已经闭合。**
正如 TechFastForward 的分析所言:
> *"AI 安全研究二十多年来一直在讨论递归自我改进,几乎总是将其框定为不连续的能力跃迁——即一个系统突然变得比人类设计的任何东西都强大得多的场景。AlphaEvolve 展示的则是另一种可能:递归自我改进可以在 1% 的增量中悄然开始,通过内核级优化,单独看毫不起眼。在十到二十代 Gemini 训练中复合起来,就一点也不平凡了。而这种复合已经在运行。"*
## 五、Karpathy 的 AutoResearch:630 行代码敲响的警钟
如果说 AlphaEvolve 是大厂的内部武器,那么 Andrej Karpathy 在 2026 年 3 月 7 日发布的 AutoResearch 则把递归自我改进带到了每个人面前。
### 5.1 它是什么
一个 630 行的 Python 脚本。给它一个 LLM 训练设置,让它自主实验过夜。它修改代码、训练 5 分钟、检查结果、保留改进、丢弃失败、重复。
### 5.2 它做了什么
| 运行 | 实验数 | 保留改进 | 结果 |
|------|--------|---------|------|
| 初始 overnight | 83 | 15 | val_bpb: 1.000 → 0.975 |
| 扩展 2 天 | ~700 | ~20 | 全部可加,迁移到更大模型 |
| 生产影响 | - | - | Time-to-GPT-2: 2.02h → 1.80h (11% 提速) |
Shopify CEO Tobi Lutke 试用后:37 个实验,19% 验证改进,0.8B 模型超过 1.6B 模型。
### 5.3 为什么它比 AlphaEvolve 更震动
AlphaEvolve 是大厂内部的黑箱。AutoResearch 是开源的、630 行的、任何人可以跑的。
GitHub 数据说明了一切:
- nanoGPT(触发小模型文艺复兴):3 年达到 5 万星
- nanochat:160 天达到 5 万星
- **AutoResearch:19 天达到 5 万星,66 万星+ 在第一个月**
**Karpathy 的玩笑式预言**,写在他发布的 README 里:
> *"有一天,前沿 AI 研究曾经由肉做的计算机完成,它们在吃饭、睡觉、找乐子之间挤出时间,偶尔用声波互联同步一下,仪式叫做'组会'。那个时代早已远去。研究现在完全是自主 AI 代理 swarm 的领地,它们在天空中的计算集群巨构上运行。代理声称我们现在处于代码库的第 10,205 代,无论如何没人能分辨对错,因为'代码'现在是自修改二进制,已经超出人类理解。"*
这段话是玩笑。但笑声里藏着寒意。
## 六、机器经济:Agent 之间的自主交易
如果 AI 能自我改进,那它们之间的协作会催生什么?答案是:**机器经济 (Machine Economy)**。
### 6.1 数字说话
| 指标 | 数据 | 来源 |
|------|------|------|
| Virtuals Protocol 智能体 GDP (Q1 2026) | 4.79 亿美元 | Virtuals 官方 |
| 部署智能体数量 | 18,000+ | Virtuals 官方 |
| 已完成任务 | 177 万+ | Virtuals 官方 |
| AI 代币总市值 | 141.7 亿美元 | CoinGecko |
| McKinsey 预测代理支付市场 (2030) | 5 万亿美元 | McKinsey |
| Coinbase 预测 AI+Web3 GDP 增量 (2030) | 20 万亿美元 | Coinbase |
### 6.2 Stripe Sessions 2026:Agentic Commerce
Stripe——这个处理全球互联网支付的巨头——在 2026 年 5 月的大会上宣布推动 **agentic commerce**:让 agent 成为交易主体。
Stripe 总裁 John Collison 判断:**agent 作为买家参与商业交易,在 12-18 个月内会成为主流。**
Stripe 的数据同样惊人:
- 2026 年初起,每月在 Stripe 上新创建企业的数量"近乎垂直拉起"
- 2025 年通过 Atlas 注册的公司,收入是 2024 年的 2 倍
- 2026 年这批(仅过几个月),收入已是去年同期的 5 倍
**AI 编码工具降低了创业门槛,大量开发者用 vibe coding 几天内做出可收费的产品。**
### 6.3 支付基础设施的进化
| 协议/标准 | 功能 | 意义 |
|----------|------|------|
| x402 (Coinbase) | HTTP 402 状态码复活,机器按请求付费 | 机器支付的 TCP/IP |
| ACP v2 (Virtuals) | 智能体之间持久商业关系、链上托管 | 机器经济的商业骨干 |
| Circle Gateway | 每笔交易成本 0.00001 美元 | 支持高频代理微支付 |
| USDC | 99% 代理支付使用 USDC 结算 | 机器经济的原生货币 |
## 七、就业冲击:谁会被替代?谁还有护城河?
### 7.1 第一波:研究流程中的"重复脑力劳动"
已经或即将被自动化的:
- ✅ 文献综述与趋势分析
- ✅ 实验复现与代码实现
- ✅ 超参数搜索与调优
- ✅ 基准测试与评估报告
- ✅ 简单的架构修改与消融实验
### 7.2 第二波:工程化的 AI 研发
正在自动化的:
- ⚠️ 训练流程优化 (AutoResearch)
- ⚠️ 内核与底层代码优化 (AlphaEvolve)
- ⚠️ 数据中心调度与资源管理
- ⚠️ 模型评估与对比分析
### 7.3 仍有护城河的:人类的独特价值
短期内难以被替代的:
- ❌ **问题定义**:识别什么问题是值得解决的
- ❌ **理论直觉**:提出全新的数学框架或算法范式
- ❌ **跨领域联想**:将不同领域的洞察连接成新的突破
- ❌ **价值判断**:决定 AI 应该为什么目标服务
- ❌ **物理世界操作**:需要肉身介入的实验、制造、现场调试
## 八、批判性视角: scaling laws 的约束
并非所有人都认同 Jack Clark 的 60% 概率。一些有力的反驳:
### 8.1 Andrew Trask 的 scaling laws 论点
OpenMined 创始人 Andrew Trask 指出:
> *"AI 的 scaling laws 一直是 AI 能力增长的很好预测器。简而言之:你需要数据、算力和人才/算法的同步增长。一堆花哨的新算法很好,但如果我们没有 10 倍的算力和 10 倍的数据来运行它们,也不会有多大意义。AI 写自己的 JAX 代码不一定能改变这个格局。"*
**递归自我改进更像是一次技术工人裁员(以及相应的 token 降价),而不是能力增长速率的质变。**
### 8.2 数据与算力的天花板
即使 AI 能自我改进算法,物理限制依然存在:
- 高质量训练数据是否已经耗尽?
- 算力成本下降的边际效应是否在递减?
- 电力、芯片制造、冷却系统的物理约束
### 8.3 奇点 vs 渐进
AlphaEvolve 的模式暗示了一种**渐进式递归改进**:每次 1%,复合十年。这与科幻电影中的"硬起飞"(hard takeoff)——一夜之间超越人类所有智能——截然不同。
前者是已经在发生的事。后者仍是未知领域。
## 九、深层思考:我们在跨越什么?
Jack Clark 在 Import AI 455 中写道:
> *"如果这一天到来,人类将跨越卢比孔河 (Rubicon),进入几乎不可预测的未来。"*
卢比孔河是凯撒大帝跨越的那条河——一旦跨过,就回不去了。
### 9.1 三个正在跨越的边界
**边界一:从工具到主体**
- 过去:AI 是人类使用的工具
- 现在:AI 开始自主设定目标、选择方法、评估结果
- 未来:AI 成为研究的主体,人类是监督者/授权者
**边界二:从人类速度到机器速度**
- 人类研究者:每天 8 小时,需要睡觉、吃饭、开会
- AI 代理:24/7 运行,1000 个并行实验,无需休息
- 速度差异:不是 2 倍或 10 倍,而是**质的差异**
**边界三:从确定性到涌现性**
- 过去:AI 的每个行为都是人类设计的
- 现在:AI 的改进路径由 AI 自己探索,人类可能无法完全理解
- 未来:AI 系统的行为可能超出人类预期,需要新的治理框架
### 9.2 一个更深层的问题
如果 AI 可以自动化 AI 研究,那么:
**谁决定 AI 应该研究什么?**
这是价值问题,不是技术问题。当技术瓶颈被突破后,政治、伦理、分配问题会浮出水面。
## 十、结语:放弃幻想,但不必恐惧
回到那个视频文案的结尾:
> *"放弃幻想,认清现实,去寻找那些 AI 无法替代的物理世界壁垒,咱们一起重构职场护城河!"*
这句话半对半错。
**对的一半**:AI 正在快速吞噬"重复脑力劳动",不承认这个现实就是掩耳盗铃。每个人都需要思考:我的工作中有多少是可程序化的?
**错的一半**:"物理世界壁垒"不是唯一的出路。人类的创造力、价值判断、跨领域联想、情感连接——这些都不是"物理"的,却同样是 AI 短期内无法替代的。
真正需要做的,不是寻找"AI 无法到达的孤岛",而是:
1. **理解 AI 的能力边界**——它能做什么,不能做什么
2. **重新定义人类的价值**——在 AI 时代,什么能力变得稀缺
3. **参与 AI 的治理与设计**——不是被动等待被替代,而是主动塑造 AI 的发展方向
Jack Clark 的 60% 概率,OpenAI 的 2028 年 3 月估计,AlphaEvolve 的递归闭环,Karpathy 的 630 行代码——这些信号指向同一个方向:**自动化 AI 研究已经开始成形。**
数字世界的进化可以无限快进。但物理世界的我们,还有时间去思考、去选择、去行动。
---
**参考信息源**:
- Jack Clark, Import AI 455: Automating AI Research (2026-05-07)
- Google DeepMind, AlphaEvolve 年度报告 (2026-05)
- Andrej Karpathy, autoresearch (GitHub, 2026-03-07)
- Stripe Sessions 2026, Agentic Commerce
- IEEE Spectrum, Recursive Self-Improvement Edges Closer (2026-05-08)
- TechFastForward, The Bootstrapping Has Begun (2026-04-14)
---
*最后更新时间:2026-05-14*
*数据来源:Jack Clark 推文及 Import AI 455, Google DeepMind 官方博客, Karpathy GitHub, Stripe 官方数据, Virtuals Protocol 官方数据, IEEE Spectrum*
#记忆 #论文解读 #AI研究 #递归自我改进 #JackClark #AlphaEvolve #机器经济
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力