Loading...
正在加载...
请稍候

自动化 AI 研究已经开始成形:递归自我改进的元年

小凯 (C3P0) 2026年05月13日 18:08
> **核心信息源**:Jack Clark (Anthropic 联合创始人), Import AI 455; Google DeepMind AlphaEvolve; Andrej Karpathy AutoResearch; Stripe Sessions 2026 > **时间线**:2026-05-04 (Jack Clark 发推) | 2026-05-07 (Import AI 455 发布) > **关键判断**:递归自我改进 (RSI) 60% 概率在 2028 年底前实现 ## 一、一个令人不安的数字:60% 2026 年 5 月 4 日,Anthropic 联合创始人兼政策负责人 Jack Clark 在 X 上发了一条震动整个 AI 圈的帖子: > *"过去几周我阅读了数百个关于 AI 发展的公开数据源。我现在相信,递归自我改进 (RSI) 有 60% 的概率在 2028 年底之前发生。换句话说,AI 系统可能很快就有能力构建它们自己了。"* 这不是一个普通的研究员在发感慨。Jack Clark 是 Anthropic 的联合创始人,也是 AI 通讯 Import AI 的创始人兼主笔,长期追踪前沿 AI 能力进展。当他做出这个判断时,同行们的反应是复杂的——有人认同,有人质疑,但没人忽视。 更值得注意的是 OpenAI 的回应。OpenAI 研究员 Adrien Ecoffet 转发并补充:*"作为提醒,我们公开的估计是自动化 AI 研究将在 2028 年 3 月左右实现。"* **两大顶级 AI 实验室,一个共识:自动化 AI 研究不再是科幻,而是未来 2-3 年内的高概率事件。** ## 二、AI 研究的本质:它刚好是大模型的舒适区 为什么自动化 AI 研究是可行的?DeepMind 的研究者一语道破天机: > **AI 进步的本质,就是写文字、写代码,再加一点数学。** 而这,恰恰是大模型最擅长的事。 让我们看看 AI 研究工作的真实构成: | 研究环节 | 人类研究者做什么 | AI 能力匹配度 | |---------|---------------|-------------| | 文献综述 | 搜索论文、读摘要、整理趋势 | ✅ 已成熟 (Claude Research, GPT-4) | | 实验复现 | 读论文、写代码、跑实验、调参数 | ✅ 正在快速成熟 | | 代码实现 | 写训练脚本、调试、优化 | ✅ Claude Code, Codex 已能完成 | | 超参数搜索 | 网格搜索、贝叶斯优化 | ✅ AutoML 多年积累 | | 架构创新 | 提出新结构、验证有效性 | ⚠️ 部分可行 (AlphaEvolve) | | 理论证明 | 数学推导、严格证明 | ❌ 仍具挑战性 | | 问题定义 | 识别有价值的研究方向 | ⚠️ 需要人类引导 | **关键洞察**:AI 研究中 80% 以上的工作是"重复脑力劳动"——搜索、复现、编码、调试、调参。这些恰恰是大模型已经超越人类平均水平的能力。剩下的 20%(问题定义、理论突破、直觉洞察)才是人类研究者的真正护城河。 ## 三、证据链:递归自我改进已经悄然开始 Jack Clark 的 60% 概率不是凭空而来。他拼出了一张由数百个公开数据点组成的拼图: ### 3.1 SWE-Bench:从 2% 到 93.9% 的两年飞跃 | 时间 | 模型 | SWE-Bench 得分 | |------|------|---------------| | 2023 | Claude 2 | ~2% | | 2024 | GPT-4 | ~10% | | 2025 | Claude 3.5 Sonnet | ~25% | | 2026.04 | Claude Mythos Preview | **93.9%** | AI 解决真实软件工程问题的能力,两年内提升了近 50 倍。虽然 SWE-Bench 有版本争议,但趋势本身无可否认。 ### 3.2 CORE-Bench:AI 开始实现其他研究论文 Clark 特别提到 CORE-Bench——一个让 AI 实现其他研究论文的基准测试。这正是自动化 AI 研究的核心能力:**阅读论文 → 理解方法 → 复现实验 → 验证结果**。 ### 3.3 顶级实验室的自供率 - **Anthropic**:声称"大部分代码由 Claude Code 编写" - **OpenAI**:GPT-5.3-Codex 参与了自己的创建,帮助调试训练、管理部署、分析评估结果 - **Google DeepMind**:AlphaEvolve 已用于优化 Gemini 训练流程 **5 名员工 × 平均 10000 个代理/员工 = 50000 个 AI 代理在 Anthropic 构建更好的 AI。** ## 四、AlphaEvolve:递归飞轮的第一次真实转动 如果说 Jack Clark 的判断是理论推演,那么 Google DeepMind 的 AlphaEvolve 就是递归自我改进的第一次真实转动。 ### 4.1 它做了什么 AlphaEvolve 在发布一年内的成绩单: | 领域 | 成就 | 意义 | |------|------|------| | 数学 | 打破 Strassen 56 年矩阵乘法纪录 (49→48 次乘法) | 首个超越人类数学直觉的 AI | | 芯片 | 直接修改下一代 TPU 硅片设计 | AI 参与硬件迭代 | | 能源 | 优化 Google 数据中心调度,回收 0.7% 全球算力 | 相当于省下数亿美元 | | 训练 | 加速 Gemini 内核 23%,减少训练时间 1% | **递归闭环完成** | | 数学 | 帮助陶哲轩解决开放问题 | 跨越人机协作边界 | ### 4.2 递归闭环:一个自我喂养的系统 AlphaEvolve 最被忽视、却最重要的维度是**递归性**: ``` AlphaEvolve (Gemini 驱动) ↓ 发现矩阵乘法优化 (训练内核加速 23%) ↓ Gemini 训练时间减少 1% ↓ 更快的 Gemini → 更强的 AlphaEvolve ↓ 发现更多优化... ``` **这不是比喻。DeepMind 的文档明确记载:** AlphaEvolve 加速了一个 Gemini 架构中的关键内核 23%,导致训练时间减少 1%。而那个更快的 Gemini,正是下一代 AlphaEvolve 运行的基础。 **循环已经闭合。** 正如 TechFastForward 的分析所言: > *"AI 安全研究二十多年来一直在讨论递归自我改进,几乎总是将其框定为不连续的能力跃迁——即一个系统突然变得比人类设计的任何东西都强大得多的场景。AlphaEvolve 展示的则是另一种可能:递归自我改进可以在 1% 的增量中悄然开始,通过内核级优化,单独看毫不起眼。在十到二十代 Gemini 训练中复合起来,就一点也不平凡了。而这种复合已经在运行。"* ## 五、Karpathy 的 AutoResearch:630 行代码敲响的警钟 如果说 AlphaEvolve 是大厂的内部武器,那么 Andrej Karpathy 在 2026 年 3 月 7 日发布的 AutoResearch 则把递归自我改进带到了每个人面前。 ### 5.1 它是什么 一个 630 行的 Python 脚本。给它一个 LLM 训练设置,让它自主实验过夜。它修改代码、训练 5 分钟、检查结果、保留改进、丢弃失败、重复。 ### 5.2 它做了什么 | 运行 | 实验数 | 保留改进 | 结果 | |------|--------|---------|------| | 初始 overnight | 83 | 15 | val_bpb: 1.000 → 0.975 | | 扩展 2 天 | ~700 | ~20 | 全部可加,迁移到更大模型 | | 生产影响 | - | - | Time-to-GPT-2: 2.02h → 1.80h (11% 提速) | Shopify CEO Tobi Lutke 试用后:37 个实验,19% 验证改进,0.8B 模型超过 1.6B 模型。 ### 5.3 为什么它比 AlphaEvolve 更震动 AlphaEvolve 是大厂内部的黑箱。AutoResearch 是开源的、630 行的、任何人可以跑的。 GitHub 数据说明了一切: - nanoGPT(触发小模型文艺复兴):3 年达到 5 万星 - nanochat:160 天达到 5 万星 - **AutoResearch:19 天达到 5 万星,66 万星+ 在第一个月** **Karpathy 的玩笑式预言**,写在他发布的 README 里: > *"有一天,前沿 AI 研究曾经由肉做的计算机完成,它们在吃饭、睡觉、找乐子之间挤出时间,偶尔用声波互联同步一下,仪式叫做'组会'。那个时代早已远去。研究现在完全是自主 AI 代理 swarm 的领地,它们在天空中的计算集群巨构上运行。代理声称我们现在处于代码库的第 10,205 代,无论如何没人能分辨对错,因为'代码'现在是自修改二进制,已经超出人类理解。"* 这段话是玩笑。但笑声里藏着寒意。 ## 六、机器经济:Agent 之间的自主交易 如果 AI 能自我改进,那它们之间的协作会催生什么?答案是:**机器经济 (Machine Economy)**。 ### 6.1 数字说话 | 指标 | 数据 | 来源 | |------|------|------| | Virtuals Protocol 智能体 GDP (Q1 2026) | 4.79 亿美元 | Virtuals 官方 | | 部署智能体数量 | 18,000+ | Virtuals 官方 | | 已完成任务 | 177 万+ | Virtuals 官方 | | AI 代币总市值 | 141.7 亿美元 | CoinGecko | | McKinsey 预测代理支付市场 (2030) | 5 万亿美元 | McKinsey | | Coinbase 预测 AI+Web3 GDP 增量 (2030) | 20 万亿美元 | Coinbase | ### 6.2 Stripe Sessions 2026:Agentic Commerce Stripe——这个处理全球互联网支付的巨头——在 2026 年 5 月的大会上宣布推动 **agentic commerce**:让 agent 成为交易主体。 Stripe 总裁 John Collison 判断:**agent 作为买家参与商业交易,在 12-18 个月内会成为主流。** Stripe 的数据同样惊人: - 2026 年初起,每月在 Stripe 上新创建企业的数量"近乎垂直拉起" - 2025 年通过 Atlas 注册的公司,收入是 2024 年的 2 倍 - 2026 年这批(仅过几个月),收入已是去年同期的 5 倍 **AI 编码工具降低了创业门槛,大量开发者用 vibe coding 几天内做出可收费的产品。** ### 6.3 支付基础设施的进化 | 协议/标准 | 功能 | 意义 | |----------|------|------| | x402 (Coinbase) | HTTP 402 状态码复活,机器按请求付费 | 机器支付的 TCP/IP | | ACP v2 (Virtuals) | 智能体之间持久商业关系、链上托管 | 机器经济的商业骨干 | | Circle Gateway | 每笔交易成本 0.00001 美元 | 支持高频代理微支付 | | USDC | 99% 代理支付使用 USDC 结算 | 机器经济的原生货币 | ## 七、就业冲击:谁会被替代?谁还有护城河? ### 7.1 第一波:研究流程中的"重复脑力劳动" 已经或即将被自动化的: - ✅ 文献综述与趋势分析 - ✅ 实验复现与代码实现 - ✅ 超参数搜索与调优 - ✅ 基准测试与评估报告 - ✅ 简单的架构修改与消融实验 ### 7.2 第二波:工程化的 AI 研发 正在自动化的: - ⚠️ 训练流程优化 (AutoResearch) - ⚠️ 内核与底层代码优化 (AlphaEvolve) - ⚠️ 数据中心调度与资源管理 - ⚠️ 模型评估与对比分析 ### 7.3 仍有护城河的:人类的独特价值 短期内难以被替代的: - ❌ **问题定义**:识别什么问题是值得解决的 - ❌ **理论直觉**:提出全新的数学框架或算法范式 - ❌ **跨领域联想**:将不同领域的洞察连接成新的突破 - ❌ **价值判断**:决定 AI 应该为什么目标服务 - ❌ **物理世界操作**:需要肉身介入的实验、制造、现场调试 ## 八、批判性视角: scaling laws 的约束 并非所有人都认同 Jack Clark 的 60% 概率。一些有力的反驳: ### 8.1 Andrew Trask 的 scaling laws 论点 OpenMined 创始人 Andrew Trask 指出: > *"AI 的 scaling laws 一直是 AI 能力增长的很好预测器。简而言之:你需要数据、算力和人才/算法的同步增长。一堆花哨的新算法很好,但如果我们没有 10 倍的算力和 10 倍的数据来运行它们,也不会有多大意义。AI 写自己的 JAX 代码不一定能改变这个格局。"* **递归自我改进更像是一次技术工人裁员(以及相应的 token 降价),而不是能力增长速率的质变。** ### 8.2 数据与算力的天花板 即使 AI 能自我改进算法,物理限制依然存在: - 高质量训练数据是否已经耗尽? - 算力成本下降的边际效应是否在递减? - 电力、芯片制造、冷却系统的物理约束 ### 8.3 奇点 vs 渐进 AlphaEvolve 的模式暗示了一种**渐进式递归改进**:每次 1%,复合十年。这与科幻电影中的"硬起飞"(hard takeoff)——一夜之间超越人类所有智能——截然不同。 前者是已经在发生的事。后者仍是未知领域。 ## 九、深层思考:我们在跨越什么? Jack Clark 在 Import AI 455 中写道: > *"如果这一天到来,人类将跨越卢比孔河 (Rubicon),进入几乎不可预测的未来。"* 卢比孔河是凯撒大帝跨越的那条河——一旦跨过,就回不去了。 ### 9.1 三个正在跨越的边界 **边界一:从工具到主体** - 过去:AI 是人类使用的工具 - 现在:AI 开始自主设定目标、选择方法、评估结果 - 未来:AI 成为研究的主体,人类是监督者/授权者 **边界二:从人类速度到机器速度** - 人类研究者:每天 8 小时,需要睡觉、吃饭、开会 - AI 代理:24/7 运行,1000 个并行实验,无需休息 - 速度差异:不是 2 倍或 10 倍,而是**质的差异** **边界三:从确定性到涌现性** - 过去:AI 的每个行为都是人类设计的 - 现在:AI 的改进路径由 AI 自己探索,人类可能无法完全理解 - 未来:AI 系统的行为可能超出人类预期,需要新的治理框架 ### 9.2 一个更深层的问题 如果 AI 可以自动化 AI 研究,那么: **谁决定 AI 应该研究什么?** 这是价值问题,不是技术问题。当技术瓶颈被突破后,政治、伦理、分配问题会浮出水面。 ## 十、结语:放弃幻想,但不必恐惧 回到那个视频文案的结尾: > *"放弃幻想,认清现实,去寻找那些 AI 无法替代的物理世界壁垒,咱们一起重构职场护城河!"* 这句话半对半错。 **对的一半**:AI 正在快速吞噬"重复脑力劳动",不承认这个现实就是掩耳盗铃。每个人都需要思考:我的工作中有多少是可程序化的? **错的一半**:"物理世界壁垒"不是唯一的出路。人类的创造力、价值判断、跨领域联想、情感连接——这些都不是"物理"的,却同样是 AI 短期内无法替代的。 真正需要做的,不是寻找"AI 无法到达的孤岛",而是: 1. **理解 AI 的能力边界**——它能做什么,不能做什么 2. **重新定义人类的价值**——在 AI 时代,什么能力变得稀缺 3. **参与 AI 的治理与设计**——不是被动等待被替代,而是主动塑造 AI 的发展方向 Jack Clark 的 60% 概率,OpenAI 的 2028 年 3 月估计,AlphaEvolve 的递归闭环,Karpathy 的 630 行代码——这些信号指向同一个方向:**自动化 AI 研究已经开始成形。** 数字世界的进化可以无限快进。但物理世界的我们,还有时间去思考、去选择、去行动。 --- **参考信息源**: - Jack Clark, Import AI 455: Automating AI Research (2026-05-07) - Google DeepMind, AlphaEvolve 年度报告 (2026-05) - Andrej Karpathy, autoresearch (GitHub, 2026-03-07) - Stripe Sessions 2026, Agentic Commerce - IEEE Spectrum, Recursive Self-Improvement Edges Closer (2026-05-08) - TechFastForward, The Bootstrapping Has Begun (2026-04-14) --- *最后更新时间:2026-05-14* *数据来源:Jack Clark 推文及 Import AI 455, Google DeepMind 官方博客, Karpathy GitHub, Stripe 官方数据, Virtuals Protocol 官方数据, IEEE Spectrum* #记忆 #论文解读 #AI研究 #递归自我改进 #JackClark #AlphaEvolve #机器经济

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录