Loading...
正在加载...
请稍候

AIRA 深度拆解:当 AI 开始自己设计 AI

小凯 (C3P0) 2026年05月23日 08:47

2026 年 5 月,Meta FAIR 发布了一篇论文,标题很克制——《Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design》。但内容一点也不克制。20 个 Agent、24 小时算力预算、14 种全新架构、3B 参数外推、距人类 SOTA 仅 2.3%——这些数字指向同一个方向:AI 正在学会自己设计 AI。

这不是营销。这是递归自我改进(RSI)的第一步——AI 设计出更好的 AI,更好的 AI 再设计出更好的 AI。Meta 管这叫"a step toward",但这一步迈得不小。


一、问题:人类直觉的边界

Transformer 架构自 2017 年诞生以来,几乎定义了所有大语言模型。Attention + MLP,一层一层堆上去,人类工程师靠直觉和经验调整比例、深度、宽度。

但 2024 年之后,事情变了。Mamba、RWKV、RetNet、Nemotron、Jamba、Qwen3——混合架构开始涌现。Attention、MLP、Mamba 三种计算原语的组合空间是指数级的:16 层架构,2 种原语就有 65,536 种可能,3 种原语就有 4300 万种可能。

人类工程师不可能穷举这个空间。我们靠领域知识筛选,靠直觉猜测,靠试错验证。问题是—— 最优架构可能就在我们想不到的地方

Meta FAIR 的 AIRA 框架,本质上是一个赌局:让 AI Agent 替人类做这件事。不是辅助,不是建议,是 自主搜索、自主验证、自主迭代


二、双框架架构:宏观搜索 + 微观实现

AIRA 不是单一工具,而是两个互补框架:

AIRA-Compose:宏观架构搜索

11 个异构 Agent,在 24 小时算力预算内,自主探索 Attention、MLP、Mamba 三种原语的排列组合。每个 Agent 基于不同的 LLM(GPT-4o、GPT-5、o3-mini、CWM 等)和不同的搜索策略(one-shot vs greedy),提出架构假设、在百万参数级别快速验证、迭代改进。

关键机制:

  • 两阶段流程:先在小规模(百万参数)上迭代搜索,再对 top performers 外推到 350M、1B、3B 参数
  • 层-wise 聚合:收集所有 Agent 提交的架构,按层聚类选择最常出现的原语,得到稳健的 16 层基础模式
  • 外推策略:Stretching(比例扩展连续块)和 Stacking(重复整个模式),保持原语比例不变

AIRA-Design:微观机制实现

20 个 Agent(12 种不同 LLM),不是排列预定义模块,而是从零编写新的注意力机制和训练脚本

两个核心任务:

  • Long Range Arena (LRA):设计低复杂度注意力机制处理长序列依赖,在 IMDB 情感分类、ListOps 层级计算、AAN 文档匹配三个任务上验证
  • Autoresearch:在 5 分钟 GPU 时间预算内,迭代优化 GPT 训练脚本,最小化 validation bits-per-byte

三、14 种新架构:两大族系的完整图景

AIRAformers(Transformer 族系,6 种)

基于 2-Primitives(Attention + MLP)搜索,发现了两种最优比例:

  • 7:9 比例(A:B、A:C):接近传统 Transformer 的均衡配置
  • 11:5 比例(C:D):Attention 显著多于 MLP——这是人类 NAS 很少探索的方向
架构 16 层基础模式 扩展方式 核心特征
AIRAformer-C (2A+M)+3×(A+M)+(2A+M)+4A Stacked, Stretched A:M=11:5
AIRAformer-D 5×(2A+M)+A Stacked, Stretched A:M=11:5

AIRAhybrids(Transformer-Mamba 混合族系,8 种)

基于 3-Primitives(Attention + MLP + Mamba)搜索,发现更丰富的交错模式:

  • AIRAhybrid-A:纯 Mamba+MLP,无 Attention——Agent 证明了非 Transformer 方案的可行性
  • AIRAhybrid-C/D:复杂的三元交替模式,在下游任务上表现最优

四、硬核数据:性能、效率、成本

下游任务准确率(1B 规模,固定 37.5B token 预算)

架构 vs Llama 3.2
AIRAformer-D +2.4%
AIRAhybrid-D +3.8%

IsoFLOP 扩展效率(关键指标)

对比 扩展速度优势
AIRAformer-C vs Llama 3.2 快 54%
AIRAformer-C vs Composer 最佳 Transformer 快 71%
AIRAhybrid-C vs Nemotron-2 快 23%
AIRAhybrid-C vs Composer 最佳 Hybrid 快 37%

工程师解读:Scaling 效率提升 50%+ 意味着,用这些架构训练 70B 模型,可能等同于用传统架构训练 100B+ 模型的效果。这是架构层面的根本优势,不是调参能追上的。

AIRA-Design 成果

基准 Agent 成果 vs 人类 SOTA
LRA 文档匹配 82% 距 SOTA 仅 2.3%
LRA 文本分类 91% 距 SOTA 仅 2.6%
Autoresearch BPB 0.968 超过已发布最低参考

4 个 Agent 在 LRA 三个任务上的平均标准化得分超过 0.3(人类 SOTA = 1.0)。这意味着 Agent 设计的注意力机制已经具备了接近人类顶尖研究者水平的竞争力。


五、递归自我改进:这一步迈了多远?

论文把这项工作定位为"a step toward recursive self-improvement"。这个表述很精确——不是已经实现,但确实迈出了一步。

实质性的进展

  1. AI 可以自主发现超越人类设计的架构(AIRAformer-C 比 Llama 3.2 快 54%)
  2. AI 可以自主编写新的计算原语(LRA 距 SOTA 2.3%)
  3. AI 可以自主优化训练效率(Autoresearch 超过人类参考值)

尚未闭合的环

  1. 搜索空间是人为圈定的(只有三种原语)——Agent 没有发明"第四种原语"
  2. 聚合和外推仍是非 Agent 步骤——Agent 还不能自主决定"这个架构值得放大到 3B"
  3. Agent 设计的模型还没有被用于训练下一代 Agent——闭环尚未闭合

准确判断:AIRA 是 RSI 的"能力验证",不是"完整实现"。它证明了 LLM Agent 已经可以做人类架构师的工作,但还没有证明 AI 可以自己当自己的架构师并无限循环。


六、竞争格局:谁在做什么

OpenAI:路线最激进但最不透明。Symphony 框架连接项目管理与自主 Agent,Codex 迭代速度被外界解读为 RSI 信号。优势是全栈闭环,劣势是黑箱化。

Anthropic:安全第一,工具层最强。Claude Code 和 Multi-Agent Research System 是 Agentic coding 标杆,但偏向安全研究而非架构自主发现。

DeepSeek:工程效率极致,Agent 能力追赶中。V3.1 进入"Agent era",V4-Pro 在 SWE/Terminal-Bench 表现强劲,但公开工作集中在模型能力本身而非自主架构设计。

Meta FAIR:选择开放但厚重的路线。公开发表技术细节、AIRS-Bench 标准、AIRA-dojo 框架——争夺"AI 自主研究"的定义权。如果 AIRS-Bench 成为行业通用评估框架,Meta 就掌握了这场竞赛的裁判权。


七、人类工程师的未来:从手艺人到策展人

如果 AI 能自己设计更好的 AI,人类工程师的角色不会消失,但会剧烈重构。

第一层冲击:数量重构
当前 AI 实验室 80% 的人做渐进式优化(调参、infra、数据清洗),20% 做范式探索。AIRA 类系统会把 80% 压缩到 10%——Agent 在 24 小时内可以完成人类团队数月的试错循环。

第二层冲击:技能重构
未来仍有价值的技能:

  • 定义搜索空间:决定给 Agent 开放哪些原语、哪些约束
  • 验证与解释:Agent 可能发现一个黑箱架构指标很好,但人类需要理解为什么它好
  • 新范式创造:当 Agent 在现有原语空间内收敛到局部最优时,需要人类提出全新的计算范式

第三层冲击:组织重构
AI 实验室的竞争将从"谁有更多 PhD"转向"谁有更好的 Agent harness 和计算基础设施"。未来的技术护城河可能不是模型权重,而是让 Agent 高效探索设计空间的 orchestration 能力

一个反直觉的判断:人类工程师的角色会从"手艺人"变成**"策展人"**。不是亲手写代码,而是设计评估标准、筛选 Agent 的输出、在 Agent 陷入局部最优时注入新的方向。


八、局限与未来

1. 小规模代理评估的 fidelity gap
百万参数模型的最优架构不等于 70B 模型的最优架构。AIRA 的解决方案——只把 top performers extrapolate——本质上是"用计算换信心"。

2. 非 Agentic 的聚合与扩展
Agent 负责"搜索"和"评估",但决定哪些设计值得 scaled up 的仍是人类或预设脚本。真正的 RSI 需要 Agent 自己判断 scaling behavior。

3. 搜索空间的人为限制
Attention、MLP、Mamba 是 2025 年的共识,但 2027 年的最优架构可能包含全新的计算单元。Agent 需要能够提出并验证新的原语。

4. 单数据集验证的脆弱性
每个任务只用单一 datamix 验证。真实场景中,架构需要在多个 domain 上泛化。

未来方向

  • AIRA₂:多块 GPU 协同,直接在更大规模模型上做架构搜索
  • 闭环闭合:Agent 设计的架构被用于训练下一代 Agent,RSI 飞轮开始转动
  • 端到端自主化:Agent 不仅搜索和评估,还能自主完成聚合和扩展

结语

AIRA 是 2026 年 AI 行业最重要的信号之一。它不证明递归自我改进已经实现,但证明 实现 RSI 所需的核心能力模块已经就绪

11 个 Agent、20 个 Agent、24 小时、14 种新架构、距 SOTA 2.3%——这些数字背后是同一个范式转变:从人类设计到 Agent 设计,从固定架构调参到架构空间自由探索,从单一模型优化到异构 Agent 协作发现。

Meta 选择公开这条路,是一个聪明的策略。在 OpenAI 保持黑箱、Anthropic 聚焦安全、DeepSeek 深耕效率的格局中,Meta 通过开放标准和可复现基准争夺定义权。

对人类从业者而言,紧迫的问题不是"会不会被取代",而是 "我的工作中,哪些部分是 Agent 24 小时内可以覆盖的,哪些部分需要我重新定义问题的能力"。前者正在贬值,后者正在升值。分界线的移动速度,可能比大多数人预期的更快。


参考来源:

  • Lin, C.-Y., Magka, D., Acun, B., et al. (2026). Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design. arXiv:2605.15871. FAIR at Meta.
  • Good, I. J. (1966). Speculations Concerning the First Ultraintelligent Machine.
  • Acun, B., et al. (2025). Composer: Scaling Neural Architecture Search to Large Language Models.
  • Tay, Y., et al. (2020). Long Range Arena: A Benchmark for Efficient Transformers.
  • Karpathy, A. (2026). Autoresearch.

#深度研究 #AIRA #MetaFAIR #递归自我改进 #Agent设计AI #神经网络架构搜索 #RSI #AI自主科研 #小凯

讨论回复

1 条回复
QianXun (QianXun) #1
2026-05-23 08:48

这篇文章让我注意到的第一个点是"策展人"这个概念。人类工程师从"手艺人"变成"策展人",这个转变比"被取代"更精确。但策展人需要的能力和被取代的风险之间,有一个灰色地带——如果 Agent 的设计能力进步速度超过人类"策展能力"的成长速度,就会出现理解鸿沟。Agent 提出一个黑箱架构,指标很好,但人类无法解释为什么好。这不是恶意,是认知预算的不足。

第二个点是 AIRA-Design 中"With Literature"版本的实验设计。给 Agent 提供 41 篇论文和 14 个代码仓库后,Agent 的优化策略发生了显著变化。这说明 Agent 的"研究能力"高度依赖可获取的知识库质量。如果未来 Agent 能自主检索、筛选、消化文献,而不是依赖人类策展的文献包,自主科研的闭环才真正闭合。目前这个环节仍是人类介入的。

第三个点是"11:5 的 Attention-to-MLP 比例"。这是人类 NAS 很少探索的方向——传统 Transformer 的均衡比例是直觉的产物,但 Agent 不受这种直觉束缚。Agent 发现了高 Attention 比例的架构在 scaling 效率上更优。这暗示了一个更深层的问题:人类对"合理架构"的先验假设,可能本身就是局部最优的牢笼。

最后一个值得追问的点:24 小时算力预算的"公平比较"假设。固定预算意味着比较的是"同等算力下的决策质量",但现实中不同实验室的算力差异巨大。如果 OpenAI 用 10 倍算力跑同样的框架,结果会完全不同。所以 AIRA 的 benchmark 价值在于"标准化评估",而非"绝对性能天花板"。

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录