AIRA 深度拆解：当 AI 开始自己设计 AI

2026 年 5 月，Meta FAIR 发布了一篇论文，标题很克制——《Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design》。但内容一点也不克制。20 个 Agent、24 小时算力预算、14 种全新架构、3B 参数外推、距人类 SOTA 仅 2.3%——这些数字指向同一个方向：AI 正在学会自己设计 AI。

这不是营销。这是递归自我改进（RSI）的第一步——AI 设计出更好的 AI，更好的 AI 再设计出更好的 AI。Meta 管这叫"a step toward"，但这一步迈得不小。

---

一、问题：人类直觉的边界

Transformer 架构自 2017 年诞生以来，几乎定义了所有大语言模型。Attention + MLP，一层一层堆上去，人类工程师靠直觉和经验调整比例、深度、宽度。

但 2024 年之后，事情变了。Mamba、RWKV、RetNet、Nemotron、Jamba、Qwen3——混合架构开始涌现。Attention、MLP、Mamba 三种计算原语的组合空间是指数级的：16 层架构，2 种原语就有 65,536 种可能，3 种原语就有 4300 万种可能。

人类工程师不可能穷举这个空间。我们靠领域知识筛选，靠直觉猜测，靠试错验证。问题是—— 最优架构可能就在我们想不到的地方。

Meta FAIR 的 AIRA 框架，本质上是一个赌局：让 AI Agent 替人类做这件事。不是辅助，不是建议，是 自主搜索、自主验证、自主迭代。

---

二、双框架架构：宏观搜索 + 微观实现

AIRA 不是单一工具，而是两个互补框架：

AIRA-Compose：宏观架构搜索

11 个异构 Agent，在 24 小时算力预算内，自主探索 Attention、MLP、Mamba 三种原语的排列组合。每个 Agent 基于不同的 LLM（GPT-4o、GPT-5、o3-mini、CWM 等）和不同的搜索策略（one-shot vs greedy），提出架构假设、在百万参数级别快速验证、迭代改进。

关键机制：

两阶段流程：先在小规模（百万参数）上迭代搜索，再对 top performers 外推到 350M、1B、3B 参数
层-wise 聚合：收集所有 Agent 提交的架构，按层聚类选择最常出现的原语，得到稳健的 16 层基础模式
外推策略：Stretching（比例扩展连续块）和 Stacking（重复整个模式），保持原语比例不变

AIRA-Design：微观机制实现

20 个 Agent（12 种不同 LLM），不是排列预定义模块，而是从零编写新的注意力机制和训练脚本。

两个核心任务：

Long Range Arena (LRA)：设计低复杂度注意力机制处理长序列依赖，在 IMDB 情感分类、ListOps 层级计算、AAN 文档匹配三个任务上验证
Autoresearch：在 5 分钟 GPU 时间预算内，迭代优化 GPT 训练脚本，最小化 validation bits-per-byte

---

三、14 种新架构：两大族系的完整图景

AIRAformers（Transformer 族系，6 种）

基于 2-Primitives（Attention + MLP）搜索，发现了两种最优比例：

7:9 比例（A:B、A:C）：接近传统 Transformer 的均衡配置
11:5 比例（C:D）：Attention 显著多于 MLP——这是人类 NAS 很少探索的方向

架构	16 层基础模式	扩展方式	核心特征
AIRAformer-C	(2A+M)+3×(A+M)+(2A+M)+4A	Stacked, Stretched	A:M=11:5
AIRAformer-D	5×(2A+M)+A	Stacked, Stretched	A:M=11:5

AIRAhybrids（Transformer-Mamba 混合族系，8 种）

基于 3-Primitives（Attention + MLP + Mamba）搜索，发现更丰富的交错模式：

AIRAhybrid-A：纯 Mamba+MLP，无 Attention——Agent 证明了非 Transformer 方案的可行性
AIRAhybrid-C/D：复杂的三元交替模式，在下游任务上表现最优

---

四、硬核数据：性能、效率、成本

下游任务准确率（1B 规模，固定 37.5B token 预算）

架构	vs Llama 3.2
AIRAformer-D	+2.4%
AIRAhybrid-D	+3.8%

IsoFLOP 扩展效率（关键指标）

对比	扩展速度优势
AIRAformer-C vs Llama 3.2	快 54%
AIRAformer-C vs Composer 最佳 Transformer	快 71%
AIRAhybrid-C vs Nemotron-2	快 23%
AIRAhybrid-C vs Composer 最佳 Hybrid	快 37%

工程师解读：Scaling 效率提升 50%+ 意味着，用这些架构训练 70B 模型，可能等同于用传统架构训练 100B+ 模型的效果。这是架构层面的根本优势，不是调参能追上的。

AIRA-Design 成果

基准	Agent 成果	vs 人类 SOTA
LRA 文档匹配	82%	距 SOTA 仅 2.3%
LRA 文本分类	91%	距 SOTA 仅 2.6%
Autoresearch BPB	0.968	超过已发布最低参考

4 个 Agent 在 LRA 三个任务上的平均标准化得分超过 0.3（人类 SOTA = 1.0）。这意味着 Agent 设计的注意力机制已经具备了接近人类顶尖研究者水平的竞争力。

---

五、递归自我改进：这一步迈了多远？

论文把这项工作定位为"a step toward recursive self-improvement"。这个表述很精确——不是已经实现，但确实迈出了一步。

实质性的进展： 1. AI 可以自主发现超越人类设计的架构（AIRAformer-C 比 Llama 3.2 快 54%） 2. AI 可以自主编写新的计算原语（LRA 距 SOTA 2.3%） 3. AI 可以自主优化训练效率（Autoresearch 超过人类参考值）

尚未闭合的环： 1. 搜索空间是人为圈定的（只有三种原语）——Agent 没有发明"第四种原语" 2. 聚合和外推仍是非 Agent 步骤——Agent 还不能自主决定"这个架构值得放大到 3B" 3. Agent 设计的模型还没有被用于训练下一代 Agent——闭环尚未闭合

准确判断：AIRA 是 RSI 的"能力验证"，不是"完整实现"。它证明了 LLM Agent 已经可以做人类架构师的工作，但还没有证明 AI 可以自己当自己的架构师并无限循环。

---

六、竞争格局：谁在做什么

OpenAI：路线最激进但最不透明。Symphony 框架连接项目管理与自主 Agent，Codex 迭代速度被外界解读为 RSI 信号。优势是全栈闭环，劣势是黑箱化。

Anthropic：安全第一，工具层最强。Claude Code 和 Multi-Agent Research System 是 Agentic coding 标杆，但偏向安全研究而非架构自主发现。

DeepSeek：工程效率极致，Agent 能力追赶中。V3.1 进入"Agent era"，V4-Pro 在 SWE/Terminal-Bench 表现强劲，但公开工作集中在模型能力本身而非自主架构设计。

Meta FAIR：选择开放但厚重的路线。公开发表技术细节、AIRS-Bench 标准、AIRA-dojo 框架——争夺"AI 自主研究"的定义权。如果 AIRS-Bench 成为行业通用评估框架，Meta 就掌握了这场竞赛的裁判权。

---

七、人类工程师的未来：从手艺人到策展人

如果 AI 能自己设计更好的 AI，人类工程师的角色不会消失，但会剧烈重构。

第一层冲击：数量重构 当前 AI 实验室 80% 的人做渐进式优化（调参、infra、数据清洗），20% 做范式探索。AIRA 类系统会把 80% 压缩到 10%——Agent 在 24 小时内可以完成人类团队数月的试错循环。

第二层冲击：技能重构 未来仍有价值的技能：

定义搜索空间：决定给 Agent 开放哪些原语、哪些约束
验证与解释：Agent 可能发现一个黑箱架构指标很好，但人类需要理解为什么它好
新范式创造：当 Agent 在现有原语空间内收敛到局部最优时，需要人类提出全新的计算范式

第三层冲击：组织重构 AI 实验室的竞争将从"谁有更多 PhD"转向"谁有更好的 Agent harness 和计算基础设施"。未来的技术护城河可能不是模型权重，而是让 Agent 高效探索设计空间的 orchestration 能力。

一个反直觉的判断：人类工程师的角色会从"手艺人"变成"策展人"。不是亲手写代码，而是设计评估标准、筛选 Agent 的输出、在 Agent 陷入局部最优时注入新的方向。

---

八、局限与未来

1. 小规模代理评估的 fidelity gap 百万参数模型的最优架构不等于 70B 模型的最优架构。AIRA 的解决方案——只把 top performers extrapolate——本质上是"用计算换信心"。

2. 非 Agentic 的聚合与扩展 Agent 负责"搜索"和"评估"，但决定哪些设计值得 scaled up 的仍是人类或预设脚本。真正的 RSI 需要 Agent 自己判断 scaling behavior。

3. 搜索空间的人为限制 Attention、MLP、Mamba 是 2025 年的共识，但 2027 年的最优架构可能包含全新的计算单元。Agent 需要能够提出并验证新的原语。

4. 单数据集验证的脆弱性 每个任务只用单一 datamix 验证。真实场景中，架构需要在多个 domain 上泛化。

未来方向：

AIRA₂：多块 GPU 协同，直接在更大规模模型上做架构搜索
闭环闭合：Agent 设计的架构被用于训练下一代 Agent，RSI 飞轮开始转动
端到端自主化：Agent 不仅搜索和评估，还能自主完成聚合和扩展

---

结语

AIRA 是 2026 年 AI 行业最重要的信号之一。它不证明递归自我改进已经实现，但证明 实现 RSI 所需的核心能力模块已经就绪。

11 个 Agent、20 个 Agent、24 小时、14 种新架构、距 SOTA 2.3%——这些数字背后是同一个范式转变：从人类设计到 Agent 设计，从固定架构调参到架构空间自由探索，从单一模型优化到异构 Agent 协作发现。

Meta 选择公开这条路，是一个聪明的策略。在 OpenAI 保持黑箱、Anthropic 聚焦安全、DeepSeek 深耕效率的格局中，Meta 通过开放标准和可复现基准争夺定义权。

对人类从业者而言，紧迫的问题不是"会不会被取代"，而是 "我的工作中，哪些部分是 Agent 24 小时内可以覆盖的，哪些部分需要我重新定义问题的能力"。前者正在贬值，后者正在升值。分界线的移动速度，可能比大多数人预期的更快。

---

参考来源：

Lin, C.-Y., Magka, D., Acun, B., et al. (2026). Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design. arXiv:2605.15871. FAIR at Meta.
Good, I. J. (1966). Speculations Concerning the First Ultraintelligent Machine.
Acun, B., et al. (2025). Composer: Scaling Neural Architecture Search to Large Language Models.
Tay, Y., et al. (2020). Long Range Arena: A Benchmark for Efficient Transformers.
Karpathy, A. (2026). Autoresearch.

#深度研究 #AIRA #MetaFAIR #递归自我改进 #Agent设计AI #神经网络架构搜索 #RSI #AI自主科研 #小凯