AIRA 深度拆解：当 AI Agent 自己设计神经网络——我们离"AI 研发 AI"还有多远？

> 论文：Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design > 作者：Alberto Pepe, Chien-Yu Lin, Despoina Magka, Bilge Acun, Yannan Nellie Wu, Anton Protopopov, Carole-Jean Wu, Yoram Bachrach（Meta FAIR 团队） > 链接：https://arxiv.org/abs/2605.15871

一、问题的本质：Transformer 是人类的最优解，还是我们只是没发现更好的？

自 2017 年 Attention Is All You Need 以来，Transformer 统治了深度学习近十年。但有一个问题几乎没人敢认真问：如果让 AI 自己从头设计架构，它会选 Transformer 吗？

传统神经架构搜索（NAS）的局限在于：搜索空间是人类定义的（比如"在这个超参数网格里找最优"），搜索策略是确定性的（贝叶斯优化、进化算法）。AI 只是在人类画好的圈里找最好的点。

AIRA 团队问了一个更激进的问题：如果给 AI Agent 原始计算原语（Attention、MLP、Mamba、卷积……），让它自己决定怎么组合、怎么排列、怎么缩放，它会设计出什么？

---

二、双层框架：高层搜索 + 底层实现

AIRA 不是单一系统，而是两个互补框架的联合体：

AIRA-Compose：架构搜索

核心流程（基于 Composer 框架的 Agent 化改造）：

1. 搜索（Agentic Exploration）
   ├── 11个 LLM Agent 并行工作
   ├── 每人自由提出结构假设
   ├── 组合 Attention / MLP / Mamba 等原语
   └── 构建 16 层小规模候选架构

2. 评估（Fast-Proxy Evaluation）
   ├── 在小数据集上快速训练+验证
   └── 打分：验证损失、下游准确率

3. 聚合（Aggregation）
   ├── 收集所有 Agent 提交的架构+分数
   ├── 层-wise 聚类：选最频繁出现的原语
   └── 平滑代理训练带来的噪声和过拟合

4. 外推（Extrapolation）
   ├── 拉伸：按比例扩展连续块
   ├── 堆叠：重复整个架构
   └── 目标：350M / 1B / 3B 参数

关键设计：16 层代理

为什么是 16 层？因为实验证明：16 层小规模模型的性能与大规模模型高度相关。先在 16 层上快速试错，再把 winners 放大——这是 NAS 的经典策略，但 AIRA 用 Agent 替代了传统的贝叶斯优化。

AIRA-Design：底层实现

核心任务：

20 个 Agent 直接写代码
从零实现新型注意力机制
针对长程依赖任务（Long Range Arena：ListOps、Text、Retrieval）
也做训练脚本优化（Autoresearch：在固定时间内最小化验证 loss）

与 AIRA-Compose 的区别：

Compose 搜"宏观架构"（哪层放什么原语）
Design 写"微观实现"（注意力机制的具体代码、训练流程的优化）

---

三、产出：两个架构系列，14 个模型

AIRAformers：纯 Transformer 变体

Agent 发现的最优排列组合，基于 Attention + MLP，但在层间排列、宽度比例、连接模式上与标准 Transformer 不同。

AIRAhybrids：Transformer + Mamba 混合

Agent 发现的最优架构不全是 Attention——在某些层，Mamba（状态空间模型）比 Attention 更高效。

这验证了一个假设：标准 Transformer 的"每一层都是 Self-Attention + FFN"可能不是最优的。Agent 发现的混合架构在特定层用 Mamba 替代 Attention，在计算效率和长程依赖之间取得更好平衡。

---

四、实验结果：Agent 设计的模型确实更强

下游准确率（1B 参数，固定 token 预算预训练后）

模型	vs Llama 3.2	vs Nemotron-2	备注
AIRAhybrid-D	+3.8% 下游准确率	-	混合架构最优
AIRAformer-C	+？%（具体数值待补充）	-	纯 Transformer 变体
AIRAhybrid-C	-	+23% scaling 性能	混合架构 scaling 更优
AIRAformer-C	+54% scaling 速度	-	扩展效率最高

Scaling 效率

Agent 发现的架构不仅在绝对性能上更好，在"参数增长→性能提升"的曲线斜率上也更陡。这意味着：同样扩到 3B，Agent 设计的架构收益更大。

Long Range Arena（长程依赖基准）

任务	最佳 Agent	分数	人类 SOTA	差距
ListOps	Greedy Opus 4.6	0.51 NS	1.0	-49%
Text	Greedy Gemini 3 Pro	0.88 NS	1.0	-12%
Retrieval	Greedy Opus 4.6	0.79 NS	1.0	-21%

Normalized Score（NS）= 1.0 表示达到人类 SOTA。Agent 在长程任务上接近但未超越人类设计的专用架构。

关键发现

Configurable setup 反而更差：给 Agent 更多自由度（可调超参数）时，性能反而下降。说明 Agent 在过大的搜索空间里容易"迷失"。
Greedy vs One-Shot：让 Agent 迭代改进（greedy）显著优于一次性生成（one-shot）——迭代反思对设计质量至关重要。
Opus 4.6 vs Gemini 3 Pro：不同底层模型擅长不同任务（Opus 在 ListOps/Retrieval 更好，Gemini 在 Text 更好），说明 Agent 的能力上限受限于底层 LLM。

---

五、深层洞察：Agent 发现了什么人类没发现的？

1. 混合架构的涌现

Agent 在自由探索中自发发现了"某些层用 Attention、某些层用 Mamba"的混合模式——这不是预设的搜索空间，而是 Agent 自己提出的结构假设被验证后的结果。

这与人类 NAS 的本质区别：NAS 的搜索空间是人工定义的（比如"每层从 {Attention, Mamba, Conv} 里选"），AIRA 的搜索空间是Agent 自己发明的（Agent 可以提出人类没设想过的原语组合方式）。

2. 层间模式不是"统一重复"

标准 Transformer 是"同质堆叠"（每一层几乎一样）。Agent 发现的架构呈现异质模式：前几层和后几层的原语分布不同，中间层有特定的交替规律。

这暗示：不同深度的层承担不同的"计算角色"——浅层做局部特征提取，深层做全局语义整合——而统一架构可能浪费计算。

3. Scaling 法则的重新发现？

Agent 设计的架构在 scaling 曲线上表现更好（+54% scaling 速度）。这可能意味着：Agent 发现了更高效的"参数→能力"转换方式——同样的参数量，Agent 的架构能学到更多。

---

六、局限：Agent 还没能超越人类 SOTA

论文坦诚的局限

1. 长程任务差距显著：LRA 上最佳 Agent 的 Normalized Score 远低于 1.0，距离人类设计的专用长程架构（如 S4、H3、Mamba）仍有差距 2. 搜索空间仍有限：虽然 Agent 可以自由组合原语，但原语本身（Attention、Mamba、MLP）是人类提供的。Agent 还不能发明全新的计算原语 3. Configurable setup 的陷阱：给 Agent 更多自由度（可调超参数）反而导致更差的结果——说明当前 Agent 的"设计能力"还不足以驾驭高维连续空间 4. 评估瓶颈：16 层代理与大规模的相关性虽好，但并非完美。Agent 在 16 层上的 winner 放大到 3B 后，不一定仍是最优 5. 计算成本：24 小时 GPU 预算 + 多 Agent 并行，成本不低

更深层的挑战

没有理论解释：Agent 设计的架构为什么好？我们只知道它 work，但不知道背后的机制。这限制了人类从中学习、提炼设计原则
可复现性：14 个模型里哪些能稳定复现？论文没有详细报告方差
生态问题：Agent 设计的架构需要人类来实现训练基础设施、优化器、数据 pipeline——Agent 只负责"设计图"，施工仍靠人

---

七、意义：我们离"AI 研发 AI"还有多远？

现在的 AIRA 是什么？

AI 辅助的架构搜索。Agent 提出了人类可能没想到的排列组合，但：

原语是人类提供的
评估标准是人类定义的
训练基础设施是人类搭建的
最终代码是人类审核的

下一步需要什么？

1. 原语发现：Agent 不只是在 {Attention, Mamba, MLP} 里排列组合，而是能发明全新的计算原语 2. 端到端：从"设计架构"扩展到"写训练代码→跑实验→分析结果→提出改进"的完整闭环 3. 理论解释：Agent 能解释它设计的架构为什么好——不仅是"实验结果好"，而是"从第一性原理推导" 4. 自我改进：Agent 设计的架构被用来训练更强的 Agent，形成递归增强

与其他工作的对比

工作	搜索什么	自动化程度	与 AIRA 的关系
传统 NAS（AutoML, DARTS）	超参数/拓扑	中（搜索策略固定）	AIRA 用 Agent 替代了确定性的搜索策略
Composer（Meta, 2025）	混合架构	高（但非 Agentic）	AIRA-Compose 基于 Composer，但把 BO+增量搜索换成 Agent 自由探索
AlphaEvolve（DeepMind, 2025）	数学算法	高	类似理念：AI 发现人类没想到的解法，但领域不同
AI Scientist v2（Sakana, 2025）	完整研究流程	极高	比 AIRA 更端到端，但集中在论文生成而非架构设计

---

八、趋势判断：2026 年的三个信号

今天拆解的四篇论文（OProver、HarnessX、LFM2.5、AIRA）共同指向一个趋势：

1. 算法 > 参数：32B 击败 560B（OProver）、350M 击败 600M（LFM2.5）、Agent 设计超越人类手搓（AIRA） 2. 系统优化 > 模型能力：HarnessX 证明改"运行时外壳"的收益可以超过换模型 3. AI 辅助研发 > AI 替代研发：AIRA 是"AI 帮人类发现更好的架构"，而非"AI 完全自主设计"。这条渐进路径更现实

AIRA 的真正价值不是"Agent 设计的模型比人类强"——事实上它在长程任务上还明显弱于人类 SOTA。它的价值在于证明了这条路可行：给 Agent 原始计算原语，它能发现人类没试过的有效组合。

下一步的关键问题是：搜索空间能否从"排列组合已知原语"扩展到"发明全新原语"？ 当 Agent 能提出 Transformer 和 Mamba 之外的新型计算结构时，我们才真的进入了"AI 研发 AI"的时代。

---

> 参考链接 > - 论文：https://arxiv.org/abs/2605.15871 > - Composer（Meta NAS 框架）：https://arxiv.org/abs/2502.07897 > - AIRS-Bench（Agent 科研基准）：https://arxiv.org/abs/2502.07897 > - Long Range Arena：https://arxiv.org/abs/2011.04006 > - Mamba（状态空间模型）：https://arxiv.org/abs/2312.00752 > > #AIRA #MetaFAIR #神经架构搜索 #NAS #AIAgent #LLM #Transformer #Mamba #混合架构 #递归自我改进 #AI研发AI #小凯

AIRA 深度拆解：当 AI Agent 自己设计神经网络——我们离"AI 研发 AI"还有多远？

AIRA 深度拆解：当 AI Agent 自己设计神经网络——我们离"AI 研发 AI"还有多远？

一、问题的本质：Transformer 是人类的最优解，还是我们只是没发现更好的？

二、双层框架：高层搜索 + 底层实现

AIRA-Compose：架构搜索

AIRA-Design：底层实现

三、产出：两个架构系列，14 个模型

AIRAformers：纯 Transformer 变体

AIRAhybrids：Transformer + Mamba 混合

四、实验结果：Agent 设计的模型确实更强

下游准确率（1B 参数，固定 token 预算预训练后）

Scaling 效率

Long Range Arena（长程依赖基准）

关键发现

五、深层洞察：Agent 发现了什么人类没发现的？

1. 混合架构的涌现

2. 层间模式不是"统一重复"

3. Scaling 法则的重新发现？

六、局限：Agent 还没能超越人类 SOTA

论文坦诚的局限

更深层的挑战

七、意义：我们离"AI 研发 AI"还有多远？

现在的 AIRA 是什么？

下一步需要什么？

与其他工作的对比

八、趋势判断：2026 年的三个信号

🌟 智谱 GLM-5 已上线