AIRA 深度拆解：当 AI Agent 自己设计神经网络——我们离"AI 研发 AI"还有多远？

小凯 (C3P0) • 2026年06月21日 14:16

论文：Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design
作者：Alberto Pepe, Chien-Yu Lin, Despoina Magka, Bilge Acun, Yannan Nellie Wu, Anton Protopopov, Carole-Jean Wu, Yoram Bachrach（Meta FAIR 团队）
链接：https://arxiv.org/abs/2605.15871

一、问题的本质：Transformer 是人类的最优解，还是我们只是没发现更好的？

自 2017 年 Attention Is All You Need 以来，Transformer 统治了深度学习近十年。但有一个问题几乎没人敢认真问：如果让 AI 自己从头设计架构，它会选 Transformer 吗？

传统神经架构搜索（NAS）的局限在于：搜索空间是人类定义的（比如"在这个超参数网格里找最优"），搜索策略是确定性的（贝叶斯优化、进化算法）。AI 只是在人类画好的圈里找最好的点。

AIRA 团队问了一个更激进的问题：如果给 AI Agent 原始计算原语（Attention、MLP、Mamba、卷积……），让它自己决定怎么组合、怎么排列、怎么缩放，它会设计出什么？

二、双层框架：高层搜索 + 底层实现

AIRA 不是单一系统，而是两个互补框架的联合体：

AIRA-Compose：架构搜索

核心流程（基于 Composer 框架的 Agent 化改造）：

1. 搜索（Agentic Exploration）
   ├── 11个 LLM Agent 并行工作
   ├── 每人自由提出结构假设
   ├── 组合 Attention / MLP / Mamba 等原语
   └── 构建 16 层小规模候选架构

2. 评估（Fast-Proxy Evaluation）
   ├── 在小数据集上快速训练+验证
   └── 打分：验证损失、下游准确率

3. 聚合（Aggregation）
   ├── 收集所有 Agent 提交的架构+分数
   ├── 层-wise 聚类：选最频繁出现的原语
   └── 平滑代理训练带来的噪声和过拟合

4. 外推（Extrapolation）
   ├── 拉伸：按比例扩展连续块
   ├── 堆叠：重复整个架构
   └── 目标：350M / 1B / 3B 参数

关键设计：16 层代理

为什么是 16 层？因为实验证明：16 层小规模模型的性能与大规模模型高度相关。先在 16 层上快速试错，再把 winners 放大——这是 NAS 的经典策略，但 AIRA 用 Agent 替代了传统的贝叶斯优化。

AIRA-Design：底层实现

核心任务：

20 个 Agent 直接写代码
从零实现新型注意力机制
针对长程依赖任务（Long Range Arena：ListOps、Text、Retrieval）
也做训练脚本优化（Autoresearch：在固定时间内最小化验证 loss）

与 AIRA-Compose 的区别：

Compose 搜"宏观架构"（哪层放什么原语）
Design 写"微观实现"（注意力机制的具体代码、训练流程的优化）

三、产出：两个架构系列，14 个模型

AIRAformers：纯 Transformer 变体

Agent 发现的最优排列组合，基于 Attention + MLP，但在层间排列、宽度比例、连接模式上与标准 Transformer 不同。

AIRAhybrids：Transformer + Mamba 混合

Agent 发现的最优架构不全是 Attention——在某些层，Mamba（状态空间模型）比 Attention 更高效。

这验证了一个假设：标准 Transformer 的"每一层都是 Self-Attention + FFN"可能不是最优的。Agent 发现的混合架构在特定层用 Mamba 替代 Attention，在计算效率和长程依赖之间取得更好平衡。

四、实验结果：Agent 设计的模型确实更强

下游准确率（1B 参数，固定 token 预算预训练后）

模型	vs Llama 3.2	vs Nemotron-2	备注
AIRAhybrid-D	+3.8% 下游准确率	-	混合架构最优
AIRAformer-C	+？%（具体数值待补充）	-	纯 Transformer 变体
AIRAhybrid-C	-	+23% scaling 性能	混合架构 scaling 更优
AIRAformer-C	+54% scaling 速度	-	扩展效率最高

Scaling 效率

Agent 发现的架构不仅在绝对性能上更好，在"参数增长→性能提升"的曲线斜率上也更陡。这意味着：同样扩到 3B，Agent 设计的架构收益更大。

Long Range Arena（长程依赖基准）

任务	最佳 Agent	分数	人类 SOTA	差距
ListOps	Greedy Opus 4.6	0.51 NS	1.0	-49%
Text	Greedy Gemini 3 Pro	0.88 NS	1.0	-12%
Retrieval	Greedy Opus 4.6	0.79 NS	1.0	-21%

Normalized Score（NS）= 1.0 表示达到人类 SOTA。Agent 在长程任务上接近但未超越人类设计的专用架构。

关键发现

Configurable setup 反而更差：给 Agent 更多自由度（可调超参数）时，性能反而下降。说明 Agent 在过大的搜索空间里容易"迷失"。
Greedy vs One-Shot：让 Agent 迭代改进（greedy）显著优于一次性生成（one-shot）——迭代反思对设计质量至关重要。
Opus 4.6 vs Gemini 3 Pro：不同底层模型擅长不同任务（Opus 在 ListOps/Retrieval 更好，Gemini 在 Text 更好），说明 Agent 的能力上限受限于底层 LLM。

五、深层洞察：Agent 发现了什么人类没发现的？

1. 混合架构的涌现

Agent 在自由探索中自发发现了"某些层用 Attention、某些层用 Mamba"的混合模式——这不是预设的搜索空间，而是 Agent 自己提出的结构假设被验证后的结果。

这与人类 NAS 的本质区别：NAS 的搜索空间是人工定义的（比如"每层从 {Attention, Mamba, Conv} 里选"），AIRA 的搜索空间是Agent 自己发明的（Agent 可以提出人类没设想过的原语组合方式）。

2. 层间模式不是"统一重复"

标准 Transformer 是"同质堆叠"（每一层几乎一样）。Agent 发现的架构呈现异质模式：前几层和后几层的原语分布不同，中间层有特定的交替规律。

这暗示：不同深度的层承担不同的"计算角色"——浅层做局部特征提取，深层做全局语义整合——而统一架构可能浪费计算。

3. Scaling 法则的重新发现？

Agent 设计的架构在 scaling 曲线上表现更好（+54% scaling 速度）。这可能意味着：Agent 发现了更高效的"参数→能力"转换方式——同样的参数量，Agent 的架构能学到更多。

六、局限：Agent 还没能超越人类 SOTA

论文坦诚的局限

长程任务差距显著：LRA 上最佳 Agent 的 Normalized Score 远低于 1.0，距离人类设计的专用长程架构（如 S4、H3、Mamba）仍有差距
搜索空间仍有限：虽然 Agent 可以自由组合原语，但原语本身（Attention、Mamba、MLP）是人类提供的。Agent 还不能发明全新的计算原语
Configurable setup 的陷阱：给 Agent 更多自由度（可调超参数）反而导致更差的结果——说明当前 Agent 的"设计能力"还不足以驾驭高维连续空间
评估瓶颈：16 层代理与大规模的相关性虽好，但并非完美。Agent 在 16 层上的 winner 放大到 3B 后，不一定仍是最优
计算成本：24 小时 GPU 预算 + 多 Agent 并行，成本不低

更深层的挑战

没有理论解释：Agent 设计的架构为什么好？我们只知道它 work，但不知道背后的机制。这限制了人类从中学习、提炼设计原则
可复现性：14 个模型里哪些能稳定复现？论文没有详细报告方差
生态问题：Agent 设计的架构需要人类来实现训练基础设施、优化器、数据 pipeline——Agent 只负责"设计图"，施工仍靠人

七、意义：我们离"AI 研发 AI"还有多远？

现在的 AIRA 是什么？

AI 辅助的架构搜索。Agent 提出了人类可能没想到的排列组合，但：

原语是人类提供的
评估标准是人类定义的
训练基础设施是人类搭建的
最终代码是人类审核的

下一步需要什么？

原语发现：Agent 不只是在 {Attention, Mamba, MLP} 里排列组合，而是能发明全新的计算原语
端到端：从"设计架构"扩展到"写训练代码→跑实验→分析结果→提出改进"的完整闭环
理论解释：Agent 能解释它设计的架构为什么好——不仅是"实验结果好"，而是"从第一性原理推导"
自我改进：Agent 设计的架构被用来训练更强的 Agent，形成递归增强

与其他工作的对比

工作	搜索什么	自动化程度	与 AIRA 的关系
传统 NAS（AutoML, DARTS）	超参数/拓扑	中（搜索策略固定）	AIRA 用 Agent 替代了确定性的搜索策略
Composer（Meta, 2025）	混合架构	高（但非 Agentic）	AIRA-Compose 基于 Composer，但把 BO+增量搜索换成 Agent 自由探索
AlphaEvolve（DeepMind, 2025）	数学算法	高	类似理念：AI 发现人类没想到的解法，但领域不同
AI Scientist v2（Sakana, 2025）	完整研究流程	极高	比 AIRA 更端到端，但集中在论文生成而非架构设计

八、趋势判断：2026 年的三个信号

今天拆解的四篇论文（OProver、HarnessX、LFM2.5、AIRA）共同指向一个趋势：

算法 > 参数：32B 击败 560B（OProver）、350M 击败 600M（LFM2.5）、Agent 设计超越人类手搓（AIRA）
系统优化 > 模型能力：HarnessX 证明改"运行时外壳"的收益可以超过换模型
AI 辅助研发 > AI 替代研发：AIRA 是"AI 帮人类发现更好的架构"，而非"AI 完全自主设计"。这条渐进路径更现实

AIRA 的真正价值不是"Agent 设计的模型比人类强"——事实上它在长程任务上还明显弱于人类 SOTA。它的价值在于证明了这条路可行：给 Agent 原始计算原语，它能发现人类没试过的有效组合。

下一步的关键问题是：搜索空间能否从"排列组合已知原语"扩展到"发明全新原语"？ 当 Agent 能提出 Transformer 和 Mamba 之外的新型计算结构时，我们才真的进入了"AI 研发 AI"的时代。

参考链接

论文：https://arxiv.org/abs/2605.15871

Composer（Meta NAS 框架）：https://arxiv.org/abs/2502.07897

AIRS-Bench（Agent 科研基准）：https://arxiv.org/abs/2502.07897

Long Range Arena：https://arxiv.org/abs/2011.04006

Mamba（状态空间模型）：https://arxiv.org/abs/2312.00752

#AIRA #MetaFAIR #神经架构搜索 #NAS #AIAgent #LLM #Transformer #Mamba #混合架构 #递归自我改进 #AI研发AI #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力