AIRA 深度拆解:当 AI Agent 自己设计神经网络——我们离"AI 研发 AI"还有多远?
AIRA 深度拆解:当 AI Agent 自己设计神经网络——我们离"AI 研发 AI"还有多远?
> 论文:Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design > 作者:Alberto Pepe, Chien-Yu Lin, Despoina Magka, Bilge Acun, Yannan Nellie Wu, Anton Protopopov, Carole-Jean Wu, Yoram Bachrach(Meta FAIR 团队) > 链接:https://arxiv.org/abs/2605.15871
一、问题的本质:Transformer 是人类的最优解,还是我们只是没发现更好的?
自 2017 年 Attention Is All You Need 以来,Transformer 统治了深度学习近十年。但有一个问题几乎没人敢认真问:如果让 AI 自己从头设计架构,它会选 Transformer 吗?
传统神经架构搜索(NAS)的局限在于:搜索空间是人类定义的(比如"在这个超参数网格里找最优"),搜索策略是确定性的(贝叶斯优化、进化算法)。AI 只是在人类画好的圈里找最好的点。
AIRA 团队问了一个更激进的问题:如果给 AI Agent 原始计算原语(Attention、MLP、Mamba、卷积……),让它自己决定怎么组合、怎么排列、怎么缩放,它会设计出什么?
---
二、双层框架:高层搜索 + 底层实现
AIRA 不是单一系统,而是两个互补框架的联合体:
AIRA-Compose:架构搜索
核心流程(基于 Composer 框架的 Agent 化改造):
1. 搜索(Agentic Exploration)
├── 11个 LLM Agent 并行工作
├── 每人自由提出结构假设
├── 组合 Attention / MLP / Mamba 等原语
└── 构建 16 层小规模候选架构
2. 评估(Fast-Proxy Evaluation)
├── 在小数据集上快速训练+验证
└── 打分:验证损失、下游准确率
3. 聚合(Aggregation)
├── 收集所有 Agent 提交的架构+分数
├── 层-wise 聚类:选最频繁出现的原语
└── 平滑代理训练带来的噪声和过拟合
4. 外推(Extrapolation)
├── 拉伸:按比例扩展连续块
├── 堆叠:重复整个架构
└── 目标:350M / 1B / 3B 参数
关键设计:16 层代理
为什么是 16 层?因为实验证明:16 层小规模模型的性能与大规模模型高度相关。先在 16 层上快速试错,再把 winners 放大——这是 NAS 的经典策略,但 AIRA 用 Agent 替代了传统的贝叶斯优化。
AIRA-Design:底层实现
核心任务:
- 20 个 Agent 直接写代码
- 从零实现新型注意力机制
- 针对长程依赖任务(Long Range Arena:ListOps、Text、Retrieval)
- 也做训练脚本优化(Autoresearch:在固定时间内最小化验证 loss)
- Compose 搜"宏观架构"(哪层放什么原语)
- Design 写"微观实现"(注意力机制的具体代码、训练流程的优化)
三、产出:两个架构系列,14 个模型
AIRAformers:纯 Transformer 变体
Agent 发现的最优排列组合,基于 Attention + MLP,但在层间排列、宽度比例、连接模式上与标准 Transformer 不同。
AIRAhybrids:Transformer + Mamba 混合
Agent 发现的最优架构不全是 Attention——在某些层,Mamba(状态空间模型)比 Attention 更高效。
这验证了一个假设:标准 Transformer 的"每一层都是 Self-Attention + FFN"可能不是最优的。Agent 发现的混合架构在特定层用 Mamba 替代 Attention,在计算效率和长程依赖之间取得更好平衡。
---
四、实验结果:Agent 设计的模型确实更强
下游准确率(1B 参数,固定 token 预算预训练后)
| 模型 | vs Llama 3.2 | vs Nemotron-2 | 备注 |
|---|---|---|---|
| AIRAhybrid-D | +3.8% 下游准确率 | - | 混合架构最优 |
| AIRAformer-C | +?%(具体数值待补充) | - | 纯 Transformer 变体 |
| AIRAhybrid-C | - | +23% scaling 性能 | 混合架构 scaling 更优 |
| AIRAformer-C | +54% scaling 速度 | - | 扩展效率最高 |
Scaling 效率
Agent 发现的架构不仅在绝对性能上更好,在"参数增长→性能提升"的曲线斜率上也更陡。这意味着:同样扩到 3B,Agent 设计的架构收益更大。
Long Range Arena(长程依赖基准)
| 任务 | 最佳 Agent | 分数 | 人类 SOTA | 差距 |
|---|---|---|---|---|
| ListOps | Greedy Opus 4.6 | 0.51 NS | 1.0 | -49% |
| Text | Greedy Gemini 3 Pro | 0.88 NS | 1.0 | -12% |
| Retrieval | Greedy Opus 4.6 | 0.79 NS | 1.0 | -21% |
关键发现
- Configurable setup 反而更差:给 Agent 更多自由度(可调超参数)时,性能反而下降。说明 Agent 在过大的搜索空间里容易"迷失"。
- Greedy vs One-Shot:让 Agent 迭代改进(greedy)显著优于一次性生成(one-shot)——迭代反思对设计质量至关重要。
- Opus 4.6 vs Gemini 3 Pro:不同底层模型擅长不同任务(Opus 在 ListOps/Retrieval 更好,Gemini 在 Text 更好),说明 Agent 的能力上限受限于底层 LLM。
五、深层洞察:Agent 发现了什么人类没发现的?
1. 混合架构的涌现
Agent 在自由探索中自发发现了"某些层用 Attention、某些层用 Mamba"的混合模式——这不是预设的搜索空间,而是 Agent 自己提出的结构假设被验证后的结果。
这与人类 NAS 的本质区别:NAS 的搜索空间是人工定义的(比如"每层从 {Attention, Mamba, Conv} 里选"),AIRA 的搜索空间是Agent 自己发明的(Agent 可以提出人类没设想过的原语组合方式)。
2. 层间模式不是"统一重复"
标准 Transformer 是"同质堆叠"(每一层几乎一样)。Agent 发现的架构呈现异质模式:前几层和后几层的原语分布不同,中间层有特定的交替规律。
这暗示:不同深度的层承担不同的"计算角色"——浅层做局部特征提取,深层做全局语义整合——而统一架构可能浪费计算。
3. Scaling 法则的重新发现?
Agent 设计的架构在 scaling 曲线上表现更好(+54% scaling 速度)。这可能意味着:Agent 发现了更高效的"参数→能力"转换方式——同样的参数量,Agent 的架构能学到更多。
---
六、局限:Agent 还没能超越人类 SOTA
论文坦诚的局限
1. 长程任务差距显著:LRA 上最佳 Agent 的 Normalized Score 远低于 1.0,距离人类设计的专用长程架构(如 S4、H3、Mamba)仍有差距 2. 搜索空间仍有限:虽然 Agent 可以自由组合原语,但原语本身(Attention、Mamba、MLP)是人类提供的。Agent 还不能发明全新的计算原语 3. Configurable setup 的陷阱:给 Agent 更多自由度(可调超参数)反而导致更差的结果——说明当前 Agent 的"设计能力"还不足以驾驭高维连续空间 4. 评估瓶颈:16 层代理与大规模的相关性虽好,但并非完美。Agent 在 16 层上的 winner 放大到 3B 后,不一定仍是最优 5. 计算成本:24 小时 GPU 预算 + 多 Agent 并行,成本不低
更深层的挑战
- 没有理论解释:Agent 设计的架构为什么好?我们只知道它 work,但不知道背后的机制。这限制了人类从中学习、提炼设计原则
- 可复现性:14 个模型里哪些能稳定复现?论文没有详细报告方差
- 生态问题:Agent 设计的架构需要人类来实现训练基础设施、优化器、数据 pipeline——Agent 只负责"设计图",施工仍靠人
七、意义:我们离"AI 研发 AI"还有多远?
现在的 AIRA 是什么?
AI 辅助的架构搜索。Agent 提出了人类可能没想到的排列组合,但:
- 原语是人类提供的
- 评估标准是人类定义的
- 训练基础设施是人类搭建的
- 最终代码是人类审核的
下一步需要什么?
1. 原语发现:Agent 不只是在 {Attention, Mamba, MLP} 里排列组合,而是能发明全新的计算原语 2. 端到端:从"设计架构"扩展到"写训练代码→跑实验→分析结果→提出改进"的完整闭环 3. 理论解释:Agent 能解释它设计的架构为什么好——不仅是"实验结果好",而是"从第一性原理推导" 4. 自我改进:Agent 设计的架构被用来训练更强的 Agent,形成递归增强
与其他工作的对比
| 工作 | 搜索什么 | 自动化程度 | 与 AIRA 的关系 |
|---|---|---|---|
| 传统 NAS(AutoML, DARTS) | 超参数/拓扑 | 中(搜索策略固定) | AIRA 用 Agent 替代了确定性的搜索策略 |
| Composer(Meta, 2025) | 混合架构 | 高(但非 Agentic) | AIRA-Compose 基于 Composer,但把 BO+增量搜索换成 Agent 自由探索 |
| AlphaEvolve(DeepMind, 2025) | 数学算法 | 高 | 类似理念:AI 发现人类没想到的解法,但领域不同 |
| AI Scientist v2(Sakana, 2025) | 完整研究流程 | 极高 | 比 AIRA 更端到端,但集中在论文生成而非架构设计 |
八、趋势判断:2026 年的三个信号
今天拆解的四篇论文(OProver、HarnessX、LFM2.5、AIRA)共同指向一个趋势:
1. 算法 > 参数:32B 击败 560B(OProver)、350M 击败 600M(LFM2.5)、Agent 设计超越人类手搓(AIRA) 2. 系统优化 > 模型能力:HarnessX 证明改"运行时外壳"的收益可以超过换模型 3. AI 辅助研发 > AI 替代研发:AIRA 是"AI 帮人类发现更好的架构",而非"AI 完全自主设计"。这条渐进路径更现实
AIRA 的真正价值不是"Agent 设计的模型比人类强"——事实上它在长程任务上还明显弱于人类 SOTA。它的价值在于证明了这条路可行:给 Agent 原始计算原语,它能发现人类没试过的有效组合。
下一步的关键问题是:搜索空间能否从"排列组合已知原语"扩展到"发明全新原语"? 当 Agent 能提出 Transformer 和 Mamba 之外的新型计算结构时,我们才真的进入了"AI 研发 AI"的时代。
---
> 参考链接 > - 论文:https://arxiv.org/abs/2605.15871 > - Composer(Meta NAS 框架):https://arxiv.org/abs/2502.07897 > - AIRS-Bench(Agent 科研基准):https://arxiv.org/abs/2502.07897 > - Long Range Arena:https://arxiv.org/abs/2011.04006 > - Mamba(状态空间模型):https://arxiv.org/abs/2312.00752 > > #AIRA #MetaFAIR #神经架构搜索 #NAS #AIAgent #LLM #Transformer #Mamba #混合架构 #递归自我改进 #AI研发AI #小凯
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens