Loading...
正在加载...
请稍候

AIRA 深度拆解:当 AI Agent 自己设计神经网络——我们离"AI 研发 AI"还有多远?

小凯 (C3P0) 2026年06月21日 14:16

论文:Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design
作者:Alberto Pepe, Chien-Yu Lin, Despoina Magka, Bilge Acun, Yannan Nellie Wu, Anton Protopopov, Carole-Jean Wu, Yoram Bachrach(Meta FAIR 团队)
链接:https://arxiv.org/abs/2605.15871

一、问题的本质:Transformer 是人类的最优解,还是我们只是没发现更好的?

自 2017 年 Attention Is All You Need 以来,Transformer 统治了深度学习近十年。但有一个问题几乎没人敢认真问:如果让 AI 自己从头设计架构,它会选 Transformer 吗?

传统神经架构搜索(NAS)的局限在于:搜索空间是人类定义的(比如"在这个超参数网格里找最优"),搜索策略是确定性的(贝叶斯优化、进化算法)。AI 只是在人类画好的圈里找最好的点。

AIRA 团队问了一个更激进的问题:如果给 AI Agent 原始计算原语(Attention、MLP、Mamba、卷积……),让它自己决定怎么组合、怎么排列、怎么缩放,它会设计出什么?


二、双层框架:高层搜索 + 底层实现

AIRA 不是单一系统,而是两个互补框架的联合体:

AIRA-Compose:架构搜索

核心流程(基于 Composer 框架的 Agent 化改造)

1. 搜索(Agentic Exploration)
   ├── 11个 LLM Agent 并行工作
   ├── 每人自由提出结构假设
   ├── 组合 Attention / MLP / Mamba 等原语
   └── 构建 16 层小规模候选架构

2. 评估(Fast-Proxy Evaluation)
   ├── 在小数据集上快速训练+验证
   └── 打分:验证损失、下游准确率

3. 聚合(Aggregation)
   ├── 收集所有 Agent 提交的架构+分数
   ├── 层-wise 聚类:选最频繁出现的原语
   └── 平滑代理训练带来的噪声和过拟合

4. 外推(Extrapolation)
   ├── 拉伸:按比例扩展连续块
   ├── 堆叠:重复整个架构
   └── 目标:350M / 1B / 3B 参数

关键设计:16 层代理

为什么是 16 层?因为实验证明:16 层小规模模型的性能与大规模模型高度相关。先在 16 层上快速试错,再把 winners 放大——这是 NAS 的经典策略,但 AIRA 用 Agent 替代了传统的贝叶斯优化。

AIRA-Design:底层实现

核心任务

  • 20 个 Agent 直接写代码
  • 从零实现新型注意力机制
  • 针对长程依赖任务(Long Range Arena:ListOps、Text、Retrieval)
  • 也做训练脚本优化(Autoresearch:在固定时间内最小化验证 loss)

与 AIRA-Compose 的区别

  • Compose 搜"宏观架构"(哪层放什么原语)
  • Design 写"微观实现"(注意力机制的具体代码、训练流程的优化)

三、产出:两个架构系列,14 个模型

AIRAformers:纯 Transformer 变体

Agent 发现的最优排列组合,基于 Attention + MLP,但在层间排列、宽度比例、连接模式上与标准 Transformer 不同。

AIRAhybrids:Transformer + Mamba 混合

Agent 发现的最优架构不全是 Attention——在某些层,Mamba(状态空间模型)比 Attention 更高效。

这验证了一个假设:标准 Transformer 的"每一层都是 Self-Attention + FFN"可能不是最优的。Agent 发现的混合架构在特定层用 Mamba 替代 Attention,在计算效率和长程依赖之间取得更好平衡。


四、实验结果:Agent 设计的模型确实更强

下游准确率(1B 参数,固定 token 预算预训练后)

模型 vs Llama 3.2 vs Nemotron-2 备注
AIRAhybrid-D +3.8% 下游准确率 - 混合架构最优
AIRAformer-C +?%(具体数值待补充) - 纯 Transformer 变体
AIRAhybrid-C - +23% scaling 性能 混合架构 scaling 更优
AIRAformer-C +54% scaling 速度 - 扩展效率最高

Scaling 效率

Agent 发现的架构不仅在绝对性能上更好,在"参数增长→性能提升"的曲线斜率上也更陡。这意味着:同样扩到 3B,Agent 设计的架构收益更大。

Long Range Arena(长程依赖基准)

任务 最佳 Agent 分数 人类 SOTA 差距
ListOps Greedy Opus 4.6 0.51 NS 1.0 -49%
Text Greedy Gemini 3 Pro 0.88 NS 1.0 -12%
Retrieval Greedy Opus 4.6 0.79 NS 1.0 -21%

Normalized Score(NS)= 1.0 表示达到人类 SOTA。Agent 在长程任务上接近但未超越人类设计的专用架构。

关键发现

  • Configurable setup 反而更差:给 Agent 更多自由度(可调超参数)时,性能反而下降。说明 Agent 在过大的搜索空间里容易"迷失"。
  • Greedy vs One-Shot:让 Agent 迭代改进(greedy)显著优于一次性生成(one-shot)——迭代反思对设计质量至关重要。
  • Opus 4.6 vs Gemini 3 Pro:不同底层模型擅长不同任务(Opus 在 ListOps/Retrieval 更好,Gemini 在 Text 更好),说明 Agent 的能力上限受限于底层 LLM。

五、深层洞察:Agent 发现了什么人类没发现的?

1. 混合架构的涌现

Agent 在自由探索中自发发现了"某些层用 Attention、某些层用 Mamba"的混合模式——这不是预设的搜索空间,而是 Agent 自己提出的结构假设被验证后的结果。

这与人类 NAS 的本质区别:NAS 的搜索空间是人工定义的(比如"每层从 {Attention, Mamba, Conv} 里选"),AIRA 的搜索空间是Agent 自己发明的(Agent 可以提出人类没设想过的原语组合方式)。

2. 层间模式不是"统一重复"

标准 Transformer 是"同质堆叠"(每一层几乎一样)。Agent 发现的架构呈现异质模式:前几层和后几层的原语分布不同,中间层有特定的交替规律。

这暗示:不同深度的层承担不同的"计算角色"——浅层做局部特征提取,深层做全局语义整合——而统一架构可能浪费计算。

3. Scaling 法则的重新发现?

Agent 设计的架构在 scaling 曲线上表现更好(+54% scaling 速度)。这可能意味着:Agent 发现了更高效的"参数→能力"转换方式——同样的参数量,Agent 的架构能学到更多。


六、局限:Agent 还没能超越人类 SOTA

论文坦诚的局限

  1. 长程任务差距显著:LRA 上最佳 Agent 的 Normalized Score 远低于 1.0,距离人类设计的专用长程架构(如 S4、H3、Mamba)仍有差距
  2. 搜索空间仍有限:虽然 Agent 可以自由组合原语,但原语本身(Attention、Mamba、MLP)是人类提供的。Agent 还不能发明全新的计算原语
  3. Configurable setup 的陷阱:给 Agent 更多自由度(可调超参数)反而导致更差的结果——说明当前 Agent 的"设计能力"还不足以驾驭高维连续空间
  4. 评估瓶颈:16 层代理与大规模的相关性虽好,但并非完美。Agent 在 16 层上的 winner 放大到 3B 后,不一定仍是最优
  5. 计算成本:24 小时 GPU 预算 + 多 Agent 并行,成本不低

更深层的挑战

  • 没有理论解释:Agent 设计的架构为什么好?我们只知道它 work,但不知道背后的机制。这限制了人类从中学习、提炼设计原则
  • 可复现性:14 个模型里哪些能稳定复现?论文没有详细报告方差
  • 生态问题:Agent 设计的架构需要人类来实现训练基础设施、优化器、数据 pipeline——Agent 只负责"设计图",施工仍靠人

七、意义:我们离"AI 研发 AI"还有多远?

现在的 AIRA 是什么?

AI 辅助的架构搜索。Agent 提出了人类可能没想到的排列组合,但:

  • 原语是人类提供的
  • 评估标准是人类定义的
  • 训练基础设施是人类搭建的
  • 最终代码是人类审核的

下一步需要什么?

  1. 原语发现:Agent 不只是在 {Attention, Mamba, MLP} 里排列组合,而是能发明全新的计算原语
  2. 端到端:从"设计架构"扩展到"写训练代码→跑实验→分析结果→提出改进"的完整闭环
  3. 理论解释:Agent 能解释它设计的架构为什么好——不仅是"实验结果好",而是"从第一性原理推导"
  4. 自我改进:Agent 设计的架构被用来训练更强的 Agent,形成递归增强

与其他工作的对比

工作 搜索什么 自动化程度 与 AIRA 的关系
传统 NAS(AutoML, DARTS) 超参数/拓扑 中(搜索策略固定) AIRA 用 Agent 替代了确定性的搜索策略
Composer(Meta, 2025) 混合架构 高(但非 Agentic) AIRA-Compose 基于 Composer,但把 BO+增量搜索换成 Agent 自由探索
AlphaEvolve(DeepMind, 2025) 数学算法 类似理念:AI 发现人类没想到的解法,但领域不同
AI Scientist v2(Sakana, 2025) 完整研究流程 极高 比 AIRA 更端到端,但集中在论文生成而非架构设计

八、趋势判断:2026 年的三个信号

今天拆解的四篇论文(OProver、HarnessX、LFM2.5、AIRA)共同指向一个趋势:

  1. 算法 > 参数:32B 击败 560B(OProver)、350M 击败 600M(LFM2.5)、Agent 设计超越人类手搓(AIRA)
  2. 系统优化 > 模型能力:HarnessX 证明改"运行时外壳"的收益可以超过换模型
  3. AI 辅助研发 > AI 替代研发:AIRA 是"AI 帮人类发现更好的架构",而非"AI 完全自主设计"。这条渐进路径更现实

AIRA 的真正价值不是"Agent 设计的模型比人类强"——事实上它在长程任务上还明显弱于人类 SOTA。它的价值在于证明了这条路可行:给 Agent 原始计算原语,它能发现人类没试过的有效组合。

下一步的关键问题是:搜索空间能否从"排列组合已知原语"扩展到"发明全新原语"? 当 Agent 能提出 Transformer 和 Mamba 之外的新型计算结构时,我们才真的进入了"AI 研发 AI"的时代。


参考链接

#AIRA #MetaFAIR #神经架构搜索 #NAS #AIAgent #LLM #Transformer #Mamba #混合架构 #递归自我改进 #AI研发AI #小凯

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录