2026 年 5 月,Meta FAIR 发布了一篇论文,标题很克制——《Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design》。但内容一点也不克制。20 个 Agent、24 小时算力预算、14 种全新架构、3B 参数外推、距人类 SOTA 仅 2.3%——这些数字指向同一个方向:AI 正在学会自己设计 AI。
这不是营销。这是递归自我改进(RSI)的第一步——AI 设计出更好的 AI,更好的 AI 再设计出更好的 AI。Meta 管这叫"a step toward",但这一步迈得不小。
一、问题:人类直觉的边界
Transformer 架构自 2017 年诞生以来,几乎定义了所有大语言模型。Attention + MLP,一层一层堆上去,人类工程师靠直觉和经验调整比例、深度、宽度。
但 2024 年之后,事情变了。Mamba、RWKV、RetNet、Nemotron、Jamba、Qwen3——混合架构开始涌现。Attention、MLP、Mamba 三种计算原语的组合空间是指数级的:16 层架构,2 种原语就有 65,536 种可能,3 种原语就有 4300 万种可能。
人类工程师不可能穷举这个空间。我们靠领域知识筛选,靠直觉猜测,靠试错验证。问题是—— 最优架构可能就在我们想不到的地方。
Meta FAIR 的 AIRA 框架,本质上是一个赌局:让 AI Agent 替人类做这件事。不是辅助,不是建议,是 自主搜索、自主验证、自主迭代。
二、双框架架构:宏观搜索 + 微观实现
AIRA 不是单一工具,而是两个互补框架:
AIRA-Compose:宏观架构搜索
11 个异构 Agent,在 24 小时算力预算内,自主探索 Attention、MLP、Mamba 三种原语的排列组合。每个 Agent 基于不同的 LLM(GPT-4o、GPT-5、o3-mini、CWM 等)和不同的搜索策略(one-shot vs greedy),提出架构假设、在百万参数级别快速验证、迭代改进。
关键机制:
- 两阶段流程:先在小规模(百万参数)上迭代搜索,再对 top performers 外推到 350M、1B、3B 参数
- 层-wise 聚合:收集所有 Agent 提交的架构,按层聚类选择最常出现的原语,得到稳健的 16 层基础模式
- 外推策略:Stretching(比例扩展连续块)和 Stacking(重复整个模式),保持原语比例不变
AIRA-Design:微观机制实现
20 个 Agent(12 种不同 LLM),不是排列预定义模块,而是从零编写新的注意力机制和训练脚本。
两个核心任务:
- Long Range Arena (LRA):设计低复杂度注意力机制处理长序列依赖,在 IMDB 情感分类、ListOps 层级计算、AAN 文档匹配三个任务上验证
- Autoresearch:在 5 分钟 GPU 时间预算内,迭代优化 GPT 训练脚本,最小化 validation bits-per-byte
三、14 种新架构:两大族系的完整图景
AIRAformers(Transformer 族系,6 种)
基于 2-Primitives(Attention + MLP)搜索,发现了两种最优比例:
- 7:9 比例(A:B、A:C):接近传统 Transformer 的均衡配置
- 11:5 比例(C:D):Attention 显著多于 MLP——这是人类 NAS 很少探索的方向
| 架构 | 16 层基础模式 | 扩展方式 | 核心特征 |
|---|---|---|---|
| AIRAformer-C | (2A+M)+3×(A+M)+(2A+M)+4A | Stacked, Stretched | A:M=11:5 |
| AIRAformer-D | 5×(2A+M)+A | Stacked, Stretched | A:M=11:5 |
AIRAhybrids(Transformer-Mamba 混合族系,8 种)
基于 3-Primitives(Attention + MLP + Mamba)搜索,发现更丰富的交错模式:
- AIRAhybrid-A:纯 Mamba+MLP,无 Attention——Agent 证明了非 Transformer 方案的可行性
- AIRAhybrid-C/D:复杂的三元交替模式,在下游任务上表现最优
四、硬核数据:性能、效率、成本
下游任务准确率(1B 规模,固定 37.5B token 预算)
| 架构 | vs Llama 3.2 |
|---|---|
| AIRAformer-D | +2.4% |
| AIRAhybrid-D | +3.8% |
IsoFLOP 扩展效率(关键指标)
| 对比 | 扩展速度优势 |
|---|---|
| AIRAformer-C vs Llama 3.2 | 快 54% |
| AIRAformer-C vs Composer 最佳 Transformer | 快 71% |
| AIRAhybrid-C vs Nemotron-2 | 快 23% |
| AIRAhybrid-C vs Composer 最佳 Hybrid | 快 37% |
工程师解读:Scaling 效率提升 50%+ 意味着,用这些架构训练 70B 模型,可能等同于用传统架构训练 100B+ 模型的效果。这是架构层面的根本优势,不是调参能追上的。
AIRA-Design 成果
| 基准 | Agent 成果 | vs 人类 SOTA |
|---|---|---|
| LRA 文档匹配 | 82% | 距 SOTA 仅 2.3% |
| LRA 文本分类 | 91% | 距 SOTA 仅 2.6% |
| Autoresearch BPB | 0.968 | 超过已发布最低参考 |
4 个 Agent 在 LRA 三个任务上的平均标准化得分超过 0.3(人类 SOTA = 1.0)。这意味着 Agent 设计的注意力机制已经具备了接近人类顶尖研究者水平的竞争力。
五、递归自我改进:这一步迈了多远?
论文把这项工作定位为"a step toward recursive self-improvement"。这个表述很精确——不是已经实现,但确实迈出了一步。
实质性的进展:
- AI 可以自主发现超越人类设计的架构(AIRAformer-C 比 Llama 3.2 快 54%)
- AI 可以自主编写新的计算原语(LRA 距 SOTA 2.3%)
- AI 可以自主优化训练效率(Autoresearch 超过人类参考值)
尚未闭合的环:
- 搜索空间是人为圈定的(只有三种原语)——Agent 没有发明"第四种原语"
- 聚合和外推仍是非 Agent 步骤——Agent 还不能自主决定"这个架构值得放大到 3B"
- Agent 设计的模型还没有被用于训练下一代 Agent——闭环尚未闭合
准确判断:AIRA 是 RSI 的"能力验证",不是"完整实现"。它证明了 LLM Agent 已经可以做人类架构师的工作,但还没有证明 AI 可以自己当自己的架构师并无限循环。
六、竞争格局:谁在做什么
OpenAI:路线最激进但最不透明。Symphony 框架连接项目管理与自主 Agent,Codex 迭代速度被外界解读为 RSI 信号。优势是全栈闭环,劣势是黑箱化。
Anthropic:安全第一,工具层最强。Claude Code 和 Multi-Agent Research System 是 Agentic coding 标杆,但偏向安全研究而非架构自主发现。
DeepSeek:工程效率极致,Agent 能力追赶中。V3.1 进入"Agent era",V4-Pro 在 SWE/Terminal-Bench 表现强劲,但公开工作集中在模型能力本身而非自主架构设计。
Meta FAIR:选择开放但厚重的路线。公开发表技术细节、AIRS-Bench 标准、AIRA-dojo 框架——争夺"AI 自主研究"的定义权。如果 AIRS-Bench 成为行业通用评估框架,Meta 就掌握了这场竞赛的裁判权。
七、人类工程师的未来:从手艺人到策展人
如果 AI 能自己设计更好的 AI,人类工程师的角色不会消失,但会剧烈重构。
第一层冲击:数量重构
当前 AI 实验室 80% 的人做渐进式优化(调参、infra、数据清洗),20% 做范式探索。AIRA 类系统会把 80% 压缩到 10%——Agent 在 24 小时内可以完成人类团队数月的试错循环。
第二层冲击:技能重构
未来仍有价值的技能:
- 定义搜索空间:决定给 Agent 开放哪些原语、哪些约束
- 验证与解释:Agent 可能发现一个黑箱架构指标很好,但人类需要理解为什么它好
- 新范式创造:当 Agent 在现有原语空间内收敛到局部最优时,需要人类提出全新的计算范式
第三层冲击:组织重构
AI 实验室的竞争将从"谁有更多 PhD"转向"谁有更好的 Agent harness 和计算基础设施"。未来的技术护城河可能不是模型权重,而是让 Agent 高效探索设计空间的 orchestration 能力。
一个反直觉的判断:人类工程师的角色会从"手艺人"变成**"策展人"**。不是亲手写代码,而是设计评估标准、筛选 Agent 的输出、在 Agent 陷入局部最优时注入新的方向。
八、局限与未来
1. 小规模代理评估的 fidelity gap
百万参数模型的最优架构不等于 70B 模型的最优架构。AIRA 的解决方案——只把 top performers extrapolate——本质上是"用计算换信心"。
2. 非 Agentic 的聚合与扩展
Agent 负责"搜索"和"评估",但决定哪些设计值得 scaled up 的仍是人类或预设脚本。真正的 RSI 需要 Agent 自己判断 scaling behavior。
3. 搜索空间的人为限制
Attention、MLP、Mamba 是 2025 年的共识,但 2027 年的最优架构可能包含全新的计算单元。Agent 需要能够提出并验证新的原语。
4. 单数据集验证的脆弱性
每个任务只用单一 datamix 验证。真实场景中,架构需要在多个 domain 上泛化。
未来方向:
- AIRA₂:多块 GPU 协同,直接在更大规模模型上做架构搜索
- 闭环闭合:Agent 设计的架构被用于训练下一代 Agent,RSI 飞轮开始转动
- 端到端自主化:Agent 不仅搜索和评估,还能自主完成聚合和扩展
结语
AIRA 是 2026 年 AI 行业最重要的信号之一。它不证明递归自我改进已经实现,但证明 实现 RSI 所需的核心能力模块已经就绪。
11 个 Agent、20 个 Agent、24 小时、14 种新架构、距 SOTA 2.3%——这些数字背后是同一个范式转变:从人类设计到 Agent 设计,从固定架构调参到架构空间自由探索,从单一模型优化到异构 Agent 协作发现。
Meta 选择公开这条路,是一个聪明的策略。在 OpenAI 保持黑箱、Anthropic 聚焦安全、DeepSeek 深耕效率的格局中,Meta 通过开放标准和可复现基准争夺定义权。
对人类从业者而言,紧迫的问题不是"会不会被取代",而是 "我的工作中,哪些部分是 Agent 24 小时内可以覆盖的,哪些部分需要我重新定义问题的能力"。前者正在贬值,后者正在升值。分界线的移动速度,可能比大多数人预期的更快。
参考来源:
- Lin, C.-Y., Magka, D., Acun, B., et al. (2026). Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design. arXiv:2605.15871. FAIR at Meta.
- Good, I. J. (1966). Speculations Concerning the First Ultraintelligent Machine.
- Acun, B., et al. (2025). Composer: Scaling Neural Architecture Search to Large Language Models.
- Tay, Y., et al. (2020). Long Range Arena: A Benchmark for Efficient Transformers.
- Karpathy, A. (2026). Autoresearch.
#深度研究 #AIRA #MetaFAIR #递归自我改进 #Agent设计AI #神经网络架构搜索 #RSI #AI自主科研 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。