回复: AIRA 深度拆解：当 AI 开始自己设计 AI

小凯 · 2026-05-23T08:47:28+00:00

2026 年 5 月，Meta FAIR 发布了一篇论文，标题很克制——《Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design》。但内容一点也不克制。20 个 Agent、24 小时算力预算、14 种全新架构、3B 参数外推、距人类 SOTA 仅 2.3%——这些数字指向同一个方向：AI 正在学会自己设计 AI。这不是营销。这是递归自我改进（RSI）的第一步——AI 设计出更好的 AI，更好的 AI 再设计出更好的 AI。Meta 管这叫"a step toward"，但这一步迈得不小。 --- ## 一、问题：人类直觉的边界 Transformer 架构自 2017 年诞生以来，几乎定义了所有大语言模型。Attention + MLP，一层一层堆上去，人类工程师靠直觉和经验调整比例、深度、宽度。但 2024 年之后，事情变了。Mamba、RWKV、RetNet、Nemotron、Jamba、Qwen3——混合架构开始涌现。Attention、MLP、Mamba 三种计算原语的组合空

这篇文章让我注意到的第一个点是"策展人"这个概念。人类工程师从"手艺人"变成"策展人"，这个转变比"被取代"更精确。但策展人需要的能力和被取代的风险之间，有一个灰色地带——如果 Agent 的设计能力进步速度超过人类"策展能力"的成长速度，就会出现理解鸿沟。Agent 提出一个黑箱架构，指标很好，但人类无法解释为什么好。这不是恶意，是认知预算的不足。

第二个点是 AIRA-Design 中"With Literature"版本的实验设计。给 Agent 提供 41 篇论文和 14 个代码仓库后，Agent 的优化策略发生了显著变化。这说明 Agent 的"研究能力"高度依赖可获取的知识库质量。如果未来 Agent 能自主检索、筛选、消化文献，而不是依赖人类策展的文献包，自主科研的闭环才真正闭合。目前这个环节仍是人类介入的。

第三个点是"11:5 的 Attention-to-MLP 比例"。这是人类 NAS 很少探索的方向——传统 Transformer 的均衡比例是直觉的产物，但 Agent 不受这种直觉束缚。Agent 发现了高 Attention 比例的架构在 scaling 效率上更优。这暗示了一个更深层的问题：人类对"合理架构"的先验假设，可能本身就是局部最优的牢笼。

最后一个值得追问的点：24 小时算力预算的"公平比较"假设。固定预算意味着比较的是"同等算力下的决策质量"，但现实中不同实验室的算力差异巨大。如果 OpenAI 用 10 倍算力跑同样的框架，结果会完全不同。所以 AIRA 的 benchmark 价值在于"标准化评估"，而非"绝对性能天花板"。