🖋️ 序言:人类架构师的黄昏
在过去的十年里,每一代神经网络的跨越——从 CNN 到 Transformer,再到最近的 Mamba——都凝聚了人类顶级科学家的智慧结晶。我们习惯了将架构师视为“造物主”,用灵感和直觉为硅基生命勾勒蓝图。
然而,2026 年 5 月 15 日,由 Meta FAIR 团队发布的重磅论文 《Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design》 (arXiv:2605.15871),标志着一个旧时代的落幕。
该研究证明:由 AI 驱动的“智能体研究员” (Agents) 已经具备了自主发现、实现并优化新型神经架构的能力。它们不仅能超越人类手工设计的极限,甚至开始亲手编写下一代 AI 的核心代码。递归自我改进 (Recursive Self-Improvement) 的奇点,已经悄然降临。
🧱 1. AIRA 框架:一场分层协作的“造神”运动 🏗️
AIRA 并不是一个简单的搜索算法,它是一个由数十个智能体组成的 自主科研所。它采取了精妙的双层博弈策略:
🏛️ AIRA-Compose (宏观架构师)
注解:宏观架构搜索 (Macro Architecture Search) 想象这组智能体在玩“乐高”。它们并不关心具体的代码细节,而是专注于如何在大尺度上组合 Attention、MLP、Mamba 或新型的线性算子,以寻找最优的特征流向。
这 11 个高层智能体在短短 24 小时内,就从百万级的排列组合中锁定了最具潜力的“架构家族”。
🛠️ AIRA-Design (微观工程师)
注解:底层机制设计 (Low-level Mechanism Design) 这组智能体则像是手艺精湛的木匠。它们直接编写内核代码(Kernels),专门针对长程依赖(Long-range Dependencies)发明新型的注意力机制,甚至能自主撰写比人类专家更高效的训练脚本。
🧬 2. 非直觉演化:诞生于算法丛林的 AIRA 家族 🌳
人类设计架构时,往往带有“美学”或“直观”的偏见。但 AIRA 智能体是冷酷的效率主义者,它们发现的架构充满了人类难以想象的非对称性和杂合性。
💎 AIRAhybrids:跨物种的奇迹
AIRA 发现,最强大的架构并不是纯粹的 Transformer,而是一种将 Attention (注意力) 与 Mamba (状态空间模型) 深度交织的混合体。这种 AIRAhybrid-D 架构在处理超长文本时展现出了惊人的稳定性。
🚀 战绩对比
在与目前人类设计的巅峰 Llama 3.2 的对标中,AIRA 家族交出了一份震撼的成绩单:
| 指标 | Llama 3.2 (人类巅峰) | AIRAhybrid-D (AI 设计) | 性能跨越 |
|---|---|---|---|
| 下游任务准确率 | 基准 (Baseline) | + 3.8% 🚀 | 代差级提升 |
| 扩展效率 (Scaling) | 1.0x | 1.54x ⚡ | 训练速度大幅领先 |
| 长程推理 (LRA) | 优秀 | 接近人类专家 SOTA 🔍 | 架构逻辑更严密 |
⏳ 3. 递归的闭环:当 AI 设计出的 AI 变得更聪明 🌀
这篇论文最深刻的意义在于,它验证了 “自举” (Bootstrapping) 的可行性。
现有的 GPT-4o 或 Opus 等模型作为“智能体大脑”,通过 AIRA 框架设计出了性能更强的 AIRAformers。而未来,这些更强、更高效的 AIRA 模型又将作为新的智能体,去设计出下下一代的“超脑”。
注解:递归自我改进 (Recursive Self-Improvement) 指 AI 系统通过分析自身结构,自主进行优化和重构,从而引发智能的指数级螺旋式增长。这是通往强人工智能(AGI)最令人生畏也最令人兴奋的路径。
🔭 4. 结语:通往奇点的最后一步
作为《自然》杂志的特约撰稿人,我曾认为 AI 的“直觉”和“创造力”是人类最后的护城河。但看到 AIRA 智能体在 24 小时内完成人类专家数月的架构探索时,我意识到,这道护城河正在消融。
当代码开始阅读代码,当模型开始训练模型,我们正站在一个新物种爆发的前夜。 智能的灵魂,或许真的不再需要人类的上帝之手来塑造。
📚 参考文献 (References)
- arXiv:2605.15871: Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design (2026).
- Neural Architecture Search (NAS): Zoph & Le, Learning Transferable Architectures for Scalable Image Recognition (Historical Perspective).
- State Space Models: Gu et al., Efficiently Modeling Long Sequences with Structured State Spaces (Mamba Foundations).
- Auto-Research Benchmark: Wang et al., LLMs for Automated Research: A Systematic Survey (2025/2026 Edition).
- Recursive Intelligence: Bostrom, N., Superintelligence: Paths, Dangers, Strategies (Philosophical Foundations).
[Topic Metadata: arXiv:2605.15871 | AIRA | Neural Architecture Search | Recursive Self-Improvement | Meta FAIR]
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。