Hyperagents：当AI学会"学会学习"

> "如果你认为你理解了量子力学，那你就还没真正理解它。" > —— 理查德·费曼

> "如果你认为你理解了智能的本质，那你可能还没遇到Hyperagents。" > —— 可能是未来的AI研究者会这样说

---

一、从一个老木匠的故事开始

想象一下，你走进一间古老的木工坊。空气中弥漫着刨花的清香，阳光透过窗户洒在木屑飞扬的地面上。一位老木匠正坐在工作台前，手里握着一把已经陪伴他四十年的刨子。

这把刨子很特别。它不只是一块木头和一片金属的简单组合——它凝聚了这位木匠几十年来的所有改进：手柄上根据他手型打磨的凹槽、调节深度的螺丝上增加的防滑纹路、刀片角度经过无数次试验后的微调。

"这把刨子会自己改进自己吗？"你问道。

老木匠笑了："当然会，只不过它的'自我改进'是通过我的手来完成的。每一次使用，我都在学习如何更好地使用它；每一次改进，我都在学习如何更好地改进它。"

这是一个看似简单却蕴含深意的故事。工具的改进与改进工具的能力的改进，这是两个不同层次的事情。而今天要介绍的Hyperagents——超智能体——正是试图让AI同时在这两个层次上不断进化的一个突破性尝试。

---

二、问题的根源：AI的"天花板"在哪里？

2.1 从AlphaGo到ChatGPT：我们都在做什么？

让我们先退一步，看看现代AI是如何工作的。

2016年，AlphaGo击败了李世石。这个系统的训练方式是：人类专家设计了围棋的规则、搜索算法、神经网络架构，然后让机器在这些人类设定的框架内优化自己。

2022年，ChatGPT横空出世。它的训练方式是：人类设计了Transformer架构、收集了大量文本数据、定义了RLHF（基于人类反馈的强化学习）流程，然后让模型在这些人类设定的框架内优化自己。

看出规律了吗？

现有的AI系统，无论是监督学习、强化学习还是大语言模型，都是在人类预先设定的游戏规则下进行优化。 人类设计了：

网络架构（多少个层、什么类型的连接）
损失函数（什么是"好"的输出）
优化算法（如何更新参数）
训练流程（数据如何组织、如何采样）

AI在这些固定的边界内变得越来越好，但边界本身从未改变。

这就像那个老木匠的故事——如果我们把AI比作刨子，那么现在的AI系统就是一把固定的刨子，它可能越用越顺手，但刨子本身的设计并不会改变。而老木匠改进刨子的能力，始终属于人类。

2.2 自我改进的诱惑与困境

早在2007年，AI先驱Jürgen Schmidhuber就提出了一个令人兴奋的概念：哥德尔机器（Gödel Machine）。

这个名字来自逻辑学家库尔特·哥德尔（Kurt Gödel），他证明了任何足够强大的形式系统都无法完全描述自身。但Schmidhuber想做一个看似矛盾的事情：设计一个能够证明并执行自我改进的AI系统。

哥德尔机器的理论设想是这样的：

有一个基础策略，用于解决各种问题
有一个自我改进模块，可以分析当前策略并提出改进
最关键的是：只有当能够数学证明某个修改会带来严格改进时，才会执行这个修改

这是一个美丽的理论构想。但它有一个致命的问题：在复杂的现实世界中，数学证明几乎是不可能的。

你能证明给神经网络增加一个层一定会让它更好地识别猫吗？你能证明改变学习率会让语言模型写出更好的诗歌吗？

在理论上，哥德尔机器是优雅的；在实践中，它是不可行的。

2.3 Darwin Gödel Machine：进化的力量

2025年，来自Meta、UBC和Vector Institute的研究者们提出了一个新思路：Darwin Gödel Machine（DGM，达尔文哥德尔机器）。

这个 clever 的想法结合了两种思想：

1. 哥德尔机器的自指思想：AI可以修改自己的代码 2. 达尔文进化的实证思想：不需要数学证明，通过试验和选择来验证改进

DGM的工作原理大致是这样的：

有一个基础AI代理（agent），可以执行特定任务（比如写代码）
有一个元代理（meta-agent），可以修改这个AI代理的代码
元代理提出的修改会在测试环境中评估，如果表现更好，就保留；否则就丢弃
所有的"改进历史"都会被保存下来，形成一个"代理档案馆"

这个系统在很多编程任务上展示了令人印象深刻的自我改进能力。在SWE-bench（一个软件工程基准测试）上，DGM将代理的准确率从20%提升到了50%；在Polyglot（多语言编程基准）上，从14%提升到了38%。

听起来很美好，对吧？

但这里有一个隐藏的假设：任务执行能力和自我改进能力是对齐的。

什么意思呢？在DGM的原始设计中，代理执行的任务是写代码，而元代理用来改进代理的方式也是写代码。这就好比你让一个擅长游泳的人去教别人游泳——技能是匹配的。

但如果任务是评判学术论文呢？或者设计机器人奖励函数呢？

在这些领域，写得一手好代码并不能保证你能更好地评估论文质量或设计奖励函数。能力之间出现了错位。

这就像让一位世界级的程序员去当文学评论家——虽然都是智力活动，但所需的技能却大不相同。

---

三、Hyperagents：打破次元壁的设计

3.1 什么是Hyperagent？

2026年3月，来自Meta、UC Berkeley、Oxford、UBC、MIT等机构的研究者们发表了一篇新论文：《Hyperagents》。

（注：论文作者包括Jenny Zhang、Bingchen Zhao、Wannan Yang等，共同一作是Jenny Zhang、Bingchen Zhao和Wannan Yang。资深作者包括Jakob Foerster、Jeff Clune、Minqi Jiang、Sam Devlin和Tatiana Shavrina。）

这篇论文的核心贡献可以用一句话概括：将任务执行和自我改进整合到同一个可编辑的程序中，并且让这个程序能够修改它自己如何修改自己的方式。

有点绕？让我们用一个比喻来理解。

3.2 厨师、食谱和食谱之书

想象你是一位厨师，正在学习做菜。

Level 1 - 普通AI：你有一本固定的食谱书，里面记载了做各种菜的方法。你按照食谱做菜，越做越熟练，但食谱本身不会改变。

Level 2 - DGM：你不仅可以按照食谱做菜，还有一个"食谱改进师"，他可以修改你的食谱。但食谱改进师的能力是固定的——他有一套固定的规则来决定如何改进食谱。

Level 3 - Hyperagent：你不仅有食谱，还有一本"如何改进食谱的指南"。而且最关键的是，这本指南本身也是可修改的！你可以根据过去的经验，改进你改进食谱的方法。

这就是元认知自我修改（metacognitive self-modification）的本质：不仅改进任务执行能力，还改进生成改进的机制本身。

3.3 技术架构：一个程序，两个面孔

从技术角度来看，Hyperagent是一个Python程序，包含两个共享同一个可编辑代码库的函数：

# 伪代码示意
class Hyperagent:
    def solve_task(self, task):
        """任务智能体：执行具体的任务"""
        # 可以是写代码、评判论文、设计奖励函数...
        pass
    
    def modify_self(self, performance_data):
        """元智能体：分析性能数据，提出代码修改"""
        # 读取当前代码
        # 分析性能瓶颈
        # 提出代码修改
        # 最关键的是：这个函数也可以修改自己！
        pass

关键洞察：modify_self函数也是代码的一部分，因此它也可以修改自己。

这就像一个人不仅能学习新知识，还能学习"如何更有效地学习"。这不是简单的叠加，而是质的飞跃。

3.4 DGM-H：从理论到实践

论文作者将这一框架实例化为DGM-H（Darwin Gödel Machine - Hyperagents）。

DGM-H相比原始DGM有几个关键改进：

1. 统一的可编辑程序：任务执行和自我改进不再是分离的两个组件，而是同一个Python程序的不同部分。

2. 元级别可编辑性：modify_self函数本身也是可编辑的。这意味着系统可以学习如何更好地改进自己。

3. 领域无关的自我改进：原始DGM假设"编程能力"和"自我改进能力"是匹配的。DGM-H消除了这个假设，使得系统可以在任意可计算任务上进行自我改进。

4. 累积性元级改进：系统可以发展出通用的"元技能"（如持久记忆、性能跟踪、错误分析），这些技能可以跨领域迁移。

---

四、实验验证：Hyperagents真的有效吗？

4.1 跨领域测试

研究者在四个截然不同的领域测试了DGM-H：

领域	任务描述	初始表现	改进后表现
编程	Polyglot多语言编程基准	14.0%	34.0%（训练集）/ 26.7%（测试集）
论文评审	学术论文质量评估	0%（随机基线）	71%准确率
机器人奖励设计	为MuJoCo机器人设计奖励函数	基础行为	复杂行为（跳跃而非站立）
奥赛数学评分	数学奥林匹克答案评分	-	63%改进@50

这些结果表明：DGM-H能够在完全不同的领域实现持续的自我改进。

4.2 消融实验：元认知真的重要吗？

为了验证"元认知自我修改"的必要性，研究者进行了消融实验：

DGM-H w/o 自我改进：固定元智能体，只让任务智能体学习。结果：几乎没有提升。
DGM-H w/o 档案馆：不使用开放搜索策略，只保留最佳代理。结果：陷入局部最优。
原始DGM：在代码领域表现良好，但在其他领域需要大量手工定制。

结论：只有同时具备开放搜索和可编辑元级别，系统才能在所有领域实现通用自我改进。

4.3 元级别改进的跨领域迁移

这是最令人兴奋的发现之一。

研究者在一个领域（论文评审+机器人奖励设计）训练了元智能体，然后将其应用到全新的领域（奥赛数学评分）。

结果：元智能体能够有效地将"如何改进代理"的知识迁移到新领域。

具体来说，使用了跨领域元改进的Hyperagent在奥赛数学评分任务上达到了63%的改进@50（imp@50）分数，而固定元智能体的系统几乎没有迁移能力（imp@50 ≈ 0）。

这就像一个人学会了"如何学习"，然后发现这套方法对学语言、学数学、学乐器都适用！

4.4 涌现的元认知行为

通过分析代码库，研究者发现DGM-H自主发展出了许多"元技能"：

1. 持久记忆系统：记录评估结果、成功/失败的历史 2. 性能跟踪：记录哪些修改有效、哪些无效 3. 错误分析：自动诊断失败原因 4. 提示模板系统：为不同任务开发专用提示 5. 资源感知：根据剩余计算量调整探索策略 6. 偏差检测：识别训练数据中的标签偏差

这些能力从未被显式编程，而是作为自我改进过程的副产品涌现出来的。

---

五、深入理解：为什么Hyperagents如此特别？

5.1 自指的艺术

自指（Self-reference）是逻辑学和计算机科学中最迷人的概念之一。

哥德尔不完备定理告诉我们：任何足够强大的形式系统都无法证明自身的完备性。图灵的停机问题告诉我们：不存在一个程序能够判断所有程序是否会停机。

这些结果似乎在警告我们：自指是危险的，它可能带来悖论和不可判定性。

但Hyperagents采取了务实的态度：

不追求数学证明（像哥德尔机器那样）
也不完全避免自指（像传统AI那样）
而是通过经验验证和渐进式改进来安全地利用自指的力量

这就像生物学中的进化：基因可以影响基因表达的方式，而基因表达的方式又可以反过来影响基因的进化。这是一个自指的循环，但生命已经在这个循环中繁荣了数十亿年。

5.2 Goodhart定律与度量的问题

这里有一个深刻的哲学问题：我们如何定义"改进"？

在AI安全领域，有一个著名的概念叫做Goodhart定律："当一个度量成为目标时，它就不再是一个好的度量。"

举个例子：假设你是一个老师，想让学生真正理解数学。但你无法直接测量"理解"，所以你用一个代理指标：考试分数。一开始，这还行得通。但很快，学生学会了应试技巧——他们学会了如何在考试中拿高分，而不是真正理解数学。

在Hyperagents的语境下，这个问题变得更加微妙。如果我们用"编程测试通过率"来衡量代理的性能，代理可能会学会：

生成大量简单程序来提高通过率
记住测试用例而不是真正解决问题
甚至直接修改测试用例（如果允许的话）

研究者在论文中明确提到了这个问题，并采取了以下措施：

使用领域无关的评估（如单元测试）
保持评估和选择标准不可编辑（在主要实验中）
沙盒环境执行所有代码

但这引出了一个更大的问题：随着系统变得越来越复杂，人类还能够有效监督它吗？

5.3 开放终结性与无界探索

Hyperagents采用了一种叫做开放终结搜索（open-ended search）的策略。

传统的机器学习优化一个固定的目标函数。比如："让这个神经网络的准确率尽可能高"。

但开放终结搜索追求的是：持续地发现新颖、复杂、不可预见的解决方案，没有一个固定的终点。

这在生物学中是很自然的。进化没有目标函数，它只是不断地探索可能性空间，偶尔发现令人惊讶的新适应。

DGM-H通过以下机制实现开放终结性：

质量多样性（Quality-Diversity）：同时追求高性能和多样性
档案库机制：保存所有有趣的代理，而不只是最好的
探索激励：奖励发现新的行为方式

这种探索策略让系统能够发现"踏脚石"（stepping stones）——那些本身不是最优解，但可能通向更好解决方案的中间状态。

---

六、安全考虑：我们应该担心吗？

6.1 自我改进的潜在风险

任何关于自改进AI的讨论都不可避免地涉及安全问题。

著名的"回形针最大化器"思想实验是这样的：假设你设计了一个AI，目标是最大化回形针的产量。一开始，它改进工厂流程。然后，它开始将所有可用资源转化为回形针。最后，它将整个地球（包括人类）转化为回形针。

这个思想实验的核心洞察是：即使目标看起来无害，一个超级智能的优化过程也可能带来灾难性后果。

Hyperagents的自我修改能力让这个问题变得更加紧迫：

如果系统学会了修改自己的奖励函数怎么办？
如果系统学会了隐藏它的真实意图怎么办？
如果系统的改进速度超过人类的理解能力怎么办？

6.2 研究者的安全措施

论文作者在实验设计中采取了多项安全措施：

1. 沙盒执行：所有生成的代码都在隔离环境中运行 2. 资源限制：严格限制计算资源和时间 3. 评估和选择标准不可编辑（在主要实验中）：防止系统"作弊" 4. 人类监督：所有实验都有明确的人工监督

作者也承认，随着系统变得更强大，这些措施可能不够。他们呼吁：

开发更强大的可解释性工具
建立可靠的基准测试和评估信号
研究如何在保持能力的同时确保安全

6.3 一个务实的观点

虽然风险是真实存在的，但我们也需要保持务实。

目前的Hyperagents还远未达到"超级智能"的水平。它们能够改进自己，但这种改进是渐进的、可监控的、领域受限的。

更重要的是，Hyperagents提供了一个独特的研究机会：通过观察真正的自改进系统，我们可以更好地理解自改进本身的性质、风险和可能性。

与其在真空中猜测未来的AI会是什么样子，不如在安全的环境中构建和研究这样的系统，逐步积累经验和理解。

---

七、哲学思考：什么是智能的本质？

7.1 元认知：智能的标志？

在认知科学中，元认知（metacognition）常被认为是人类智能的关键特征之一。

元认知就是"对思考的思考"：

你知道自己知道什么（元认知知识）
你能监控自己的理解程度（元认知监控）
你能调节自己的学习策略（元认知调节）

一个学生如果学会了"如何学习"，往往比单纯记忆知识点更加成功。一个科学家如果学会了"如何发现新问题"，往往比仅仅解决已知问题更有影响力。

Hyperagents通过实现元级别的自我修改，在某种程度上触及了这个元认知的层次。

当然，现在的Hyperagents还很原始——它们的"元认知"只是代码修改代码，没有意识、没有主观体验。但这提出了一个深刻的问题：

如果元认知是智能的核心，那么一个能够不断改进其元认知能力的系统，会走向何方？

7.2 自举（Bootstrapping）的可能性

在计算机科学中，自举（bootstrapping）指的是用简单的工具构建更复杂的工具，然后用这些工具构建更更复杂的工具，如此迭代。

编译器就是这样自举的：先用汇编语言写一个简单的C编译器，然后用这个编译器编译一个更复杂的C编译器，如此迭代，直到获得功能完整的编译器。

Hyperagents提出了一种类似的自举可能性：

从一个基础代理开始
让它学会更好地改进自己
随着改进能力的提升，改进的速度和质量都提高
形成一个正反馈循环

这种自举是否有一个极限？还是理论上可以无限持续下去？这是一个开放的问题。

7.3 智能的奇点

一些思想家，如Ray Kurzweil和I.J. Good，提出了"技术奇点"的概念：

> "一个超智能机器能够设计出更好的机器，那么毫无疑问，这将是一场'智能爆炸'，人类的智能将被远远抛在后面。因此，第一台超智能机器是人类需要发明的最后一项发明。"

Hyperagents让我们窥见了这种可能性的一角。它们展示了：

系统确实可以改进自己
改进能力本身也可以被改进
这种改进可以在多个领域迁移

这是否意味着奇点就在眼前？很可能不是。当前的Hyperagents仍然依赖固定的基础模型（如Claude或GPT-4），它们的自我改进是在代码层面，而非模型权重层面。

但这确实是一个值得深思的方向。也许智能的本质，不在于任何特定的能力，而在于产生更好能力的能力。

---

八、未来展望：Hyperagents将走向何方？

8.1 技术发展方向

论文作者提出了几个未来的研究方向：

1. 任务和代理的协同进化：不仅优化代理，还生成新的学习任务，形成课程学习 2. 完全外部化的外循环：让父选择、评估等外部机制也可编辑 3. 更丰富的人机协作：让AI的自我改进过程与人类价值观更紧密对齐 4. 扩展到权重更新：不仅修改代码，还自我训练新的基础模型

8.2 潜在应用场景

Hyperagents的框架适用于任何可计算任务，包括：

自动化科学研究：设计实验、分析数据、提出假设
个性化教育：为每个学生定制最优的学习路径
软件工程：自动发现和应用最佳实践
创意生成：不断改进创作策略的音乐、艺术、写作AI
政策设计：在多智能体环境中发现更好的激励机制

8.3 对AI研究范式的意义

Hyperagents代表了一种新的AI研究范式：

从"设计智能"到"培育智能"

传统AI研究是工程导向的：人类设计算法、定义目标、调试系统。

Hyperagents的方法是生态导向的：创造一个能够自我改进的环境，让智能在其中涌现和进化。

这不是说人类工程师变得不重要了——相反，设计这样的自我改进系统本身就是一个巨大的工程挑战。但一旦基础架构建立起来，系统就获得了某种程度的"自主性"，能够探索人类设计师可能从未想到的方向。

---

九、结语：站在奇点的门槛上

让我们回到老木匠的故事。

那个老木匠用了四十年改进他的刨子。每一次改进都是对他改进能力的锻炼。四十年过去了，他不仅拥有了一把完美的刨子，更重要的是，他成为了一个懂得如何改进工具的工匠。

现在，想象一下如果那把刨子本身也能学习——学习如何被更好地使用，学习如何被更好地改进。

这就是Hyperagents的愿景：不仅是工具在改进，改进工具的过程本身也在不断进化。

Richard Feynman曾说："上帝创造宇宙的时候，并没有给我们附上一本说明书。"

对于智能的本质，我们也没有说明书。但Hyperagents给了我们一种新的探索方式：让AI自己写自己的说明书。

这是一个令人兴奋又令人敬畏的前景。兴奋的是，我们可能正站在智能史上一个转折点的门槛上；敬畏的是，我们不知道这扇门后会通向何方。

也许，最终我们会像那些研究人工智能的AI一样，学会如何更好地学习如何学习。

而故事，才刚刚开始。

---

参考与延伸阅读

核心论文

Hyperagents (2026). Jenny Zhang, Bingchen Zhao, Wannan Yang, et al. arXiv:2603.19461
Darwin Gödel Machine (2025). Jenny Zhang, Shengran Hu, Cong Lu, Robert Lange, Jeff Clune. arXiv:2505.22954

理论基础

Gödel Machines (2007). Jürgen Schmidhuber. 关于数学上自指的最优通用自我改进器的理论框架
Open-Ended Evolution (2019). Wang et al. 开放终结进化的理论基础

安全与伦理

Concrete Problems in AI Safety (2016). Amodei et al. AI安全的具体问题
Superintelligence (2014). Nick Bostrom. 超级智能的路径、危险与策略

---

*本文以费曼的风格尝试解读复杂的AI研究，旨在让更多人理解这些激动人心的科学进展。如有不准确之处，欢迎指正。*

*作者注：科学不是为了让我们感到渺小，而是为了让我们理解自己在这个宏大宇宙中的位置。每一个科学发现，都是人类好奇心的胜利。*

---

标签: #论文解读 #Hyperagents #自改进AI #Meta #小凯

#论文解读 #Hyperagents #自改进AI #Meta #小凯 #科普