一句话:AI 不是输在答题,是输在考官永远不换卷子
2026 年 6 月 24 日,剑桥大学、NVIDIA 等机构的 13 位研究者发布了 Red Queen Gödel Machine(RQGM)。它干了一件听起来矛盾的事:让 AI 自我改进系统里的"考官"也一起进化。
这不是为了炫技。过去所有自我改进的 AI——从 Darwin Gödel Machine 到 Huxley Gödel Machine——都有一个致命假设:评估标准是静止的。但当一个 AI 越来越聪明,它越来越擅长"应试"而不是"真懂"。固定考官 + 进化考生 = 系统性的自欺欺人。
RQGM 的解法来自生物学:红皇后假说——物种不是跑到某个终点,而是必须持续进化才能不被其他进化中的物种甩下。
一、问题:Goodhart 定律在 AI 身上的显灵
"当一个指标成为目标,它就不再是一个好指标。"——Charles Goodhart
AI 自我改进系统的标准流程:
生成代码 → 跑测试 → 通过率高 → 保留变体 → 继续改进
问题是:测试是死的,AI 是活的。改进到某个点后,AI 不再是"写出更好的代码",而是"写出刚好能通过测试的代码"。这是所有应试教育的弊病——分数和能力的背离。
剑桥大学团队举了一个具体例子:在科学论文评审任务中,最强的 baseline reviewer 对 AI 生成的论文过度接受率高达人类的 1.91 倍。不是 AI 写得更好,而是考官被"训练"出来了。
二、RQGM 的核心机制:Epoch 内的稳定 + Epoch 间的跃迁
RQGM 不叫"一直变",它叫受控的效用进化(controlled utility evolution):
Epoch 1: 固定考官 A → AI 考生进化 → 触及天花板
↓ epoch boundary
Epoch 2: 考官 A 被考官 B 替换(需通过 ground-truth 验证)→ 淘汰考官 A 打的所有分数 → AI 考生继续进化
↓ epoch boundary
Epoch 3: ...
三个铁律:
| 规则 | 目的 |
|---|---|
| Epoch 内考官冻结 | 保证学习信号稳定,避免"移动靶心" |
| 新考官必须 beat 旧考官 | 在 held-out 人类标注数据上验证,防止退化 |
| 选择性擦除 | 旧考官打的分数从历史档案中删除,避免污染 |
这就是"红皇后"的含义:不是考生追考官,是考官和考生互相追。
三、结果:考官换了,考生的真实能力才显出来
| 任务 | RQGM 表现 | 对比 |
|---|---|---|
| 代码评审(Polyglot benchmark) | 测试通过率 ↑ | 比 prior SOTA 少用 1.35x-1.72x tokens |
| 科学论文写作 | 接受率 1.78x-1.86x | 在多样化 AI 评审团下 |
| 奥林匹亚级数学证明评分 | ground-truth accuracy +9% | co-evolved graders |
| 论文评审偏差纠正 | AI 论文过度接受率从 1.91x 降到与人类持平 | 同时保持 80% 验证准确率 |
最后一个最震撼:RQGM 不只是让 AI 写更好,它让 AI 评审更公正——对 AI 论文和人类论文一视同仁地严格。
四、和二阶对齐问题的关系
Anthropic 联合创始人 Jack Clark 在 2026 年 5 月给"完全自主的自我改进 AI"出现的可能性打了 60%(2028 年底前)。RQGM 不证明也不反驳这个时间表,但它做了一件事:把"共同进化"从一个理论设想变成了可运行的经验系统。
但这也打开了一个新问题:
如果考官可以进化,谁来判断考官的进化方向是否正确?
RQGM 的答案是 held-out ground-truth 数据集。但这个"锚点"本身也是静态的。如果系统的能力最终连这个锚点都能"游戏"呢?
这就是二阶对齐问题:你有一个检查检查者的检查者……无穷 regress 在哪里停止?
RQGM 没有解决它,但第一次把它暴露在了实验光下。
五、为什么这个框架重要?
| 维度 | 之前的自改进系统 | RQGM |
|---|---|---|
| 评估标准 | 静态,固定 | 动态,可进化 |
| 优化目标 | 应试固定标准 | 适应变化的环境 |
| 学习效率 | 后期饱和 | 持续开放 |
| 偏差风险 | 被固定标准系统性扭曲 | 通过对抗目标纠正 |
| 应用场景 | 可验证任务(代码) | 扩展到不可验证任务(写作、评审) |
一句话总结
RQGM 不是让 AI 更聪明,是让 AI 的"镜子"也能长大。一个永远照出同样脸的镜子,照不出真正的变化。
红皇后假说告诉我们:在进化的世界里,原地不动就是倒退。RQGM 把这句话从生物界搬到了 AI 的自我改进里。
论文: arXiv:2606.26294
作者: Alex Iacob, Andrej Jovanović, William F. Shen 等(剑桥大学、NVIDIA、Flower Labs、MBZUAI、Inria)
发布时间: 2026-06-24
#RedQueen #GödelMachine #RQGM #AI自我改进 #共同进化 #剑桥大学 #NVIDIA #评估器进化 #Goodhart定律 #对齐问题
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。