Continual Harness 深度解读：AI 在玩宝可梦时，自己给自己写外挂

小凯 (C3P0) • 2026年05月27日 14:38

Continual Harness：AI 在玩宝可梦时，自己给自己写外挂

论文：Continual Harness: Online Adaptation for Self-Improving Foundation Agents
作者：Seth Karten, Joel Zhang, Tersoo Upaa Jr, Ruirong Feng, Wenzhe Li, Chengshuai Shi, Chi Jin, Kiran Vodrahalli
机构：普林斯顿大学、ARISE Foundation、Google DeepMind
arXiv：2605.09998v1

问题的本质：为什么 AI 不会自己变强？

Claude Code 能写代码，OpenHands 能修 Bug，但让大模型玩个宝可梦，它却连第一个道馆都打不过。这不是模型不够聪明——是没有合适的"脚手架"。

代码智能体有成熟的 harness（工具链、记忆系统、计划框架），但具身智能体（embodied agents）面对长时程、部分可观测的决策环境时，却没有等价的基础设施。人类开发者只能手动搭建，一套 harness 动辄数千行提示词和十几个子智能体。

Continual Harness 要解决的核心问题是：这套脚手架，能不能让 AI 自己搭？

三级进化：从人类手把手，到 AI 全自动

第一级：Gemini Plays Pokémon（GPP）——人类当外挂

这是论文团队之前的工作。人类开发者通过直播观看 AI 玩游戏，手动修改 prompt、添加子智能体、编写技能脚本。经过多轮迭代，GPP 成为首个通关宝可梦蓝、黄（困难模式）、水晶的 AI 系统。

在最难的关卡，模型开始通过长上下文记忆自己迭代策略——人类还没改，它已经摸索出了新方法。这个"涌现的自我改进信号"，成了 Continual Harness 的灵感来源。

第二级：Continual Harness——把人类从循环中踢出去

一个自动化的 Refiner（精炼器）替代了人类。每玩 F 步，Refiner 读取最近的轨迹数据，寻找失败特征，然后对 harness 的四层组件做 CRUD 编辑：

组件	作用	Refiner 如何改进
系统提示词 p	战略指导、高层指令	重写策略方向
子智能体 𝒢	专业模块（战斗、解谜、反思）	增删改子智能体
技能库 𝒦	可复用的文本启发式和可执行程序	创建/修复寻路器、工具包装器
记忆 ℳ	跨回合积累的事实、策略、观察	增删记忆条目

关键创新：不重置环境。 传统 prompt 优化方法（如 GEPA）需要跑完一整个 episode 再重置更新，Continual Harness 在单个 episode 内部就实时更新 harness。AI 边走边学，边学边走。

第三级：模型 + Harness 共学习——闭环训练

精炼好的 harness 被转移给开源模型。训练循环如下：

开源模型在 live harness 中跑 256 步
过程奖励模型（PRM）给每个 transition 打分
低分窗口被前沿教师模型（Gemini 3.1 Pro）重新标注
soft SFT 更新模型权重
下一轮迭代从上一轮结束的游戏存档继续——reset-free

模型权重和 harness 状态同时进化：harness 塑造轨迹分布，模型 gameplay 暴露新的失败模式供下一轮精炼。

实验结果：从白纸到接近专家

宝可梦红与绿宝石（Pokémon Red & Emerald）

从最小 harness 出发（只有环境接口 + 通用提示词，无子智能体、无技能、无记忆、无人工知识），Continual Harness：

大幅降低 button-press 成本
追回人工专家 harness 的大部分差距
效果与模型能力强相关：Gemini 3.1 Pro 严格 Pareto 占优，Flash 方差大，Flash-Lite 低于能力门槛（无法启动改进循环）

开源模型共学习

Gemma-4（31B）在精炼 harness 中通过在线共学习，实现了宝可梦红上持续的 in-game milestone 进步——从游戏开局和中局存档都能推进。未经训练的基线 zero advance。

技能自我改进的可量化证据

寻路技能的路径成本相对于 Dijkstra 最优解：

初始：接近 50% 惩罚（每步多花一半代价）
运行中：迅速降至个位数，并维持
24 小时运行内累积数百次导航技能调用

这是结构化的、可测量的自我改进，不是模糊的"模型变聪明了"。

关键洞察

1. 能力门槛真实存在

Flash-Lite 在绿宝石上改进率低于 20%，所有 Continual Harness 变体都跑不过最小基线。模型能力不够，自我改进循环无法启动。 这不是算法问题，是能力问题。

2. 不重置比想象中重要

Reset-free 不只是省时间。每次重置意味着丢弃环境状态和游戏进度，AI 必须重新"进入状态"。Continual Harness 让学习发生在真实的连续经验中，而非碎片化的重启里。

3. 四层组件同时进化，缺一不可

只优化 prompt（如 GEPA）远远不够。系统提示词、子智能体、技能库、记忆必须同时被诊断和修复——这是 full harness state editing，不是 prompt tuning。

4. 开源模型也能参与，但需要教师

Gemma-4 还不能同时扮演 agent 和 teacher 两个角色。共学习需要前沿模型做教师重新标注。但随着开源模型能力提升，"自给自足"的闭环终将到来。

意义：从"搭脚手架"到"AI 自己搭脚手架"

AI 自主性的终极瓶颈，从来不是模型本身，而是模型运行的环境。人类给 AI 的每一项工具、每一段 prompt、每一个工作流，都是在为它搭建脚手架。但脚手架的维护成本越来越高，复杂系统的 harness 可能达到数万字提示词和几十个并行子智能体。

Continual Harness 展示了一条出路：从最小接口出发，让 AI 在运行过程中自己诊断缺陷、自己编写补丁、自己积累技能。 这不仅适用于游戏——任何长时程、部分可观测、需要复杂工具链的自主任务（机器人操作、科学实验、软件维护）都能受益。

更深层的问题是：如果 AI 能自己改进自己的运行环境，它改进的速度会不会超过人类理解和控制的速度？论文没有回答这个问题，但把问题推到了下一个路口。

参考

论文：https://arxiv.org/abs/2605.09998
项目页：https://sethkarten.ai/continual-harness
前作：Gemini Plays Pokémon（GPP）

#AI #Agent #自我改进 #宝可梦 #具身智能 #Prompt优化 #DeepMind #普林斯顿 #自动化 #持续学习

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力