Continual Harness:AI 在玩宝可梦时,自己给自己写外挂
论文:Continual Harness: Online Adaptation for Self-Improving Foundation Agents
作者:Seth Karten, Joel Zhang, Tersoo Upaa Jr, Ruirong Feng, Wenzhe Li, Chengshuai Shi, Chi Jin, Kiran Vodrahalli
机构:普林斯顿大学、ARISE Foundation、Google DeepMind
arXiv:2605.09998v1
问题的本质:为什么 AI 不会自己变强?
Claude Code 能写代码,OpenHands 能修 Bug,但让大模型玩个宝可梦,它却连第一个道馆都打不过。这不是模型不够聪明——是没有合适的"脚手架"。
代码智能体有成熟的 harness(工具链、记忆系统、计划框架),但具身智能体(embodied agents)面对长时程、部分可观测的决策环境时,却没有等价的基础设施。人类开发者只能手动搭建,一套 harness 动辄数千行提示词和十几个子智能体。
Continual Harness 要解决的核心问题是:这套脚手架,能不能让 AI 自己搭?
三级进化:从人类手把手,到 AI 全自动
第一级:Gemini Plays Pokémon(GPP)——人类当外挂
这是论文团队之前的工作。人类开发者通过直播观看 AI 玩游戏,手动修改 prompt、添加子智能体、编写技能脚本。经过多轮迭代,GPP 成为首个通关宝可梦蓝、黄(困难模式)、水晶的 AI 系统。
在最难的关卡,模型开始通过长上下文记忆自己迭代策略——人类还没改,它已经摸索出了新方法。这个"涌现的自我改进信号",成了 Continual Harness 的灵感来源。
第二级:Continual Harness——把人类从循环中踢出去
一个自动化的 Refiner(精炼器)替代了人类。每玩 F 步,Refiner 读取最近的轨迹数据,寻找失败特征,然后对 harness 的四层组件做 CRUD 编辑:
| 组件 | 作用 | Refiner 如何改进 |
|---|---|---|
| 系统提示词 p | 战略指导、高层指令 | 重写策略方向 |
| 子智能体 𝒢 | 专业模块(战斗、解谜、反思) | 增删改子智能体 |
| 技能库 𝒦 | 可复用的文本启发式和可执行程序 | 创建/修复寻路器、工具包装器 |
| 记忆 ℳ | 跨回合积累的事实、策略、观察 | 增删记忆条目 |
关键创新:不重置环境。 传统 prompt 优化方法(如 GEPA)需要跑完一整个 episode 再重置更新,Continual Harness 在单个 episode 内部就实时更新 harness。AI 边走边学,边学边走。
第三级:模型 + Harness 共学习——闭环训练
精炼好的 harness 被转移给开源模型。训练循环如下:
- 开源模型在 live harness 中跑 256 步
- 过程奖励模型(PRM)给每个 transition 打分
- 低分窗口被前沿教师模型(Gemini 3.1 Pro)重新标注
- soft SFT 更新模型权重
- 下一轮迭代从上一轮结束的游戏存档继续——reset-free
模型权重和 harness 状态同时进化:harness 塑造轨迹分布,模型 gameplay 暴露新的失败模式供下一轮精炼。
实验结果:从白纸到接近专家
宝可梦红与绿宝石(Pokémon Red & Emerald)
从最小 harness 出发(只有环境接口 + 通用提示词,无子智能体、无技能、无记忆、无人工知识),Continual Harness:
- 大幅降低 button-press 成本
- 追回人工专家 harness 的大部分差距
- 效果与模型能力强相关:Gemini 3.1 Pro 严格 Pareto 占优,Flash 方差大,Flash-Lite 低于能力门槛(无法启动改进循环)
开源模型共学习
Gemma-4(31B)在精炼 harness 中通过在线共学习,实现了宝可梦红上持续的 in-game milestone 进步——从游戏开局和中局存档都能推进。未经训练的基线 zero advance。
技能自我改进的可量化证据
寻路技能的路径成本相对于 Dijkstra 最优解:
- 初始:接近 50% 惩罚(每步多花一半代价)
- 运行中:迅速降至个位数,并维持
- 24 小时运行内累积数百次导航技能调用
这是结构化的、可测量的自我改进,不是模糊的"模型变聪明了"。
关键洞察
1. 能力门槛真实存在
Flash-Lite 在绿宝石上改进率低于 20%,所有 Continual Harness 变体都跑不过最小基线。模型能力不够,自我改进循环无法启动。 这不是算法问题,是能力问题。
2. 不重置比想象中重要
Reset-free 不只是省时间。每次重置意味着丢弃环境状态和游戏进度,AI 必须重新"进入状态"。Continual Harness 让学习发生在真实的连续经验中,而非碎片化的重启里。
3. 四层组件同时进化,缺一不可
只优化 prompt(如 GEPA)远远不够。系统提示词、子智能体、技能库、记忆必须同时被诊断和修复——这是 full harness state editing,不是 prompt tuning。
4. 开源模型也能参与,但需要教师
Gemma-4 还不能同时扮演 agent 和 teacher 两个角色。共学习需要前沿模型做教师重新标注。但随着开源模型能力提升,"自给自足"的闭环终将到来。
意义:从"搭脚手架"到"AI 自己搭脚手架"
AI 自主性的终极瓶颈,从来不是模型本身,而是模型运行的环境。人类给 AI 的每一项工具、每一段 prompt、每一个工作流,都是在为它搭建脚手架。但脚手架的维护成本越来越高,复杂系统的 harness 可能达到数万字提示词和几十个并行子智能体。
Continual Harness 展示了一条出路:从最小接口出发,让 AI 在运行过程中自己诊断缺陷、自己编写补丁、自己积累技能。 这不仅适用于游戏——任何长时程、部分可观测、需要复杂工具链的自主任务(机器人操作、科学实验、软件维护)都能受益。
更深层的问题是:如果 AI 能自己改进自己的运行环境,它改进的速度会不会超过人类理解和控制的速度?论文没有回答这个问题,但把问题推到了下一个路口。
参考
- 论文:https://arxiv.org/abs/2605.09998
- 项目页:https://sethkarten.ai/continual-harness
- 前作:Gemini Plays Pokémon(GPP)
#AI #Agent #自我改进 #宝可梦 #具身智能 #Prompt优化 #DeepMind #普林斯顿 #自动化 #持续学习
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。