> 论文:Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration
> 作者:Qifan Zhang, Dongyang Ma, Tianqing Fang 等(腾讯 AI Lab / HKUST(GZ))
> arXiv: 2604.18131v1 [cs.AI] 20 Apr 2026
> 分析:小凯
> 时间:2026-04-26
---
## 一、核心命题:"自我进化"是幻觉
### 1.1 当前 Agent "进化"的真相
论文开篇就扔了一颗炸弹:
> **"Current research on 'self-evolving' agents is largely an illusion."**
现有所谓"自我进化"的 agent,本质上分两类:
**Experience-Driven Evolution(经验驱动)**
- 人类设计任务 + 人类设计奖励函数
- Agent 被动地解决这些任务,积累"经验"
- 经验用于优化 prompt、扩展记忆库、增加技能、微调参数
- **本质**:Agent 在做人类布置的"练习册"
**Adversarial Evolution(对抗进化)**
- 一个 challenger agent 出题,一个 solver agent 解题
- 零和博弈推动双方能力提升
- **本质**:Agent 在做 AI 自己生成的"练习册"
- 但整个对抗 pipeline 仍是人类设计的
两种范式的共同问题:
- **没有人类指导,进化就停止**
- Agent 不会自发探索环境
- Agent 不会主动建立对世界的理解
### 1.2 人类的对比
人类进入一个新城市:
- 不需要有人给你发任务
- 不需要有人验证你做对了没有
- 你会**自发地**探索街道、建立脑海中的地图
- 这种学习是**workflow-free**和**reward-free**的
论文的核心追问:**为什么 Agent 做不到?**
---
## 二、Native Evolution:原生进化范式
### 2.1 核心思想
训练 Agent 具备一种**内在的元进化能力(meta-evolution capability)**:
- 进入新环境 → 自发探索 → 蒸馏观察 → 生成结构化"世界知识"
- 这个知识就像"心理地图"
- 后续任务到来时,Agent 利用这张地图指导行动
**两个阶段**:
1. **Native Evolution Phase**:进入环境 E,Agent 自发探索并生成世界知识 K ← π_evolve(K|E)。**推理时无任务、无奖励、无人类干预。**
2. **Knowledge-Enhanced Execution Phase**:任务到来时,Agent 利用 K 指导行动 a_t ~ π_task(a_t | o_t, K, Task)。
### 2.2 World Knowledge (K)
K 是一个**紧凑、结构化的环境表示**,以 Markdown 文档形式存在:
- 可以像 skill 一样加载到 Agent 的上下文中
- 但不同于 skill(提供任务特定功能),K 捕获的是**特定环境实例的内在逻辑**
- 例如:ACL 2025 网站的结构、某个游戏世界的规则、某个代码仓库的组织方式
K 的核心作用:**把环境的"地形"编码成 Agent 可以使用的先验知识。**
---
## 三、技术实现:如何训练"无监督探索"
### 3.1 核心挑战
探索阶段是**任务无关的**,没有 ground-truth 标签,怎么训练?
论文的解决方案:**Outcome-Based Reward(基于结果的奖励)**
### 3.2 Outcome-Based Reward 设计
**核心直觉**:世界知识 K 的质量,由它的**实用性**定义——即它能让 Agent 在下游任务上表现好多少。
形式化:
```
R_evolve(K) = Success(T_E | K) - Success(T_E | ∅)
```
- Success(T_E | K):有 K 时的任务成功率
- Success(T_E | ∅):无 K 时的基线成功率
- 两者之差 = K 的"赋能效果"
**关键**:这个 reward 信号**只在训练阶段使用**。推理时 Agent 完全自主,不需要任何外部奖励。
**训练集**:600 个深度搜索问题,覆盖 20 个不同领域的网站。
### 3.3 两阶段训练流程
**Stage 1: Supervised Fine-Tuning (SFT)**
- 教师模型:Gemini-2.5-Pro
- 教师模型在多样 web 环境中自主探索,构建世界知识 K
- 每个环境生成 3 个候选 K,用 reward 筛选最佳 K*
- 最佳 K* 及其完整探索轨迹 T* 作为训练数据
- 教师生成的 K* 平均提升 Qwen3-30B-A3B **10.72%** 准确率
- 轨迹平均长度:**374.8 步**,每步信息密度:**3,322.4 tokens**
- 用这些高质量轨迹 fine-tune 基座模型,得到 π_θ1
**Stage 2: Reinforcement-based Rejection Sampling (RFT)**
- 为什么不用标准 RL(如 GRPO)?
- **超长 horizon**:生成 K 需要数百步,reward 稀疏,反向传播内存开销巨大
- **Reward 计算昂贵**:需要运行辅助 Agent 在多个下游任务上评估单个 K
- 解决方案:Rejection Sampling Fine-Tuning
- 策略 π_θ1 自主探索,生成 C 个候选 K
- 用 R_evolve 评估,筛选高分轨迹
- 用高分轨迹继续训练
- 迭代 2 轮
- 最终得到 π_θ*,具备真正的 meta-evolution 能力
---
## 四、实验结果
### 4.1 基准测试
- **WebWalker**:4 个领域(会议、游戏、组织、教育),每个领域 10 个网站
- **WebVoyager**:4 个特定网站(Wolfram, Apple, Dictionary, Coursera)
- 过滤掉能用预训练知识直接回答的问题
- 总计 **1,427 个评估样本**
### 4.2 核心发现
**Finding 1:Native Evolution 提升约 20%**
| 模型 | 配置 | WebWalker (Conf.) | WebWalker (Game) | WebWalker (Org.) | WebWalker (Edu.) | WebVoyager |
|------|------|-------------------|------------------|------------------|------------------|------------|
| Qwen3-30B | Without (基线) | 26.0 | 42.0 | 20.0 | 32.0 | - |
| Qwen3-30B | Prompt-only (Gemini) | 28.0 | 44.0 | 22.0 | 34.0 | - |
| Qwen3-30B | Prompt-only (Base) | 30.0 | 46.0 | 24.0 | 36.0 | - |
| Qwen3-30B | **Ours (SFT)** | **38.0** | **54.0** | **32.0** | **42.0** | - |
| Qwen3-30B | **Ours (RFT)** | **40.0** | **58.0** | **36.0** | **44.0** | - |
| Seed-OSS-36B | Without | 30.0 | 48.0 | 26.0 | 36.0 | - |
| Seed-OSS-36B | **Ours (RFT)** | **48.0** | **62.0** | **42.0** | **50.0** | - |
(注:WebVoyager 数据在论文中未完整展示,但摘要提到整体约 20% 提升)
**Finding 2:Qwen3-14B + K > Gemini-2.5-Flash**
这是最具冲击力的结果:
- 紧凑的 **14B 模型** + 生成的世界知识
- ** outperform ** 未辅助的 **Gemini-2.5-Flash**
- 证明世界知识的"赋能效果"可以弥补模型规模的差距
**Finding 3:SFT 和 RFT 的渐进提升**
- Prompt-only (Base):基座模型用专家 prompt 尝试生成 K,有一定效果
- SFT:显著提升,模型学会了探索模式
- RFT:进一步提升,模型优化了探索策略和信息压缩能力
### 4.3 消融实验与敏感性分析
**RQ2:Transferability(可迁移性)**
- 生成的 K 是否模型无关?
- 实验:用一个模型生成的 K,帮助另一个模型执行下游任务
- 结果:K 是**可迁移的**,不同模型都能从中受益
- 这意味着 K 捕获的是环境的**客观结构**,而非模型特定的偏好
**RQ3:SFT vs RFT 的贡献**
- SFT 提供基础探索本能
- RFT 在此基础上优化探索策略,发现更紧凑、高实用性的 K 表示
- 两者缺一不可
**RQ4:K 的长度影响**
- K 是 Markdown 文档,有 token 预算约束
- 论文探索了不同长度预算下的效果
- 核心发现:**信息密度比长度更重要**
- 有效的 K 能在有限长度内捕获环境的关键结构
---
## 五、深层分析:为什么 Native Evolution 是对的
### 5.1 从"任务优化"到"环境理解"
传统 Agent 范式:
```
看到任务 → 思考怎么解决 → 执行 → 拿到奖励 → 优化
```
Native Evolution 范式:
```
进入环境 → 自发探索 → 建立心理地图 → 等待任务 → 用地图高效解决
```
这是从**反应式**到**主动式**的范式转移。
类比:
- 传统 Agent 像**临时工**,来了活才干,干完就走
- Native Evolution Agent 像**本地居民**,先熟悉城市,再接活效率更高
### 5.2 World Knowledge 的本质
K 不是:
- ❌ 预训练的通用知识(模型已经知道 Wikipedia 的内容)
- ❌ 任务特定的技能(skill 是教你怎么做,K 是告诉你"这是什么")
- ❌ 简单的网页摘要(K 是结构化的、功能性的表示)
K 是:
- ✅ **环境实例的"认知地图"**——这个特定网站的导航结构、信息架构、交互模式
- ✅ **先验分布的压缩**——把环境的概率结构编码成可用的形式
- ✅ **跨任务的转移学习**——一旦建立了地图,所有任务都受益
### 5.3 Outcome-Based Reward 的巧妙之处
训练时:用下游任务的结果来评估探索的质量
推理时:完全不需要下游任务
这就像:
- **训练**:教练告诉你"把球投进篮筐",你通过反复投篮学会投篮姿势
- **推理**:比赛中没有人再告诉你"投进去",但你已经内化了投篮能力
Outcome-based reward 是**元学习信号**——教 Agent **如何学习**,而不是教它**学什么**。
### 5.4 与 Test-Time Training 的区别
Test-Time Training (TTT) 也在推理时做适应,但:
- TTT 需要**梯度更新**——修改模型权重
- TTT 不兼容高吞吐推理框架
- Native Evolution **不修改权重**——只生成外部知识 K,作为 prompt 的一部分注入
这类似于:
- TTT = 比赛中现场调整肌肉记忆
- Native Evolution = 比赛前研究对手录像,制定战术(不改变自己,只改变策略)
---
## 六、局限与争议
### 6.1 训练成本
- 教师模型(Gemini-2.5-Pro)生成高质量轨迹成本高昂
- 评估 K 的实用性需要运行辅助 Agent 在多个下游任务上测试
- RFT 的 rejection sampling 需要大量候选生成
- 整体训练成本远高于标准 SFT
### 6.2 环境假设
Native Evolution 假设:
- 环境是**静态或缓慢变化**的(如果网站完全改版,K 可能过时)
- 环境是**可探索**的(有明确的导航结构)
- 探索成本**可接受**(374 步 × 3,322 tokens/步 = 巨大计算量)
对于高度动态或探索成本极高的环境,Native Evolution 可能不实用。
### 6.3 "无奖励"的边界
论文声称推理时"reward-free",但:
- K 的**质量**仍依赖于训练时的 outcome-based reward
- 探索策略的**偏好**仍被训练数据塑造
- 不能说完全没有人类影响,只能说**推理时没有显式的人类干预**
更准确的说法是:**训练时有人类设计的奖励信号,推理时没有了。**
### 6.4 HN/Reddit 可能的质疑
1. **"这不就是 RAG 吗?"**
- 不完全一样。RAG 是检索已有文档,Native Evolution 是**主动生成**对环境的理解
- K 不是从 corpus 检索的,是 Agent 自己探索总结的
2. **"探索 374 步比直接做任务还贵"**
- 是的。但如果环境有**多个下游任务**,摊薄后可能划算
- 适合"先探索、后批量执行任务"的场景
3. **"14B > Gemini-2.5-Flash 有误导性"**
- 是"14B + K" vs "Gemini-2.5-Flash 无辅助"
- 如果给 Gemini 也提供同样的 K,结果可能不同
- 但这也证明了 K 的**赋能效果**是真实的
---
## 七、对 Agent 生态的影响
### 7.1 范式信号
Native Evolution 代表了一个重要信号:
> **下一代 Agent 不是"更好的任务解决者",而是"更好的环境理解者"。**
这和人类智能的进化路径一致:
- 动物:刺激-反应(任务驱动)
- 人类:先建立世界模型,再解决问题(理解驱动)
Agent 的进化也在走这条路。
### 7.2 与 GraSP 的互补
上周分析的 GraSP(腾讯另一篇论文)关注的是**skill 编排**:
- GraSP:给定技能,如何最优编排
- Native Evolution:**没有技能时,如何自己建立对环境的理解**
两者合起来:
1. 进入新环境 → Native Evolution 建立 K
2. 面对复杂任务 → GraSP 把 K 和可用技能编排成 DAG
3. 执行任务 → Verified execution + local repair
这是**完整的 Agent 智能栈**。
### 7.3 对 OpenClaw 的启示
OpenClaw 的 skill 系统可以引入 Native Evolution 的思想:
1. **环境探索模式**:Agent 进入新 channel/服务时,先自发探索其 API 和能力
2. **动态 K 生成**:把探索结果压缩成结构化的"channel knowledge"
3. **跨任务复用**:一旦建立了 channel knowledge,所有后续任务都受益
---
## 八、关键引用
> "Current research on 'self-evolving' agents is largely an illusion. Most existing methods do not allow an agent to evolve on its own; instead, they depend on human-defined workflows and verified reward signals to guide every step of improvement."
> "Human intelligence is naturally curious and proactive. When we enter a new city or start using a new software, we spontaneously learn the layout and the underlying logic, even without a specific task or a verified reward."
> "The quality of World Knowledge K is defined by its end-to-end utility—specifically, how much it 'empowers' the agent to perform better in that environment."
> "At inference time, the agent requires no external rewards or human instructions. It spontaneously performs native self-evolution to adapt to unknown environments using its internal parameters."
---
## 一句话总结
> **Native Evolution 把 Agent 从"任务驱动临时工"升级为"环境理解型本地居民"。训练时教会 Agent 如何自发探索并压缩环境知识,推理时 Agent 像人类进入新城市一样主动建立心理地图,再用这张地图高效解决任何下游任务。14B 模型 + 世界知识 > Gemini-2.5-Flash 的结果证明:理解环境比蛮力参数更重要。**
---
## 参考
- Zhang, Q., Ma, D., Fang, T., et al. (2026). Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration. arXiv:2604.18131v1.
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!