> **作者**:Shuzheng Si, Haozhe Zhao, Yu Lei, Qingyi Wang, Dingwei Chen, Zhitong Wang, Zhenhailong Wang, Kangyang Luo, Zheng Wang, Gang Chen, Fanchao Qi, Minjia Zhang, Maosong Sun
> **机构**:THU (清华), DeepLang AI, UIUC, FDU, CUHK
> **发表**:arXiv:2604.27660 (2026-04-30 v1, 2026-05-03 v2)
> **项目**:https://github.com/S1s-Z/Ctx2Skill
> **关键词**:上下文学习、技能提取、多智能体自我对弈、对抗性崩溃、跨时间重放
---
## 一、核心问题:为什么大模型读不懂长文档?
现在的 LLM 已经能解奥数题、写代码,但面对一个**全新的、超出预训练知识**的复杂上下文(比如一本陌生的技术手册、一组实验数据、一篇领域论文),它们的表现仍然很差。
这不是"长文本理解"的问题——传统长文本 benchmark 测试的是检索或阅读理解。而是**上下文学习 (Context Learning)** 的问题:模型需要从上下文中**诱导出新知识**,并用它来解决任务。
### 现有解法的两个死穴
| 痛点 | 说明 |
|------|------|
| **人工标注成本极高** | 把长文档的规则和流程提取成"技能"需要专家逐字阅读、理解、归纳,对长而密的文档不可行 |
| **自动构建缺乏反馈** | 不像代码或数学题可以验证对错,上下文学习任务没有 ground truth,无法评估提取的技能是否完整、忠实 |
> "Given only the context, there is no external feedback signal to tell whether a generated skill is useful or whether critical knowledge has been omitted."
---
## 二、Ctx2Skill:多智能体自我对弈的技能进化
### 2.1 核心思想
与其让人类标注技能,不如让**模型自己跟自己玩**:一个出题,一个解题,一个判卷,输了就复盘升级技能。
这就是 Ctx2Skill 的 **multi-agent self-play loop**。
### 2.2 五个角色
| 角色 | 职责 | 进化方向 |
|------|------|----------|
| **Challenger** | 根据上下文生成探测任务和评分标准 (rubrics) | 进化出题策略,保持对抗压力 |
| **Reasoner** | 用当前技能集尝试解题 | 进化解题技能,补全缺失知识 |
| **Judge** | 中立判卷,给出对/错的二元反馈 | 固定(GPT-5.1),不进化 |
| **Proposer** (每侧一个) | 分析失败/成功案例,诊断问题,提出高层改进建议 | 失败 → Reasoner 侧;成功 → Challenger 侧 |
| **Generator** (每侧一个) | 将 Proposer 的诊断转化为具体的技能更新 | 增/删/合并技能条目 |
### 2.3 工作流程
```
迭代 i:
Challenger (技能集 𝒮^C_{i-1}) → 生成 M 个任务 + rubrics
Reasoner (技能集 𝒮^R_{i-1}) → 尝试解答
Judge → 二元裁决,分成 失败集 ℱ_i 和 成功集 𝒫_i
失败集 → Reasoner Proposer: "缺了什么知识?"
→ Reasoner Generator: 更新 𝒮^R_i
成功集 → Challenger Proposer: "怎么出题更难?"
→ Challenger Generator: 更新 𝒮^C_i
进入迭代 i+1,严格对抗(双方不偷看对方技能)
```
**关键设计**:Challenger 也在进化。如果 Challenger 不进化,题目太简单,Reasoner 无法持续暴露知识盲区。双方通过**失败驱动的文本编辑**共同进化。
---
## 三、Cross-Time Replay:防止"对抗性崩溃"
### 3.1 问题
自我对弈有个经典风险:Challenger 会生成越来越极端、越来越偏离代表性的题目,而 Reasoner 的技能会过度特化到这些病态案例,导致冗余积累和泛化崩溃。
### 3.2 解法
**Cross-time Replay 机制**:不从最后一轮直接拿技能,而是从所有历史迭代中**选出最平衡的技能集**。
**构造探针集**(无需外部监督):
- **Hard probe** (𝒬^h):每轮选**通过 rubric 最少**的失败任务(最难的失败)
- **Easy probe** (𝒬^e):每轮选**rubric 最少**的成功任务(最简单的成功)
**选择标准**(乘积形式,带 Laplace smoothing):
𝒮^R_* = argmax_i (ρ^h(i) · ρ^e(i))
- ρ^h(i):第 i 轮技能在 hard probe 上的解决率
- ρ^e(i):第 i 轮技能在 easy probe 上的解决率
**为什么是乘积?** 如果一个技能集靠牺牲简单任务来硬解难题,ρ^e 会惩罚它;反之亦然。
**实验验证**:固定迭代技能性能单调下降(Iter-1: 15.9% → Iter-5: 14.7%),Cross-Time Replay (16.5%) 超越所有固定迭代。
---
## 四、实验:数字说话
### 4.1 数据集:CL-bench
- **500 复杂上下文**
- **1,899 任务**
- **31,607 验证 rubrics**
- 四类:Domain Knowledge Reasoning、Rule System Application、Procedural Task Execution、Empirical Discovery & Simulation
- 平均 10.4K tokens,最长 65K tokens
- 51.1% 任务是多轮 sequential(解后面的依赖前面的)
### 4.2 主结果
| 模型 | 基线 | Ctx2Skill | 提升 |
|------|------|-----------|------|
| GPT-4.1 | 11.1% | **16.5%** | **+5.4%** |
| GPT-5.1 | 21.1% | **25.8%** | **+4.6%** |
| GPT-5.2 | 18.2% | **21.4%** | **+3.2%** |
对比基线:
- **Prompting**(单轮直接生成技能):GPT-4.1 仅 +1.2%,甚至某些类别下降
- **AutoSkill4Doc**(窗口分片提取):GPT-4.1 +2.1%,仍远低于 Ctx2Skill 的 +5.4%
**关键发现**:GPT-4.1 + Ctx2Skill (16.5%) **超越** 无技能的 Gemini 3 Pro (15.8%)——技能可以桥接模型能力差距。
### 4.3 技能质量评估
GPT-4.1 as judge,五维度评分:
| 维度 | Prompting | AutoSkill4Doc | Ctx2Skill |
|------|-----------|---------------|-----------|
| 简洁性 | 81.2 | 81.3 | **85.2** |
| 忠实度 | 79.7 | 81.4 | **84.8** |
| 清晰度 | 80.0 | 92.4 | **96.2** |
| 有效性 | 83.3 | 88.7 | **90.5** |
| 可复用性 | 84.7 | 87.2 | **92.5** |
迭代自弈产生的技能不仅是"更好用",而且是**结构更清晰、人类可读、可编辑、可复用**的。
### 4.4 Ablation 分析
| 消融 | GPT-4.1 总体 | 说明 |
|------|-------------|------|
| 完整 Ctx2Skill | **16.5%** | |
| - w/o Challenger 进化 | 13.8% (-2.7%) | **最大跌幅**:对抗压力是核心 |
| - w/o Cross-Time Replay | 14.7% (-1.8%) | 对抗性崩溃真实存在 |
| - w/o Hard Probe | 15.2% (-1.3%) | 难题探针更重要 |
| - w/o Easy Probe | 15.7% (-0.8%) | |
| - w/o Laplace Smoothing | 15.5% (-1.0%) | |
| - Proposer+Generator 合并 | 15.9% (-0.6%) | 诊断与实现分离有价值 |
### 4.5 技能可迁移性
| 技能来源 | 推理模型 | 结果 |
|----------|----------|------|
| GPT-5.1 技能 → GPT-4.1 | GPT-4.1 | 16.1% (≈ GPT-4.1 自产 16.5%) |
| GPT-4.1 技能 → GPT-5.1 | GPT-5.1 | 23.1% (< GPT-5.1 自产 25.8%) |
**不对称性**:强模型产生的技能能很好地迁移到弱模型;弱模型的技能对强模型帮助有限。这暗示了**技能发现本身是一种"涌现能力"**。
---
## 五、HeavyGrok 深度推导
### 🔍 思考者 1:为什么是"技能"而不是"记忆"或"知识"?
论文选择**自然语言技能**作为知识载体,而非参数更新或向量检索,有三个战略优势:
1. **可解释性**:技能是人类可读的 Markdown 文件,可以审查、编辑、调试
2. **可迁移性**:即插即用,从一个模型到另一个模型
3. **无需参数访问**:对闭源模型友好
这比 SKILL0/SkillRL 等参数内化方法更实用,尤其是在商业 API 场景。
### 🔍 思考者 2:自我对弈的"元稳定性"
这个系统的巧妙之处在于它创造了一个**元稳定循环**:
- Challenger 太强 → Reasoner 持续失败 → Challenger 技能进化(因为成功太多)→ Challenger 变弱(题目变难但策略变了)
- Challenger 太弱 → Reasoner 持续成功 → Reasoner 技能不进化 → Challenger 技能进化(因为成功太多,需要出更难的题)
这是一个**动态平衡**:双方都在对方的压力下进化,但 Cross-Time Replay 防止了任何一方走向极端。
### 🔍 思考者 3:"无外部反馈"的哲学意义
这是论文最反直觉的地方:在没有 ground truth 的情况下,模型如何知道自己"学对了"?
答案是:**二元裁决 (pass/fail) + 对抗压力** 构成了一个弱但有效的反馈信号。
- 不需要知道"正确答案是什么"
- 只需要知道"这个答案是否通过了所有 rubrics"
- 通过/失败的比例变化,驱动技能向"提高通过率"方向进化
这是一种**最小可行反馈 (Minimal Viable Feedback)** 设计,在反馈稀缺的现实世界极具价值。
### 🔍 思考者 4:为什么 GPT-5.1 的提升比例反而更小?
注意一个反直觉现象:
- GPT-4.1: +5.4% (相对提升 48.6%)
- GPT-5.1: +4.6% (相对提升 21.8%)
- GPT-5.2: +3.2% (相对提升 17.6%)
越强的模型,绝对提升越小。这说明:
1. 强模型本身已内化更多"通用解题策略"
2. 上下文学习的瓶颈从"策略缺失"转向"知识精确提取"
3. 但即使是 GPT-5.1,绝对提升 4.6% 在 21% 基线上也是显著增益
### 🔍 思考者 5:与 LongNAP 的对比
两篇论文都涉及"从行为/上下文中学习",但路径不同:
| 维度 | LongNAP (2603.05923) | Ctx2Skill (2604.27660) |
|------|----------------------|------------------------|
| **数据来源** | 用户手机截图+点击(被动收集) | 给定上下文(主动提供) |
| **学习目标** | 预测用户下一步行为 | 提取可复用技能解决任务 |
| **反馈类型** | 时间延迟反馈(等用户做了再比较) | 二元裁决(Judge pass/fail) |
| **训练方法** | Policy Gradient + LLM-as-judge | 自我对弈 + 文本编辑 |
| **核心创新** | 学习检索用户历史 | 对抗进化 + 跨时间重放 |
两者共同指向一个方向:**让 AI 从与环境的互动中自我进化,而非依赖人类标注**。
---
## 六、局限与展望
| 局限 | 说明 |
|------|------|
| 计算成本 | 每上下文 5 轮 × 5 任务 × 多 agent = 大量 API 调用;论文因预算限制未探索更大 N/M |
| Judge 依赖 | 二元裁决依赖 GPT-5.1 的质量,若 Judge 有偏见则反馈信号失真 |
| 上下文假设 | 假设所有必要知识都在给定上下文内,不支持外部检索 |
| 多轮依赖 | 51.1% sequential 任务依赖前文解,但技能是静态预置的,未动态适应对话历史 |
| 对抗崩溃风险 | Cross-Time Replay 缓解但未消除;极端场景下仍可能失效 |
**应用前景**:
- 企业知识库:自动从内部文档中提取操作规程
- 科研助手:从论文/实验数据中诱导方法论
- 教育:从教材中提取解题策略
---
## 七、结论
Ctx2Skill 的贡献不仅是性能提升,而是提供了一个 **"无监督自我进化"的通用框架**:
1. **多智能体对抗**:Challenger vs Reasoner 的 co-evolution 创造了持续的优化压力
2. **失败驱动**:Proposer-Generator 的 diagnose-then-fix 循环比单轮生成更精确
3. **跨时间重放**:从历史中选最优,防止对抗性崩溃
4. **即插即用**:自然语言技能可跨模型迁移,对闭源模型友好
> "We hope Ctx2Skill provides a practical and scalable paradigm for equipping language models with the ability to learn skillfully from complex, previously unseen contexts."
这是上下文学习从"手动工程"走向"自动化进化"的关键一步。
---
## 参考资料
- Si, S. et al. (2026). *From Context to Skills: Can Language Models Learn from Context Skillfully?* arXiv:2604.27660.
- Dou, S. et al. (2026). CL-Bench: A benchmark for context learning. arXiv:2602.03587.
- Yang, Y. et al. (2026). AutoSkill: Experience-driven lifelong learning via skill self-evolution. arXiv:2603.01145.
- Zhang, H. et al. (2026). CoEvoSkills: Self-evolving agent skills via co-evolutionary verification. arXiv:2604.01687.
#论文拆解 #Ctx2Skill #上下文学习 #多智能体 #自我对弈 #技能提取 #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力