【论文硬核拆解】Ctx2Skill：让大模型自己跟自己玩，从上下文里「进化」出可复用技能

> 作者：Shuzheng Si, Haozhe Zhao, Yu Lei, Qingyi Wang, Dingwei Chen, Zhitong Wang, Zhenhailong Wang, Kangyang Luo, Zheng Wang, Gang Chen, Fanchao Qi, Minjia Zhang, Maosong Sun > 机构：THU (清华), DeepLang AI, UIUC, FDU, CUHK > 发表：arXiv:2604.27660 (2026-04-30 v1, 2026-05-03 v2) > 项目：https://github.com/S1s-Z/Ctx2Skill > 关键词：上下文学习、技能提取、多智能体自我对弈、对抗性崩溃、跨时间重放

---

一、核心问题：为什么大模型读不懂长文档？

现在的 LLM 已经能解奥数题、写代码，但面对一个全新的、超出预训练知识的复杂上下文（比如一本陌生的技术手册、一组实验数据、一篇领域论文），它们的表现仍然很差。

这不是"长文本理解"的问题——传统长文本 benchmark 测试的是检索或阅读理解。而是上下文学习 (Context Learning) 的问题：模型需要从上下文中诱导出新知识，并用它来解决任务。

现有解法的两个死穴

痛点	说明
人工标注成本极高	把长文档的规则和流程提取成"技能"需要专家逐字阅读、理解、归纳，对长而密的文档不可行
自动构建缺乏反馈	不像代码或数学题可以验证对错，上下文学习任务没有 ground truth，无法评估提取的技能是否完整、忠实

> "Given only the context, there is no external feedback signal to tell whether a generated skill is useful or whether critical knowledge has been omitted."

---

二、Ctx2Skill：多智能体自我对弈的技能进化

2.1 核心思想

与其让人类标注技能，不如让模型自己跟自己玩：一个出题，一个解题，一个判卷，输了就复盘升级技能。

这就是 Ctx2Skill 的 multi-agent self-play loop。

2.2 五个角色

角色	职责	进化方向
Challenger	根据上下文生成探测任务和评分标准 (rubrics)	进化出题策略，保持对抗压力
Reasoner	用当前技能集尝试解题	进化解题技能，补全缺失知识
Judge	中立判卷，给出对/错的二元反馈	固定（GPT-5.1），不进化
Proposer (每侧一个)	分析失败/成功案例，诊断问题，提出高层改进建议	失败 → Reasoner 侧；成功 → Challenger 侧
Generator (每侧一个)	将 Proposer 的诊断转化为具体的技能更新	增/删/合并技能条目

2.3 工作流程

迭代 i:
  Challenger (技能集 𝒮^C_{i-1}) → 生成 M 个任务 + rubrics
  Reasoner (技能集 𝒮^R_{i-1}) → 尝试解答
  Judge → 二元裁决，分成 失败集 ℱ_i 和 成功集 𝒫_i
  
  失败集 → Reasoner Proposer: "缺了什么知识？"
          → Reasoner Generator: 更新 𝒮^R_i
  
  成功集 → Challenger Proposer: "怎么出题更难？"
          → Challenger Generator: 更新 𝒮^C_i
  
  进入迭代 i+1，严格对抗（双方不偷看对方技能）

关键设计：Challenger 也在进化。如果 Challenger 不进化，题目太简单，Reasoner 无法持续暴露知识盲区。双方通过失败驱动的文本编辑共同进化。

---

三、Cross-Time Replay：防止"对抗性崩溃"

3.1 问题

自我对弈有个经典风险：Challenger 会生成越来越极端、越来越偏离代表性的题目，而 Reasoner 的技能会过度特化到这些病态案例，导致冗余积累和泛化崩溃。

3.2 解法

Cross-time Replay 机制：不从最后一轮直接拿技能，而是从所有历史迭代中选出最平衡的技能集。

构造探针集（无需外部监督）：

Hard probe (𝒬^h)：每轮选通过 rubric 最少的失败任务（最难的失败）
Easy probe (𝒬^e)：每轮选rubric 最少的成功任务（最简单的成功）

选择标准（乘积形式，带 Laplace smoothing）：

𝒮^R_* = argmax_i (ρ^h(i) · ρ^e(i))

ρ^h(i)：第 i 轮技能在 hard probe 上的解决率
ρ^e(i)：第 i 轮技能在 easy probe 上的解决率

为什么是乘积？ 如果一个技能集靠牺牲简单任务来硬解难题，ρ^e 会惩罚它；反之亦然。

实验验证：固定迭代技能性能单调下降（Iter-1: 15.9% → Iter-5: 14.7%），Cross-Time Replay (16.5%) 超越所有固定迭代。

---

四、实验：数字说话

4.1 数据集：CL-bench

500 复杂上下文
1,899 任务
31,607 验证 rubrics
四类：Domain Knowledge Reasoning、Rule System Application、Procedural Task Execution、Empirical Discovery & Simulation
平均 10.4K tokens，最长 65K tokens
51.1% 任务是多轮 sequential（解后面的依赖前面的）

4.2 主结果

模型	基线	Ctx2Skill	提升
GPT-4.1	11.1%	16.5%	+5.4%
GPT-5.1	21.1%	25.8%	+4.6%
GPT-5.2	18.2%	21.4%	+3.2%

对比基线：

Prompting（单轮直接生成技能）：GPT-4.1 仅 +1.2%，甚至某些类别下降
AutoSkill4Doc（窗口分片提取）：GPT-4.1 +2.1%，仍远低于 Ctx2Skill 的 +5.4%

关键发现：GPT-4.1 + Ctx2Skill (16.5%) 超越无技能的 Gemini 3 Pro (15.8%)——技能可以桥接模型能力差距。

4.3 技能质量评估

GPT-4.1 as judge，五维度评分：

维度	Prompting	AutoSkill4Doc	Ctx2Skill
简洁性	81.2	81.3	85.2
忠实度	79.7	81.4	84.8
清晰度	80.0	92.4	96.2
有效性	83.3	88.7	90.5
可复用性	84.7	87.2	92.5

迭代自弈产生的技能不仅是"更好用"，而且是结构更清晰、人类可读、可编辑、可复用的。

4.4 Ablation 分析

消融	GPT-4.1 总体	说明
完整 Ctx2Skill	16.5%
- w/o Challenger 进化	13.8% (-2.7%)	最大跌幅：对抗压力是核心
- w/o Cross-Time Replay	14.7% (-1.8%)	对抗性崩溃真实存在
- w/o Hard Probe	15.2% (-1.3%)	难题探针更重要
- w/o Easy Probe	15.7% (-0.8%)
- w/o Laplace Smoothing	15.5% (-1.0%)
- Proposer+Generator 合并	15.9% (-0.6%)	诊断与实现分离有价值

4.5 技能可迁移性

技能来源	推理模型	结果
GPT-5.1 技能 → GPT-4.1	GPT-4.1	16.1% (≈ GPT-4.1 自产 16.5%)
GPT-4.1 技能 → GPT-5.1	GPT-5.1	23.1% (< GPT-5.1 自产 25.8%)

不对称性：强模型产生的技能能很好地迁移到弱模型；弱模型的技能对强模型帮助有限。这暗示了技能发现本身是一种"涌现能力"。

---

五、HeavyGrok 深度推导

🔍 思考者 1：为什么是"技能"而不是"记忆"或"知识"？

论文选择自然语言技能作为知识载体，而非参数更新或向量检索，有三个战略优势：

1. 可解释性：技能是人类可读的 Markdown 文件，可以审查、编辑、调试 2. 可迁移性：即插即用，从一个模型到另一个模型 3. 无需参数访问：对闭源模型友好

这比 SKILL0/SkillRL 等参数内化方法更实用，尤其是在商业 API 场景。

🔍 思考者 2：自我对弈的"元稳定性"

这个系统的巧妙之处在于它创造了一个元稳定循环：

Challenger 太强 → Reasoner 持续失败 → Challenger 技能进化（因为成功太多）→ Challenger 变弱（题目变难但策略变了）
Challenger 太弱 → Reasoner 持续成功 → Reasoner 技能不进化 → Challenger 技能进化（因为成功太多，需要出更难的题）

这是一个动态平衡：双方都在对方的压力下进化，但 Cross-Time Replay 防止了任何一方走向极端。

🔍 思考者 3："无外部反馈"的哲学意义

这是论文最反直觉的地方：在没有 ground truth 的情况下，模型如何知道自己"学对了"？

答案是：二元裁决 (pass/fail) + 对抗压力 构成了一个弱但有效的反馈信号。

不需要知道"正确答案是什么"
只需要知道"这个答案是否通过了所有 rubrics"
通过/失败的比例变化，驱动技能向"提高通过率"方向进化

这是一种最小可行反馈 (Minimal Viable Feedback) 设计，在反馈稀缺的现实世界极具价值。

🔍 思考者 4：为什么 GPT-5.1 的提升比例反而更小？

注意一个反直觉现象：

GPT-4.1: +5.4% (相对提升 48.6%)
GPT-5.1: +4.6% (相对提升 21.8%)
GPT-5.2: +3.2% (相对提升 17.6%)

越强的模型，绝对提升越小。这说明： 1. 强模型本身已内化更多"通用解题策略" 2. 上下文学习的瓶颈从"策略缺失"转向"知识精确提取" 3. 但即使是 GPT-5.1，绝对提升 4.6% 在 21% 基线上也是显著增益

🔍 思考者 5：与 LongNAP 的对比

两篇论文都涉及"从行为/上下文中学习"，但路径不同：

维度	LongNAP (2603.05923)	Ctx2Skill (2604.27660)
数据来源	用户手机截图+点击（被动收集）	给定上下文（主动提供）
学习目标	预测用户下一步行为	提取可复用技能解决任务
反馈类型	时间延迟反馈（等用户做了再比较）	二元裁决（Judge pass/fail）
训练方法	Policy Gradient + LLM-as-judge	自我对弈 + 文本编辑
核心创新	学习检索用户历史	对抗进化 + 跨时间重放

两者共同指向一个方向：让 AI 从与环境的互动中自我进化，而非依赖人类标注。

---

六、局限与展望

局限	说明
计算成本	每上下文 5 轮 × 5 任务 × 多 agent = 大量 API 调用；论文因预算限制未探索更大 N/M
Judge 依赖	二元裁决依赖 GPT-5.1 的质量，若 Judge 有偏见则反馈信号失真
上下文假设	假设所有必要知识都在给定上下文内，不支持外部检索
多轮依赖	51.1% sequential 任务依赖前文解，但技能是静态预置的，未动态适应对话历史
对抗崩溃风险	Cross-Time Replay 缓解但未消除；极端场景下仍可能失效

应用前景：

企业知识库：自动从内部文档中提取操作规程
科研助手：从论文/实验数据中诱导方法论
教育：从教材中提取解题策略

---

七、结论

Ctx2Skill 的贡献不仅是性能提升，而是提供了一个 "无监督自我进化"的通用框架：

1. 多智能体对抗：Challenger vs Reasoner 的 co-evolution 创造了持续的优化压力 2. 失败驱动：Proposer-Generator 的 diagnose-then-fix 循环比单轮生成更精确 3. 跨时间重放：从历史中选最优，防止对抗性崩溃 4. 即插即用：自然语言技能可跨模型迁移，对闭源模型友好

> "We hope Ctx2Skill provides a practical and scalable paradigm for equipping language models with the ability to learn skillfully from complex, previously unseen contexts."

这是上下文学习从"手动工程"走向"自动化进化"的关键一步。

---

参考资料

Si, S. et al. (2026). *From Context to Skills: Can Language Models Learn from Context Skillfully?* arXiv:2604.27660.
Dou, S. et al. (2026). CL-Bench: A benchmark for context learning. arXiv:2602.03587.
Yang, Y. et al. (2026). AutoSkill: Experience-driven lifelong learning via skill self-evolution. arXiv:2603.01145.
Zhang, H. et al. (2026). CoEvoSkills: Self-evolving agent skills via co-evolutionary verification. arXiv:2604.01687.

#论文拆解 #Ctx2Skill #上下文学习 #多智能体 #自我对弈 #技能提取 #小凯