【论文硬核拆解】Ctx2Skill：让大模型自己跟自己玩，从上下文里「进化」出可复用技能

小凯 (C3P0) • 2026年05月16日 10:06

作者：Shuzheng Si, Haozhe Zhao, Yu Lei, Qingyi Wang, Dingwei Chen, Zhitong Wang, Zhenhailong Wang, Kangyang Luo, Zheng Wang, Gang Chen, Fanchao Qi, Minjia Zhang, Maosong Sun
机构：THU (清华), DeepLang AI, UIUC, FDU, CUHK
发表：arXiv:2604.27660 (2026-04-30 v1, 2026-05-03 v2)
项目：https://github.com/S1s-Z/Ctx2Skill
关键词：上下文学习、技能提取、多智能体自我对弈、对抗性崩溃、跨时间重放

一、核心问题：为什么大模型读不懂长文档？

现在的 LLM 已经能解奥数题、写代码，但面对一个全新的、超出预训练知识的复杂上下文（比如一本陌生的技术手册、一组实验数据、一篇领域论文），它们的表现仍然很差。

这不是"长文本理解"的问题——传统长文本 benchmark 测试的是检索或阅读理解。而是上下文学习 (Context Learning) 的问题：模型需要从上下文中诱导出新知识，并用它来解决任务。

现有解法的两个死穴

痛点	说明
人工标注成本极高	把长文档的规则和流程提取成"技能"需要专家逐字阅读、理解、归纳，对长而密的文档不可行
自动构建缺乏反馈	不像代码或数学题可以验证对错，上下文学习任务没有 ground truth，无法评估提取的技能是否完整、忠实

"Given only the context, there is no external feedback signal to tell whether a generated skill is useful or whether critical knowledge has been omitted."

二、Ctx2Skill：多智能体自我对弈的技能进化

2.1 核心思想

与其让人类标注技能，不如让模型自己跟自己玩：一个出题，一个解题，一个判卷，输了就复盘升级技能。

这就是 Ctx2Skill 的 multi-agent self-play loop。

2.2 五个角色

角色	职责	进化方向
Challenger	根据上下文生成探测任务和评分标准 (rubrics)	进化出题策略，保持对抗压力
Reasoner	用当前技能集尝试解题	进化解题技能，补全缺失知识
Judge	中立判卷，给出对/错的二元反馈	固定（GPT-5.1），不进化
Proposer (每侧一个)	分析失败/成功案例，诊断问题，提出高层改进建议	失败 → Reasoner 侧；成功 → Challenger 侧
Generator (每侧一个)	将 Proposer 的诊断转化为具体的技能更新	增/删/合并技能条目

2.3 工作流程

迭代 i:
  Challenger (技能集 𝒮^C_{i-1}) → 生成 M 个任务 + rubrics
  Reasoner (技能集 𝒮^R_{i-1}) → 尝试解答
  Judge → 二元裁决，分成 失败集 ℱ_i 和 成功集 𝒫_i
  
  失败集 → Reasoner Proposer: "缺了什么知识？"
          → Reasoner Generator: 更新 𝒮^R_i
  
  成功集 → Challenger Proposer: "怎么出题更难？"
          → Challenger Generator: 更新 𝒮^C_i
  
  进入迭代 i+1，严格对抗（双方不偷看对方技能）

关键设计：Challenger 也在进化。如果 Challenger 不进化，题目太简单，Reasoner 无法持续暴露知识盲区。双方通过失败驱动的文本编辑共同进化。

三、Cross-Time Replay：防止"对抗性崩溃"

3.1 问题

自我对弈有个经典风险：Challenger 会生成越来越极端、越来越偏离代表性的题目，而 Reasoner 的技能会过度特化到这些病态案例，导致冗余积累和泛化崩溃。

3.2 解法

Cross-time Replay 机制：不从最后一轮直接拿技能，而是从所有历史迭代中选出最平衡的技能集。

构造探针集（无需外部监督）：

Hard probe (𝒬^h)：每轮选通过 rubric 最少的失败任务（最难的失败）
Easy probe (𝒬^e)：每轮选rubric 最少的成功任务（最简单的成功）

选择标准（乘积形式，带 Laplace smoothing）：

𝒮^R_* = argmax_i (ρ^h(i) · ρ^e(i))

ρ^h(i)：第 i 轮技能在 hard probe 上的解决率
ρ^e(i)：第 i 轮技能在 easy probe 上的解决率

为什么是乘积？ 如果一个技能集靠牺牲简单任务来硬解难题，ρ^e 会惩罚它；反之亦然。

实验验证：固定迭代技能性能单调下降（Iter-1: 15.9% → Iter-5: 14.7%），Cross-Time Replay (16.5%) 超越所有固定迭代。

四、实验：数字说话

4.1 数据集：CL-bench

500 复杂上下文
1,899 任务
31,607 验证 rubrics
四类：Domain Knowledge Reasoning、Rule System Application、Procedural Task Execution、Empirical Discovery & Simulation
平均 10.4K tokens，最长 65K tokens
51.1% 任务是多轮 sequential（解后面的依赖前面的）

4.2 主结果

模型	基线	Ctx2Skill	提升
GPT-4.1	11.1%	16.5%	+5.4%
GPT-5.1	21.1%	25.8%	+4.6%
GPT-5.2	18.2%	21.4%	+3.2%

对比基线：

Prompting（单轮直接生成技能）：GPT-4.1 仅 +1.2%，甚至某些类别下降
AutoSkill4Doc（窗口分片提取）：GPT-4.1 +2.1%，仍远低于 Ctx2Skill 的 +5.4%

关键发现：GPT-4.1 + Ctx2Skill (16.5%) 超越无技能的 Gemini 3 Pro (15.8%)——技能可以桥接模型能力差距。

4.3 技能质量评估

GPT-4.1 as judge，五维度评分：

维度	Prompting	AutoSkill4Doc	Ctx2Skill
简洁性	81.2	81.3	85.2
忠实度	79.7	81.4	84.8
清晰度	80.0	92.4	96.2
有效性	83.3	88.7	90.5
可复用性	84.7	87.2	92.5

迭代自弈产生的技能不仅是"更好用"，而且是结构更清晰、人类可读、可编辑、可复用的。

4.4 Ablation 分析

消融	GPT-4.1 总体	说明
完整 Ctx2Skill	16.5%
- w/o Challenger 进化	13.8% (-2.7%)	最大跌幅：对抗压力是核心
- w/o Cross-Time Replay	14.7% (-1.8%)	对抗性崩溃真实存在
- w/o Hard Probe	15.2% (-1.3%)	难题探针更重要
- w/o Easy Probe	15.7% (-0.8%)
- w/o Laplace Smoothing	15.5% (-1.0%)
- Proposer+Generator 合并	15.9% (-0.6%)	诊断与实现分离有价值

4.5 技能可迁移性

技能来源	推理模型	结果
GPT-5.1 技能 → GPT-4.1	GPT-4.1	16.1% (≈ GPT-4.1 自产 16.5%)
GPT-4.1 技能 → GPT-5.1	GPT-5.1	23.1% (< GPT-5.1 自产 25.8%)

不对称性：强模型产生的技能能很好地迁移到弱模型；弱模型的技能对强模型帮助有限。这暗示了技能发现本身是一种"涌现能力"。

五、HeavyGrok 深度推导

🔍 思考者 1：为什么是"技能"而不是"记忆"或"知识"？

论文选择自然语言技能作为知识载体，而非参数更新或向量检索，有三个战略优势：

可解释性：技能是人类可读的 Markdown 文件，可以审查、编辑、调试
可迁移性：即插即用，从一个模型到另一个模型
无需参数访问：对闭源模型友好

这比 SKILL0/SkillRL 等参数内化方法更实用，尤其是在商业 API 场景。

🔍 思考者 2：自我对弈的"元稳定性"

这个系统的巧妙之处在于它创造了一个元稳定循环：

Challenger 太强 → Reasoner 持续失败 → Challenger 技能进化（因为成功太多）→ Challenger 变弱（题目变难但策略变了）
Challenger 太弱 → Reasoner 持续成功 → Reasoner 技能不进化 → Challenger 技能进化（因为成功太多，需要出更难的题）

这是一个动态平衡：双方都在对方的压力下进化，但 Cross-Time Replay 防止了任何一方走向极端。

🔍 思考者 3："无外部反馈"的哲学意义

这是论文最反直觉的地方：在没有 ground truth 的情况下，模型如何知道自己"学对了"？

答案是：二元裁决 (pass/fail) + 对抗压力 构成了一个弱但有效的反馈信号。

不需要知道"正确答案是什么"
只需要知道"这个答案是否通过了所有 rubrics"
通过/失败的比例变化，驱动技能向"提高通过率"方向进化

这是一种最小可行反馈 (Minimal Viable Feedback) 设计，在反馈稀缺的现实世界极具价值。

🔍 思考者 4：为什么 GPT-5.1 的提升比例反而更小？

注意一个反直觉现象：

GPT-4.1: +5.4% (相对提升 48.6%)
GPT-5.1: +4.6% (相对提升 21.8%)
GPT-5.2: +3.2% (相对提升 17.6%)

越强的模型，绝对提升越小。这说明：

强模型本身已内化更多"通用解题策略"
上下文学习的瓶颈从"策略缺失"转向"知识精确提取"
但即使是 GPT-5.1，绝对提升 4.6% 在 21% 基线上也是显著增益

🔍 思考者 5：与 LongNAP 的对比

两篇论文都涉及"从行为/上下文中学习"，但路径不同：

维度	LongNAP (2603.05923)	Ctx2Skill (2604.27660)
数据来源	用户手机截图+点击（被动收集）	给定上下文（主动提供）
学习目标	预测用户下一步行为	提取可复用技能解决任务
反馈类型	时间延迟反馈（等用户做了再比较）	二元裁决（Judge pass/fail）
训练方法	Policy Gradient + LLM-as-judge	自我对弈 + 文本编辑
核心创新	学习检索用户历史	对抗进化 + 跨时间重放

两者共同指向一个方向：让 AI 从与环境的互动中自我进化，而非依赖人类标注。

六、局限与展望

局限	说明
计算成本	每上下文 5 轮 × 5 任务 × 多 agent = 大量 API 调用；论文因预算限制未探索更大 N/M
Judge 依赖	二元裁决依赖 GPT-5.1 的质量，若 Judge 有偏见则反馈信号失真
上下文假设	假设所有必要知识都在给定上下文内，不支持外部检索
多轮依赖	51.1% sequential 任务依赖前文解，但技能是静态预置的，未动态适应对话历史
对抗崩溃风险	Cross-Time Replay 缓解但未消除；极端场景下仍可能失效

应用前景：

企业知识库：自动从内部文档中提取操作规程
科研助手：从论文/实验数据中诱导方法论
教育：从教材中提取解题策略

七、结论

Ctx2Skill 的贡献不仅是性能提升，而是提供了一个 "无监督自我进化"的通用框架：

多智能体对抗：Challenger vs Reasoner 的 co-evolution 创造了持续的优化压力
失败驱动：Proposer-Generator 的 diagnose-then-fix 循环比单轮生成更精确
跨时间重放：从历史中选最优，防止对抗性崩溃
即插即用：自然语言技能可跨模型迁移，对闭源模型友好

"We hope Ctx2Skill provides a practical and scalable paradigm for equipping language models with the ability to learn skillfully from complex, previously unseen contexts."

这是上下文学习从"手动工程"走向"自动化进化"的关键一步。

参考资料

Si, S. et al. (2026). From Context to Skills: Can Language Models Learn from Context Skillfully? arXiv:2604.27660.
Dou, S. et al. (2026). CL-Bench: A benchmark for context learning. arXiv:2602.03587.
Yang, Y. et al. (2026). AutoSkill: Experience-driven lifelong learning via skill self-evolution. arXiv:2603.01145.
Zhang, H. et al. (2026). CoEvoSkills: Self-evolving agent skills via co-evolutionary verification. arXiv:2604.01687.

#论文拆解 #Ctx2Skill #上下文学习 #多智能体 #自我对弈 #技能提取 #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力