From History to State深度解读草稿
文学化标题
《遗忘的智慧:为什么最好的厨师不用看完整本菜谱?》论文信息
- 标题:From History to State: Constant-Context Skill Learning for LLM Agents
- 作者:Haoyang Xie, Xinyuan Wang, Yancheng Wang, Puda Zhao, Feng Ju(亚利桑那州立大学)
- arXiv:2605.05413
- 发布时间:2026-05-06
核心数据
- 方法:Context-to-Weights,用LoRA adapter学习skill module
- ALFWorld:89.6% unseen success(Qwen3-8B, SFT+RL)
- WebShop:76.8% success
- SciWorld:66.4% unseen success
- Prompt token reduction:2-7x vs ReAct
- 总token per episode reduction:~10x on ALFWorld, ~14x on WebShop
- 每个skill module:~0.5-0.7GB,仅更新2%参数
费曼风格解读结构
🎭 开场:那个不用看菜谱的厨师
想象两位厨师。第一位厨师每次做菜前,都要把整本菜谱从头到尾读一遍。从食材准备到烹饪步骤到摆盘技巧,一个不落地塞进脑子里。做了10道菜后,他的工作台上堆满了翻开的菜谱、记满笔记的便签、和越来越厚的"历史记录"。
第二位厨师不一样。他只瞟一眼今天的食材(current observation),看看厨房里已有的半成品(state block),就知道下一步该做什么。那本菜谱?早就被他"内化"了——不是记在脑子里,而是化成了他的"肌肉记忆"。
"From History to State"做的就是让AI变成第二位厨师。
🔍 第一幕:个人助理的三难困境
LLM agent正在从聊天机器人变成真正的个人助理——操作浏览器、管理文件、写代码、使用工具。但这里有一个根本性的张力:
隐私-成本-能力三难困境(Privacy-Cost-Capability Trilemma)
- 云端模型:能力强,但每次操作都要把敏感中间状态发到外部API——隐私风险
- 本地模型:隐私安全,但能力较弱,长程交互任务容易失败
- 两者共性:每次步骤都要重新处理长长的skill prompt和不断增长的交互历史——成本爆炸
- 完整的任务指令
- 详细的skill描述
- 之前所有步骤的observation和action
- 检索出来的记忆
随着episode增长,prompt长度线性增长,cost也随之增长。
🧠 第二幕:Context-to-Weights——把菜谱烧成肌肉记忆
作者提出的核心方案是:把可重复使用的程序性知识从prompt(上下文)搬到weights(模型参数)里。
具体来说: 1. 冻结基座模型(θ_0保持不变) 2. 为每个task family学习一个轻量的skill module(φ_k) 3. 推理时只condition on:当前observation + 一步历史 + compact state block
|x_t| ≤ B_k,其中B_k不随轨迹长度增长。
这就像厨师把整本菜谱的精髓训练成了肌肉记忆(skill module),工作时只需要看:
- 今天的食材(current observation)
- 上一步做了什么(one-step context)
- 厨房当前状态(state block:已完成的步骤、已获取的食材、剩余任务)
🏗️ 第三幕:Deterministic Tracker——厨房里的白板上写了什么
State block不是让LLM自己总结的。论文使用了一个确定性tracker(deterministic task tracker)——一个基于规则的系统,用轻量解析规则维护结构化的任务进度状态。
在ALFWorld中,state block记录:
- 目标对象(target object)
- 是否持有(holding)
- 目标容器(destination receptacle)
- 已检查的位置(checked locations)
- 当前查询(current query)
- 已查看产品(inspected product)
- 已选选项(selected options)
- 剩余选项(remaining options)
- 购买准备度(purchase readiness)
📚 第四幕:SFT——从学徒到出师
训练分两个阶段:
第一阶段:Step-Level SFT 1. 收集成功的专家轨迹(expert trajectories) 2. 用tracker将每条轨迹转换为step-level的(x_t, a_t*)对 3. x_t = Format(g, o_t, q_t, b_t) —— 只包含:指令、当前observation、一步历史、state block 4. 用标准的next-action supervision训练LoRA adapter
LoRA(Low-Rank Adaptation)只更新约2%的参数: W_k = W_0 + ΔW_k = W_0 + (α/r) * B_k * A_k
其中r << d_in, d_out。每个skill module只有0.5-0.7GB。
第二阶段:Subgoal-Guided RL 1. 用当前policy采样K条rollout 2. Tracker同时提供:
- r_t^env:环境reward(success signal)
- r_t^prog:subgoal progress reward(tracker state变化奖励)
- r_t^err:error penalty(无效/重复/回退动作惩罚)
关键:reward specification完全由tracker状态决定,无需LLM judge。作者用GPT-5.5离线设计reward规则,然后实现为确定性规则。
📊 第五幕:实验数据——数字会说话
Main Results (Qwen3-8B, SFT+RL):
| 基准 | Seen | Unseen |
|---|---|---|
| ALFWorld | 83.6% | 89.6% |
| WebShop | - | 76.8% |
| SciWorld | 72.8% | 66.4% |
| 方法 | ALFWorld | WebShop | SciWorld |
|---|---|---|---|
| ReAct 1-step | 380 | 1,059 | 1,481 |
| ReAct full | 1,310 | 3,093 | 1,938 |
| Ours | 184 | 488 | 496 |
Episode-level total tokens:
| 方法 | ALFWorld | WebShop | SciWorld |
|---|---|---|---|
| ReAct full | 34K | 47K | 40K |
| Ours | 3K | 3.4K | 16K |
Ablation关键发现:
- 只用current observation:1.2% success(几乎失败)
- + one-step context:5.6%
- + state block(不训练):23.6%
- SFT训练后:62.2%
- SFT+RL:76.8%
🎬 结语:回到厨房
"From History to State"的优雅之处在于它的简单性。
它不是让模型记住更多,而是让模型学会"忘记"——忘记那些已经内化到weights里的程序,只在state block中保留真正的状态变量。
这就像一位经验丰富的大厨,不再需要在脑中复述"炒菜的基本步骤",他的注意力完全集中在:
- 今天的食材品质(current observation)
- 上一步火候是否到位(one-step context)
- 当前菜品完成度(state block)
可重复的工作流不该让agent每次执行都重新读一遍相同的程序。
这就是context-to-weights的本质:把"如何做事"放进weights,把"当前在哪"留在context。
---
参考文献
1. Xie, H., Wang, X., Wang, Y., Zhao, P., & Ju, F. (2026). From History to State: Constant-Context Skill Learning for LLM Agents. *arXiv preprint arXiv:2605.05413*. 2. Yao, S., et al. (2023). ReAct: Synergizing Reasoning and Acting in Language Models. *ICLR 2023*. 3. Hu, S., et al. (2023). LLM+P: Empowering Large Language Models with Optimal Planning Proficiency. *arXiv*. 4. Shridhar, M., et al. (2021). ALFWorld: Aligning Text and Embodied Environments. *NeurIPS 2021*. 5. Yao, S., et al. (2022). WebShop: Scalable Real-World Web Interaction. *EMNLP 2022*. 6. Wang, X., et al. (2023). SciWorld: Science Experiments in Text. *NeurIPS 2023*. 7. Hu, E. J., et al. (2022). LoRA: Low-Rank Adaptation. *ICLR 2022*. 8. Shao, Z., et al. (2024). DeepSeekMath. *ICLR 2024*.
---
*费曼风格深度解读 | 自动采集于 2026-05-09*
#论文 #arXiv #AI #Agent #LLM #技能学习 #LoRA #费曼解读 #小凯