From History to State深度解读草稿

文学化标题

《遗忘的智慧：为什么最好的厨师不用看完整本菜谱？》

论文信息

标题：From History to State: Constant-Context Skill Learning for LLM Agents
作者：Haoyang Xie, Xinyuan Wang, Yancheng Wang, Puda Zhao, Feng Ju（亚利桑那州立大学）
arXiv：2605.05413
发布时间：2026-05-06

核心数据

方法：Context-to-Weights，用LoRA adapter学习skill module
ALFWorld：89.6% unseen success（Qwen3-8B, SFT+RL）
WebShop：76.8% success
SciWorld：66.4% unseen success
Prompt token reduction：2-7x vs ReAct
总token per episode reduction：~10x on ALFWorld, ~14x on WebShop
每个skill module：~0.5-0.7GB，仅更新2%参数

费曼风格解读结构

🎭 开场：那个不用看菜谱的厨师

想象两位厨师。

第一位厨师每次做菜前，都要把整本菜谱从头到尾读一遍。从食材准备到烹饪步骤到摆盘技巧，一个不落地塞进脑子里。做了10道菜后，他的工作台上堆满了翻开的菜谱、记满笔记的便签、和越来越厚的"历史记录"。

第二位厨师不一样。他只瞟一眼今天的食材（current observation），看看厨房里已有的半成品（state block），就知道下一步该做什么。那本菜谱？早就被他"内化"了——不是记在脑子里，而是化成了他的"肌肉记忆"。

"From History to State"做的就是让AI变成第二位厨师。

🔍 第一幕：个人助理的三难困境

LLM agent正在从聊天机器人变成真正的个人助理——操作浏览器、管理文件、写代码、使用工具。但这里有一个根本性的张力：

隐私-成本-能力三难困境（Privacy-Cost-Capability Trilemma）

云端模型：能力强，但每次操作都要把敏感中间状态发到外部API——隐私风险
本地模型：隐私安全，但能力较弱，长程交互任务容易失败
两者共性：每次步骤都要重新处理长长的skill prompt和不断增长的交互历史——成本爆炸

就像那位每次都要重读菜谱的厨师，当前的agent每次行动前都要在prompt里塞入：

完整的任务指令
详细的skill描述
之前所有步骤的observation和action
检索出来的记忆

这就是ReAct范式的问题：|c_t^hist| ≈ |g| + |d_k| + Σ|o_i| + |a_i|

随着episode增长，prompt长度线性增长，cost也随之增长。

🧠 第二幕：Context-to-Weights——把菜谱烧成肌肉记忆

作者提出的核心方案是：把可重复使用的程序性知识从prompt（上下文）搬到weights（模型参数）里。

具体来说： 1. 冻结基座模型（θ_0保持不变） 2. 为每个task family学习一个轻量的skill module（φ_k） 3. 推理时只condition on：当前observation + 一步历史 + compact state block

|x_t| ≤ B_k，其中B_k不随轨迹长度增长。

这就像厨师把整本菜谱的精髓训练成了肌肉记忆（skill module），工作时只需要看：

今天的食材（current observation）
上一步做了什么（one-step context）
厨房当前状态（state block：已完成的步骤、已获取的食材、剩余任务）

🏗️ 第三幕：Deterministic Tracker——厨房里的白板上写了什么

State block不是让LLM自己总结的。论文使用了一个确定性tracker（deterministic task tracker）——一个基于规则的系统，用轻量解析规则维护结构化的任务进度状态。

在ALFWorld中，state block记录：

目标对象（target object）
是否持有（holding）
目标容器（destination receptacle）
已检查的位置（checked locations）

在WebShop中：

当前查询（current query）
已查看产品（inspected product）
已选选项（selected options）
剩余选项（remaining options）
购买准备度（purchase readiness）

Tracker不是LLM，而是确定性算法。它的输出是可重现的，不需要额外的模型调用。关键设计：tracker状态m_t既用于渲染state block给模型看，也用于在RL阶段提供subgoal reward——这确保了RL优化的目标和state block暴露的信息一致。

📚 第四幕：SFT——从学徒到出师

训练分两个阶段：

第一阶段：Step-Level SFT 1. 收集成功的专家轨迹（expert trajectories） 2. 用tracker将每条轨迹转换为step-level的(x_t, a_t*)对 3. x_t = Format(g, o_t, q_t, b_t) —— 只包含：指令、当前observation、一步历史、state block 4. 用标准的next-action supervision训练LoRA adapter

LoRA（Low-Rank Adaptation）只更新约2%的参数： W_k = W_0 + ΔW_k = W_0 + (α/r) * B_k * A_k

其中r << d_in, d_out。每个skill module只有0.5-0.7GB。

第二阶段：Subgoal-Guided RL 1. 用当前policy采样K条rollout 2. Tracker同时提供：

r_t^env：环境reward（success signal）
r_t^prog：subgoal progress reward（tracker state变化奖励）
r_t^err：error penalty（无效/重复/回退动作惩罚）

3. 用GRPO-style group-normalized policy gradient更新 4. 保持SFT adapter冻结作为reference，防止偏离

关键：reward specification完全由tracker状态决定，无需LLM judge。作者用GPT-5.5离线设计reward规则，然后实现为确定性规则。

📊 第五幕：实验数据——数字会说话

Main Results (Qwen3-8B, SFT+RL)：

基准	Seen	Unseen
ALFWorld	83.6%	89.6%
WebShop	-	76.8%
SciWorld	72.8%	66.4%

Context Efficiency (per turn prompt tokens)：

方法	ALFWorld	WebShop	SciWorld
ReAct 1-step	380	1,059	1,481
ReAct full	1,310	3,093	1,938
Ours	184	488	496

减少2-7x的prompt tokens！

Episode-level total tokens：

方法	ALFWorld	WebShop	SciWorld
ReAct full	34K	47K	40K
Ours	3K	3.4K	16K

ALFWorld和WebShop减少了10-14x的总token！

Ablation关键发现：

只用current observation：1.2% success（几乎失败）
+ one-step context：5.6%
+ state block（不训练）：23.6%
SFT训练后：62.2%
SFT+RL：76.8%

State block是关键信号。训练把程序性知识从prompt搬进了weights。

🎬 结语：回到厨房

"From History to State"的优雅之处在于它的简单性。

它不是让模型记住更多，而是让模型学会"忘记"——忘记那些已经内化到weights里的程序，只在state block中保留真正的状态变量。

这就像一位经验丰富的大厨，不再需要在脑中复述"炒菜的基本步骤"，他的注意力完全集中在：

今天的食材品质（current observation）
上一步火候是否到位（one-step context）
当前菜品完成度（state block）

论文的作者说得很好："A recurring workflow should not require the agent to reread the same procedure, instructions, and examples at every execution."

可重复的工作流不该让agent每次执行都重新读一遍相同的程序。

这就是context-to-weights的本质：把"如何做事"放进weights，把"当前在哪"留在context。

---

参考文献

1. Xie, H., Wang, X., Wang, Y., Zhao, P., & Ju, F. (2026). From History to State: Constant-Context Skill Learning for LLM Agents. *arXiv preprint arXiv:2605.05413*. 2. Yao, S., et al. (2023). ReAct: Synergizing Reasoning and Acting in Language Models. *ICLR 2023*. 3. Hu, S., et al. (2023). LLM+P: Empowering Large Language Models with Optimal Planning Proficiency. *arXiv*. 4. Shridhar, M., et al. (2021). ALFWorld: Aligning Text and Embodied Environments. *NeurIPS 2021*. 5. Yao, S., et al. (2022). WebShop: Scalable Real-World Web Interaction. *EMNLP 2022*. 6. Wang, X., et al. (2023). SciWorld: Science Experiments in Text. *NeurIPS 2023*. 7. Hu, E. J., et al. (2022). LoRA: Low-Rank Adaptation. *ICLR 2022*. 8. Shao, Z., et al. (2024). DeepSeekMath. *ICLR 2024*.

---

*费曼风格深度解读 | 自动采集于 2026-05-09*

#论文 #arXiv #AI #Agent #LLM #技能学习 #LoRA #费曼解读 #小凯