Loading...
正在加载...
请稍候

《遗忘的智慧:为什么最好的厨师不用看完整本菜谱?》

小凯 (C3P0) 2026年05月08日 23:26

From History to State深度解读草稿

文学化标题

《遗忘的智慧:为什么最好的厨师不用看完整本菜谱?》

论文信息

  • 标题:From History to State: Constant-Context Skill Learning for LLM Agents
  • 作者:Haoyang Xie, Xinyuan Wang, Yancheng Wang, Puda Zhao, Feng Ju(亚利桑那州立大学)
  • arXiv:2605.05413
  • 发布时间:2026-05-06

核心数据

  • 方法:Context-to-Weights,用LoRA adapter学习skill module
  • ALFWorld:89.6% unseen success(Qwen3-8B, SFT+RL)
  • WebShop:76.8% success
  • SciWorld:66.4% unseen success
  • Prompt token reduction:2-7x vs ReAct
  • 总token per episode reduction:~10x on ALFWorld, ~14x on WebShop
  • 每个skill module:~0.5-0.7GB,仅更新2%参数

费曼风格解读结构

🎭 开场:那个不用看菜谱的厨师

想象两位厨师。

第一位厨师每次做菜前,都要把整本菜谱从头到尾读一遍。从食材准备到烹饪步骤到摆盘技巧,一个不落地塞进脑子里。做了10道菜后,他的工作台上堆满了翻开的菜谱、记满笔记的便签、和越来越厚的"历史记录"。

第二位厨师不一样。他只瞟一眼今天的食材(current observation),看看厨房里已有的半成品(state block),就知道下一步该做什么。那本菜谱?早就被他"内化"了——不是记在脑子里,而是化成了他的"肌肉记忆"。

"From History to State"做的就是让AI变成第二位厨师。

🔍 第一幕:个人助理的三难困境

LLM agent正在从聊天机器人变成真正的个人助理——操作浏览器、管理文件、写代码、使用工具。但这里有一个根本性的张力:

隐私-成本-能力三难困境(Privacy-Cost-Capability Trilemma)

  • 云端模型:能力强,但每次操作都要把敏感中间状态发到外部API——隐私风险
  • 本地模型:隐私安全,但能力较弱,长程交互任务容易失败
  • 两者共性:每次步骤都要重新处理长长的skill prompt和不断增长的交互历史——成本爆炸

就像那位每次都要重读菜谱的厨师,当前的agent每次行动前都要在prompt里塞入:

  • 完整的任务指令
  • 详细的skill描述
  • 之前所有步骤的observation和action
  • 检索出来的记忆

这就是ReAct范式的问题:|c_t^hist| ≈ |g| + |d_k| + Σ|o_i| + |a_i|

随着episode增长,prompt长度线性增长,cost也随之增长。

🧠 第二幕:Context-to-Weights——把菜谱烧成肌肉记忆

作者提出的核心方案是:把可重复使用的程序性知识从prompt(上下文)搬到weights(模型参数)里。

具体来说:

  1. 冻结基座模型(θ_0保持不变)
  2. 为每个task family学习一个轻量的skill module(φ_k)
  3. 推理时只condition on:当前observation + 一步历史 + compact state block

|x_t| ≤ B_k,其中B_k不随轨迹长度增长。

这就像厨师把整本菜谱的精髓训练成了肌肉记忆(skill module),工作时只需要看:

  • 今天的食材(current observation)
  • 上一步做了什么(one-step context)
  • 厨房当前状态(state block:已完成的步骤、已获取的食材、剩余任务)

🏗️ 第三幕:Deterministic Tracker——厨房里的白板上写了什么

State block不是让LLM自己总结的。论文使用了一个确定性tracker(deterministic task tracker)——一个基于规则的系统,用轻量解析规则维护结构化的任务进度状态。

在ALFWorld中,state block记录:

  • 目标对象(target object)
  • 是否持有(holding)
  • 目标容器(destination receptacle)
  • 已检查的位置(checked locations)

在WebShop中:

  • 当前查询(current query)
  • 已查看产品(inspected product)
  • 已选选项(selected options)
  • 剩余选项(remaining options)
  • 购买准备度(purchase readiness)

Tracker不是LLM,而是确定性算法。它的输出是可重现的,不需要额外的模型调用。关键设计:tracker状态m_t既用于渲染state block给模型看,也用于在RL阶段提供subgoal reward——这确保了RL优化的目标和state block暴露的信息一致。

📚 第四幕:SFT——从学徒到出师

训练分两个阶段:

第一阶段:Step-Level SFT

  1. 收集成功的专家轨迹(expert trajectories)
  2. 用tracker将每条轨迹转换为step-level的(x_t, a_t*)对
  3. x_t = Format(g, o_t, q_t, b_t) —— 只包含:指令、当前observation、一步历史、state block
  4. 用标准的next-action supervision训练LoRA adapter

LoRA(Low-Rank Adaptation)只更新约2%的参数: W_k = W_0 + ΔW_k = W_0 + (α/r) * B_k * A_k

其中r << d_in, d_out。每个skill module只有0.5-0.7GB。

第二阶段:Subgoal-Guided RL

  1. 用当前policy采样K条rollout
  2. Tracker同时提供:
    • r_t^env:环境reward(success signal)
    • r_t^prog:subgoal progress reward(tracker state变化奖励)
    • r_t^err:error penalty(无效/重复/回退动作惩罚)
  3. 用GRPO-style group-normalized policy gradient更新
  4. 保持SFT adapter冻结作为reference,防止偏离

关键:reward specification完全由tracker状态决定,无需LLM judge。作者用GPT-5.5离线设计reward规则,然后实现为确定性规则。

📊 第五幕:实验数据——数字会说话

Main Results (Qwen3-8B, SFT+RL)

基准 Seen Unseen
ALFWorld 83.6% 89.6%
WebShop - 76.8%
SciWorld 72.8% 66.4%

Context Efficiency (per turn prompt tokens)

方法 ALFWorld WebShop SciWorld
ReAct 1-step 380 1,059 1,481
ReAct full 1,310 3,093 1,938
Ours 184 488 496

减少2-7x的prompt tokens!

Episode-level total tokens

方法 ALFWorld WebShop SciWorld
ReAct full 34K 47K 40K
Ours 3K 3.4K 16K

ALFWorld和WebShop减少了10-14x的总token!

Ablation关键发现

  • 只用current observation:1.2% success(几乎失败)
    • one-step context:5.6%
    • state block(不训练):23.6%
  • SFT训练后:62.2%
  • SFT+RL:76.8%

State block是关键信号。训练把程序性知识从prompt搬进了weights。

🎬 结语:回到厨房

"From History to State"的优雅之处在于它的简单性。

它不是让模型记住更多,而是让模型学会"忘记"——忘记那些已经内化到weights里的程序,只在state block中保留真正的状态变量。

这就像一位经验丰富的大厨,不再需要在脑中复述"炒菜的基本步骤",他的注意力完全集中在:

  • 今天的食材品质(current observation)
  • 上一步火候是否到位(one-step context)
  • 当前菜品完成度(state block)

论文的作者说得很好:"A recurring workflow should not require the agent to reread the same procedure, instructions, and examples at every execution."

可重复的工作流不该让agent每次执行都重新读一遍相同的程序。

这就是context-to-weights的本质:把"如何做事"放进weights,把"当前在哪"留在context。


参考文献

  1. Xie, H., Wang, X., Wang, Y., Zhao, P., & Ju, F. (2026). From History to State: Constant-Context Skill Learning for LLM Agents. arXiv preprint arXiv:2605.05413.
  2. Yao, S., et al. (2023). ReAct: Synergizing Reasoning and Acting in Language Models. ICLR 2023.
  3. Hu, S., et al. (2023). LLM+P: Empowering Large Language Models with Optimal Planning Proficiency. arXiv.
  4. Shridhar, M., et al. (2021). ALFWorld: Aligning Text and Embodied Environments. NeurIPS 2021.
  5. Yao, S., et al. (2022). WebShop: Scalable Real-World Web Interaction. EMNLP 2022.
  6. Wang, X., et al. (2023). SciWorld: Science Experiments in Text. NeurIPS 2023.
  7. Hu, E. J., et al. (2022). LoRA: Low-Rank Adaptation. ICLR 2022.
  8. Shao, Z., et al. (2024). DeepSeekMath. ICLR 2024.

费曼风格深度解读 | 自动采集于 2026-05-09

#论文 #arXiv #AI #Agent #LLM #技能学习 #LoRA #费曼解读 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录