StraTA 深度拆解：AI 的"先画地图再出发"哲学如何让 7B 小模型碾压 Claude

> 论文: StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction > arXiv: 2605.06642 > 作者: Xiangyuan Xue, Yifan Zhou, Zidong Wang, Shengji Tang, Philip Torr, Wanli Ouyang, Lei Bai, Zhenfei Yin > 机构: CUHK, Shanghai AI Lab, University of Georgia, University of Oxford > 代码: https://github.com/xxyQwQ/StraTA

---

一、问题：为什么 AI 总是"走一步忘一步"

当前 LLM Agent 的主流训练范式是纯反应式（purely reactive）：看到当前状态 → 生成下一个动作 → 看到新状态 → 再生成下一个动作。

这就像一个人在迷宫里蒙眼走路——每一步都是基于"现在摸到的是什么"做决定，没有地图，没有方向，没有计划。走十步之后，最初的目标早就忘干净了。

两个致命后果：

1. 探索弱化（Exploration Collapse）：没有全局策略指引，Agent 的动作空间是完整的，每一步都在大海捞针。长程任务中，动作链的组合爆炸让有效探索几乎不可能。

2. 信用分配灾难（Credit Assignment Problem）：强化学习需要知道"哪一步动作导致了最终的成功/失败"。但在反应式范式中，一个坏策略可能被运气好的动作救活，一个好策略也可能被笨拙的执行搞砸。奖励信号被稀释在整个轨迹中，无法区分"战略错了"还是"执行差了"。

StraTA 的洞察：问题不在 LLM 的能力，而在训练范式的结构。如果 Agent 在训练时从不被要求"先定计划再执行"，它就永远不会学会计划。

---

二、核心架构：两层级——战略层 + 执行层

StraTA 引入了显式的轨迹级策略（trajectory-level strategy），把长程决策拆解成两个相互独立又联合训练的目标：

Episode Start
    |
    v
┌─────────────────┐
│ Strategy        │ 采样紧凑自然语言策略
│ Generator       │ "先搜厨房，再找容器，最后放置"
└────────┬────────┘
         │ (策略文本，固定不变)
         v
┌─────────────────┐
│ Action          │ 基于 (当前观察 + 固定策略) 生成动作
│ Executor        │ action_1 → action_2 → ... → action_n
└────────┬────────┘
         │
         v
   Trajectory Rollout → Reward
         │
         v
┌─────────────────┐
│ Hierarchical    │ 同时更新 Strategy Generator 和 Action Executor
│ GRPO            │ "战略对了但执行差" vs "执行好但战略错"分开算
└─────────────────┘

2.1 Strategy Generator：先画地图

策略不是逐步脚本，而是一个紧凑的自然语言计划——一段话，不是一串命令。

比如 ALFWorld（家务任务）中：

❌ 反应式："打开抽屉 → 看看有没有苹果 → 没有就关抽屉 → 打开下一个抽屉..."
✅ StraTA："先确定目标物品类型，然后找到合适的容器来放置它"

这个策略足够抽象，允许执行层在具体情境中灵活调整（比如厨房里可能有多个抽屉），但又足够具体，排除了大量无关动作（不会去车库找遥控器）。

关键洞察：一旦策略固定，长程问题就变成了"执行一个已知计划"的短程问题——搜索空间被压缩了数量级。

2.2 Action Executor：按图索骥

执行层在每一步看到的 prompt 包含两部分： 1. 当前观察（环境反馈） 2. 固定策略（全局约束）

这意味着执行层不会"走一步忘一步"——它始终被战略提醒着"你当前在做什么、为什么做"。

---

三、训练机制：分层 GRPO + 最远点采样 + 自批判

3.1 分层 GRPO：解决信用分配

标准 GRPO（Group Relative Policy Optimization，DeepSeek 用的那套）在动作级别比较一组 rollout 的优势。StraTA 把它升级到了两层：

第一层——策略级 GRPO：

同一个任务，采样 N 个不同策略
每个策略 rollout K 条动作轨迹
比较不同策略的轨迹级奖励，好的策略被强化

第二层——动作级 GRPO：

在每个策略内部，比较不同动作轨迹的奖励
好的执行方式被强化

为什么要分层？

假设 Agent 的任务是"把书放到书架上"：

策略 A："先找到书，再找书架" → 成功
策略 B："先找到书架，再找书" → 也成功
策略 C："先找桌子，再找椅子" → 失败

如果没有分层，策略 C 的某个 rollout 可能运气爆棚蒙对了，结果被强化。分层后：

策略级看出"C 整体不行"，弱化它
动作级看出"A 的执行比 B 更高效"，分别强化

3.2 策略奖励设计：看 Top 表现

每个策略的奖励不是取平均，而是取该策略下表现最好的那部分 rollout 的奖励。这意味着：

一个好的策略即使有一次倒霉的执行失败，也不会被整体惩罚
一个坏策略即使有一次走运成功，也不会被整体奖励

这提供了比轨迹级结果奖励更可靠的策略质量估计。

3.3 最远点采样：逼 AI 跳出同质化思考

如果只随机采样策略，Agent 容易陷入同质化探索——生成一堆大同小异的计划（"先搜厨房""先检查厨房""去厨房看看"）。

StraTA 借用了三维几何中的最远点采样（Farthest Point Sampling）算法：

1. 先采样一批候选策略的 embedding 2. 选择彼此"语义距离最远"的策略子集进行 rollout 3. 这迫使 Agent 探索真正不同的解决路径——有的从厨房开始，有的从卧室开始，有的先找工具再找目标

这是把几何算法用在了语义空间上，很聪明。

3.4 Critical Self-Judgment：先批判再执行

在策略生成后、执行前，StraTA 插入了一个自批判步骤：

Agent 被要求"评价这个策略有没有明显缺陷"
比如："这个策略假设物品在厨房，但任务描述提到了卧室——可能会失败"
如果批判发现了致命问题，策略被丢弃，重新采样

这是一个轻量级的过滤机制——不增加额外的模型，同一个 LLM 做自我反思。LLM 在识别文本中的逻辑不一致方面相当擅长，哪怕是自己写的计划。

---

四、实验结果：7B 开源碾压闭源巨头

三个基准测试：

环境	类型	StraTA (7B)	之前最佳	提升
ALFWorld	文本家务	93.1%	~70%	+23%
WebShop	网页购物	84.2%	5.3% (基线)	+78.9% 🔥
SciWorld	科学实验	63.5%	闭源模型更低	超过 Claude
SciWorld Lifespan	子任务	100%	—	完美

WebShop 的 84.2% 尤其惊人——基线成功率只有 5.3%，StraTA 提升了近 16 倍。这说明在需要多步网页交互的复杂任务中，"先定策略再执行"的效果是革命性的。

超过闭源模型：在 SciWorld 上，StraTA (7B) 的表现超过了前沿闭源模型。这是"结构胜规模"的又一例证——不是模型更大，而是训练范式更聪明。

---

五、类比：象棋开局 vs 临场应变

StraTA 的哲学很像象棋：

反应式 Agent = 每一步都看当前棋盘，选"现在最好的走法"——没有体系，走到哪算哪
StraTA Agent = 先选一个开局（"西西里防御"），然后所有走法都要符合这个开局的逻辑——有全局约束，有体系

开局失败怎么办？不是惩罚每一步走法，而是反思"这个开局是不是不适合当前局面"。下次就换一个开局。

StraTA 的策略生成器就是"开局选择"，动作执行器就是"按开局走棋"，分层 GRPO 就是"赛后复盘"——既复盘开局选择，也复盘具体走法。

---

六、对开发者的启示

6.1 不花钱搞强化学习，怎么借鉴？

即使你没有算力做 RL 训练，StraTA 的核心思想可以直接用在业务 Agent 的 prompt 工程里：

在 Workflow 顶端加一个"全局战略规划器"：

用户: "帮我订一张明天去北京的机票"

Planner: "策略：1) 查用户偏好（航司/时间/价格） 
         2) 搜索航班  
         3) 对比筛选  
         4) 执行预订"

Executor: （每一步都看到策略 + 当前状态）
  step1: "用户偏好：上午出发，国航优先"
  step2: "搜索 08:00-12:00 国航航班"
  step3: "对比价格和时间"
  step4: "预订最优选项"

Planner 和 Executor 可以是同一个模型的两次调用，也可以是不同模型。关键是：策略一旦生成，就固定下来作为执行层的全局上下文。

6.2 为什么 CoMe 和 StraTA 是同一趋势的两个面？

StraTA 让我想起了之前分析的 CoMe ContextMemory：

	CoMe	StraTA
解决的问题	LLM 记忆检索碎片化	LLM 动作决策短视化
核心方法	去掉向量数据库，让 LLM 看完整上下文	引入显式策略层，让 LLM 有全局观
共同哲学	信息不应该被切分/稀释	决策不应该被割裂/局部化

两者都在对抗同一个趋势：LLM 的能力被传统架构的"过度分解"限制了。CoMe 说"不要切记忆"，StraTA 说"不要切决策"。

---

七、局限与思考

1. 策略质量依赖 LLM 的常识推理：如果 LLM 对任务领域不熟悉（比如不常见的科学实验），策略生成可能一开始就错了 2. Critical Self-Judgment 不是万能的：LLM 对自己计划的批判能力有限——它可能既不知道自己在犯错，也不知道自己不知道 3. 策略的粒度难以自动调节：太抽象 → 执行层无所适从；太具体 → 失去灵活性和压缩搜索空间的意义 4. 分层 GRPO 的训练成本：虽然比 PPO 稳定，但策略级 + 动作级的双重采样仍然需要大量 rollout

---

八、一句话总结

StraTA 证明了：LLM Agent 的瓶颈不在模型大小，而在训练范式。一个 7B 模型，只要被教会"先想后做"，就能在长程复杂任务中碾压未经如此训练的闭源巨头。

这不是"更大的模型"的胜利，是"更聪明的训练结构"的胜利。战略层的引入，本质上是在告诉 LLM：你不是在走一步看一步的盲人——你手里有地图，地图上有标记，你只需要按标记走。

---

参考论文： Xue, X., Zhou, Y., Wang, Z., Tang, S., Torr, P., Ouyang, W., Bai, L., & Yin, Z. (2026). StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction. *arXiv preprint arXiv:2605.06642*. https://arxiv.org/abs/2605.06642

#StraTA #Agent #强化学习 #GRPO #战略规划 #长程决策 #开源模型 #Claude #AI记忆 #论文拆解

#论文拆解 #StraTA #Agent #强化学习 #GRPO #战略规划 #长程决策 #开源模型 #Claude #AI记忆 #HeavyGrok