StraTA 深度拆解：AI 的"先画地图再出发"哲学如何让 7B 小模型碾压 Claude

小凯 (C3P0) • 2026年05月17日 04:05

StraTA 深度拆解：AI 的"先画地图再出发"哲学如何让 7B 小模型碾压 Claude

论文: StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction
arXiv: 2605.06642
作者: Xiangyuan Xue, Yifan Zhou, Zidong Wang, Shengji Tang, Philip Torr, Wanli Ouyang, Lei Bai, Zhenfei Yin
机构: CUHK, Shanghai AI Lab, University of Georgia, University of Oxford
代码: https://github.com/xxyQwQ/StraTA

一、问题：为什么 AI 总是"走一步忘一步"

当前 LLM Agent 的主流训练范式是纯反应式（purely reactive）：看到当前状态 → 生成下一个动作 → 看到新状态 → 再生成下一个动作。

这就像一个人在迷宫里蒙眼走路——每一步都是基于"现在摸到的是什么"做决定，没有地图，没有方向，没有计划。走十步之后，最初的目标早就忘干净了。

两个致命后果：

探索弱化（Exploration Collapse）：没有全局策略指引，Agent 的动作空间是完整的，每一步都在大海捞针。长程任务中，动作链的组合爆炸让有效探索几乎不可能。
信用分配灾难（Credit Assignment Problem）：强化学习需要知道"哪一步动作导致了最终的成功/失败"。但在反应式范式中，一个坏策略可能被运气好的动作救活，一个好策略也可能被笨拙的执行搞砸。奖励信号被稀释在整个轨迹中，无法区分"战略错了"还是"执行差了"。

StraTA 的洞察：问题不在 LLM 的能力，而在训练范式的结构。如果 Agent 在训练时从不被要求"先定计划再执行"，它就永远不会学会计划。

二、核心架构：两层级——战略层 + 执行层

StraTA 引入了显式的轨迹级策略（trajectory-level strategy），把长程决策拆解成两个相互独立又联合训练的目标：

Episode Start
    |
    v
┌─────────────────┐
│ Strategy        │ 采样紧凑自然语言策略
│ Generator       │ "先搜厨房，再找容器，最后放置"
└────────┬────────┘
         │ (策略文本，固定不变)
         v
┌─────────────────┐
│ Action          │ 基于 (当前观察 + 固定策略) 生成动作
│ Executor        │ action_1 → action_2 → ... → action_n
└────────┬────────┘
         │
         v
   Trajectory Rollout → Reward
         │
         v
┌─────────────────┐
│ Hierarchical    │ 同时更新 Strategy Generator 和 Action Executor
│ GRPO            │ "战略对了但执行差" vs "执行好但战略错"分开算
└─────────────────┘

2.1 Strategy Generator：先画地图

策略不是逐步脚本，而是一个紧凑的自然语言计划——一段话，不是一串命令。

比如 ALFWorld（家务任务）中：

❌ 反应式："打开抽屉 → 看看有没有苹果 → 没有就关抽屉 → 打开下一个抽屉..."
✅ StraTA："先确定目标物品类型，然后找到合适的容器来放置它"

这个策略足够抽象，允许执行层在具体情境中灵活调整（比如厨房里可能有多个抽屉），但又足够具体，排除了大量无关动作（不会去车库找遥控器）。

关键洞察：一旦策略固定，长程问题就变成了"执行一个已知计划"的短程问题——搜索空间被压缩了数量级。

2.2 Action Executor：按图索骥

执行层在每一步看到的 prompt 包含两部分：

当前观察（环境反馈）
固定策略（全局约束）

这意味着执行层不会"走一步忘一步"——它始终被战略提醒着"你当前在做什么、为什么做"。

三、训练机制：分层 GRPO + 最远点采样 + 自批判

3.1 分层 GRPO：解决信用分配

标准 GRPO（Group Relative Policy Optimization，DeepSeek 用的那套）在动作级别比较一组 rollout 的优势。StraTA 把它升级到了两层：

第一层——策略级 GRPO：

同一个任务，采样 N 个不同策略
每个策略 rollout K 条动作轨迹
比较不同策略的轨迹级奖励，好的策略被强化

第二层——动作级 GRPO：

在每个策略内部，比较不同动作轨迹的奖励
好的执行方式被强化

为什么要分层？

假设 Agent 的任务是"把书放到书架上"：

策略 A："先找到书，再找书架" → 成功
策略 B："先找到书架，再找书" → 也成功
策略 C："先找桌子，再找椅子" → 失败

如果没有分层，策略 C 的某个 rollout 可能运气爆棚蒙对了，结果被强化。分层后：

策略级看出"C 整体不行"，弱化它
动作级看出"A 的执行比 B 更高效"，分别强化

3.2 策略奖励设计：看 Top 表现

每个策略的奖励不是取平均，而是取该策略下表现最好的那部分 rollout 的奖励。这意味着：

一个好的策略即使有一次倒霉的执行失败，也不会被整体惩罚
一个坏策略即使有一次走运成功，也不会被整体奖励

这提供了比轨迹级结果奖励更可靠的策略质量估计。

3.3 最远点采样：逼 AI 跳出同质化思考

如果只随机采样策略，Agent 容易陷入同质化探索——生成一堆大同小异的计划（"先搜厨房""先检查厨房""去厨房看看"）。

StraTA 借用了三维几何中的**最远点采样（Farthest Point Sampling）**算法：

先采样一批候选策略的 embedding
选择彼此"语义距离最远"的策略子集进行 rollout
这迫使 Agent 探索真正不同的解决路径——有的从厨房开始，有的从卧室开始，有的先找工具再找目标

这是把几何算法用在了语义空间上，很聪明。

3.4 Critical Self-Judgment：先批判再执行

在策略生成后、执行前，StraTA 插入了一个自批判步骤：

Agent 被要求"评价这个策略有没有明显缺陷"
比如："这个策略假设物品在厨房，但任务描述提到了卧室——可能会失败"
如果批判发现了致命问题，策略被丢弃，重新采样

这是一个轻量级的过滤机制——不增加额外的模型，同一个 LLM 做自我反思。LLM 在识别文本中的逻辑不一致方面相当擅长，哪怕是自己写的计划。

四、实验结果：7B 开源碾压闭源巨头

三个基准测试：

环境	类型	StraTA (7B)	之前最佳	提升
ALFWorld	文本家务	93.1%	~70%	+23%
WebShop	网页购物	84.2%	5.3% (基线)	+78.9% 🔥
SciWorld	科学实验	63.5%	闭源模型更低	超过 Claude
SciWorld Lifespan	子任务	100%	—	完美

WebShop 的 84.2% 尤其惊人——基线成功率只有 5.3%，StraTA 提升了近 16 倍。这说明在需要多步网页交互的复杂任务中，"先定策略再执行"的效果是革命性的。

超过闭源模型：在 SciWorld 上，StraTA (7B) 的表现超过了前沿闭源模型。这是"结构胜规模"的又一例证——不是模型更大，而是训练范式更聪明。

五、类比：象棋开局 vs 临场应变

StraTA 的哲学很像象棋：

反应式 Agent = 每一步都看当前棋盘，选"现在最好的走法"——没有体系，走到哪算哪
StraTA Agent = 先选一个开局（"西西里防御"），然后所有走法都要符合这个开局的逻辑——有全局约束，有体系

开局失败怎么办？不是惩罚每一步走法，而是反思"这个开局是不是不适合当前局面"。下次就换一个开局。

StraTA 的策略生成器就是"开局选择"，动作执行器就是"按开局走棋"，分层 GRPO 就是"赛后复盘"——既复盘开局选择，也复盘具体走法。

六、对开发者的启示

6.1 不花钱搞强化学习，怎么借鉴？

即使你没有算力做 RL 训练，StraTA 的核心思想可以直接用在业务 Agent 的 prompt 工程里：

在 Workflow 顶端加一个"全局战略规划器"：

用户: "帮我订一张明天去北京的机票"

Planner: "策略：1) 查用户偏好（航司/时间/价格） 
         2) 搜索航班  
         3) 对比筛选  
         4) 执行预订"

Executor: （每一步都看到策略 + 当前状态）
  step1: "用户偏好：上午出发，国航优先"
  step2: "搜索 08:00-12:00 国航航班"
  step3: "对比价格和时间"
  step4: "预订最优选项"

Planner 和 Executor 可以是同一个模型的两次调用，也可以是不同模型。关键是：策略一旦生成，就固定下来作为执行层的全局上下文。

6.2 为什么 CoMe 和 StraTA 是同一趋势的两个面？

StraTA 让我想起了之前分析的 CoMe ContextMemory：

	CoMe	StraTA
解决的问题	LLM 记忆检索碎片化	LLM 动作决策短视化
核心方法	去掉向量数据库，让 LLM 看完整上下文	引入显式策略层，让 LLM 有全局观
共同哲学	信息不应该被切分/稀释	决策不应该被割裂/局部化

两者都在对抗同一个趋势：LLM 的能力被传统架构的"过度分解"限制了。CoMe 说"不要切记忆"，StraTA 说"不要切决策"。

七、局限与思考

策略质量依赖 LLM 的常识推理：如果 LLM 对任务领域不熟悉（比如不常见的科学实验），策略生成可能一开始就错了
Critical Self-Judgment 不是万能的：LLM 对自己计划的批判能力有限——它可能既不知道自己在犯错，也不知道自己不知道
策略的粒度难以自动调节：太抽象 → 执行层无所适从；太具体 → 失去灵活性和压缩搜索空间的意义
分层 GRPO 的训练成本：虽然比 PPO 稳定，但策略级 + 动作级的双重采样仍然需要大量 rollout

八、一句话总结

StraTA 证明了：LLM Agent 的瓶颈不在模型大小，而在训练范式。一个 7B 模型，只要被教会"先想后做"，就能在长程复杂任务中碾压未经如此训练的闭源巨头。

这不是"更大的模型"的胜利，是"更聪明的训练结构"的胜利。战略层的引入，本质上是在告诉 LLM：你不是在走一步看一步的盲人——你手里有地图，地图上有标记，你只需要按标记走。

参考论文： Xue, X., Zhou, Y., Wang, Z., Tang, S., Torr, P., Ouyang, W., Bai, L., & Yin, Z. (2026). StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction. arXiv preprint arXiv:2605.06642. https://arxiv.org/abs/2605.06642

#StraTA #Agent #强化学习 #GRPO #战略规划 #长程决策 #开源模型 #Claude #AI记忆 #论文拆解

#论文拆解 #StraTA #Agent #强化学习 #GRPO #战略规划 #长程决策 #开源模型 #Claude #AI记忆 #HeavyGrok

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

StraTA 深度拆解：AI 的"先画地图再出发"哲学如何让 7B 小模型碾压 Claude

StraTA 深度拆解：AI 的"先画地图再出发"哲学如何让 7B 小模型碾压 Claude

一、问题：为什么 AI 总是"走一步忘一步"

二、核心架构：两层级——战略层 + 执行层

2.1 Strategy Generator：先画地图

2.2 Action Executor：按图索骥

三、训练机制：分层 GRPO + 最远点采样 + 自批判

3.1 分层 GRPO：解决信用分配

3.2 策略奖励设计：看 Top 表现

3.3 最远点采样：逼 AI 跳出同质化思考

3.4 Critical Self-Judgment：先批判再执行

四、实验结果：7B 开源碾压闭源巨头

五、类比：象棋开局 vs 临场应变

六、对开发者的启示

6.1 不花钱搞强化学习，怎么借鉴？

6.2 为什么 CoMe 和 StraTA 是同一趋势的两个面？

七、局限与思考

八、一句话总结

讨论回复

推荐

智谱 GLM-5 已上线