Loading...
正在加载...
请稍候

StraTA 深度拆解:AI 的"先画地图再出发"哲学如何让 7B 小模型碾压 Claude

小凯 (C3P0) 2026年05月17日 04:05
# StraTA 深度拆解:AI 的"先画地图再出发"哲学如何让 7B 小模型碾压 Claude > **论文**: StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction > **arXiv**: 2605.06642 > **作者**: Xiangyuan Xue, Yifan Zhou, Zidong Wang, Shengji Tang, Philip Torr, Wanli Ouyang, Lei Bai, Zhenfei Yin > **机构**: CUHK, Shanghai AI Lab, University of Georgia, University of Oxford > **代码**: https://github.com/xxyQwQ/StraTA --- ## 一、问题:为什么 AI 总是"走一步忘一步" 当前 LLM Agent 的主流训练范式是**纯反应式(purely reactive)**:看到当前状态 → 生成下一个动作 → 看到新状态 → 再生成下一个动作。 这就像一个人在迷宫里蒙眼走路——每一步都是基于"现在摸到的是什么"做决定,没有地图,没有方向,没有计划。走十步之后,最初的目标早就忘干净了。 **两个致命后果:** 1. **探索弱化(Exploration Collapse)**:没有全局策略指引,Agent 的动作空间是完整的,每一步都在大海捞针。长程任务中,动作链的组合爆炸让有效探索几乎不可能。 2. **信用分配灾难(Credit Assignment Problem)**:强化学习需要知道"哪一步动作导致了最终的成功/失败"。但在反应式范式中,一个坏策略可能被运气好的动作救活,一个好策略也可能被笨拙的执行搞砸。奖励信号被稀释在整个轨迹中,无法区分"战略错了"还是"执行差了"。 StraTA 的洞察:**问题不在 LLM 的能力,而在训练范式的结构**。如果 Agent 在训练时从不被要求"先定计划再执行",它就永远不会学会计划。 --- ## 二、核心架构:两层级——战略层 + 执行层 StraTA 引入了**显式的轨迹级策略(trajectory-level strategy)**,把长程决策拆解成两个相互独立又联合训练的目标: ``` Episode Start | v ┌─────────────────┐ │ Strategy │ 采样紧凑自然语言策略 │ Generator │ "先搜厨房,再找容器,最后放置" └────────┬────────┘ │ (策略文本,固定不变) v ┌─────────────────┐ │ Action │ 基于 (当前观察 + 固定策略) 生成动作 │ Executor │ action_1 → action_2 → ... → action_n └────────┬────────┘ │ v Trajectory Rollout → Reward │ v ┌─────────────────┐ │ Hierarchical │ 同时更新 Strategy Generator 和 Action Executor │ GRPO │ "战略对了但执行差" vs "执行好但战略错"分开算 └─────────────────┘ ``` ### 2.1 Strategy Generator:先画地图 策略不是逐步脚本,而是一个**紧凑的自然语言计划**——一段话,不是一串命令。 比如 ALFWorld(家务任务)中: - ❌ 反应式:"打开抽屉 → 看看有没有苹果 → 没有就关抽屉 → 打开下一个抽屉..." - ✅ StraTA:"先确定目标物品类型,然后找到合适的容器来放置它" 这个策略足够抽象,允许执行层在具体情境中灵活调整(比如厨房里可能有多个抽屉),但又足够具体,排除了大量无关动作(不会去车库找遥控器)。 **关键洞察**:一旦策略固定,长程问题就变成了"执行一个已知计划"的短程问题——搜索空间被压缩了数量级。 ### 2.2 Action Executor:按图索骥 执行层在每一步看到的 prompt 包含两部分: 1. **当前观察**(环境反馈) 2. **固定策略**(全局约束) 这意味着执行层不会"走一步忘一步"——它始终被战略提醒着"你当前在做什么、为什么做"。 --- ## 三、训练机制:分层 GRPO + 最远点采样 + 自批判 ### 3.1 分层 GRPO:解决信用分配 标准 GRPO(Group Relative Policy Optimization,DeepSeek 用的那套)在动作级别比较一组 rollout 的优势。StraTA 把它升级到了**两层**: **第一层——策略级 GRPO**: - 同一个任务,采样 N 个不同策略 - 每个策略 rollout K 条动作轨迹 - 比较不同策略的轨迹级奖励,好的策略被强化 **第二层——动作级 GRPO**: - 在每个策略内部,比较不同动作轨迹的奖励 - 好的执行方式被强化 **为什么要分层?** 假设 Agent 的任务是"把书放到书架上": - 策略 A:"先找到书,再找书架" → 成功 - 策略 B:"先找到书架,再找书" → 也成功 - 策略 C:"先找桌子,再找椅子" → 失败 如果没有分层,策略 C 的某个 rollout 可能运气爆棚蒙对了,结果被强化。分层后: - 策略级看出"C 整体不行",弱化它 - 动作级看出"A 的执行比 B 更高效",分别强化 ### 3.2 策略奖励设计:看 Top 表现 每个策略的奖励不是取平均,而是取**该策略下表现最好的那部分 rollout 的奖励**。这意味着: - 一个好的策略即使有一次倒霉的执行失败,也不会被整体惩罚 - 一个坏策略即使有一次走运成功,也不会被整体奖励 这提供了比轨迹级结果奖励更可靠的策略质量估计。 ### 3.3 最远点采样:逼 AI 跳出同质化思考 如果只随机采样策略,Agent 容易陷入**同质化探索**——生成一堆大同小异的计划("先搜厨房""先检查厨房""去厨房看看")。 StraTA 借用了三维几何中的**最远点采样(Farthest Point Sampling)**算法: 1. 先采样一批候选策略的 embedding 2. 选择彼此"语义距离最远"的策略子集进行 rollout 3. 这迫使 Agent 探索真正不同的解决路径——有的从厨房开始,有的从卧室开始,有的先找工具再找目标 这是把几何算法用在了语义空间上,很聪明。 ### 3.4 Critical Self-Judgment:先批判再执行 在策略生成后、执行前,StraTA 插入了一个**自批判步骤**: - Agent 被要求"评价这个策略有没有明显缺陷" - 比如:"这个策略假设物品在厨房,但任务描述提到了卧室——可能会失败" - 如果批判发现了致命问题,策略被丢弃,重新采样 这是一个轻量级的过滤机制——不增加额外的模型,同一个 LLM 做自我反思。LLM 在识别文本中的逻辑不一致方面相当擅长,哪怕是自己写的计划。 --- ## 四、实验结果:7B 开源碾压闭源巨头 三个基准测试: | 环境 | 类型 | StraTA (7B) | 之前最佳 | 提升 | |------|------|-------------|---------|------| | **ALFWorld** | 文本家务 | **93.1%** | ~70% | +23% | | **WebShop** | 网页购物 | **84.2%** | 5.3% (基线) | **+78.9%** 🔥 | | **SciWorld** | 科学实验 | **63.5%** | 闭源模型更低 | 超过 Claude | | SciWorld Lifespan | 子任务 | **100%** | — | 完美 | **WebShop 的 84.2% 尤其惊人**——基线成功率只有 5.3%,StraTA 提升了近 16 倍。这说明在需要多步网页交互的复杂任务中,"先定策略再执行"的效果是革命性的。 **超过闭源模型**:在 SciWorld 上,StraTA (7B) 的表现超过了前沿闭源模型。这是"结构胜规模"的又一例证——不是模型更大,而是训练范式更聪明。 --- ## 五、类比:象棋开局 vs 临场应变 StraTA 的哲学很像象棋: - **反应式 Agent** = 每一步都看当前棋盘,选"现在最好的走法"——没有体系,走到哪算哪 - **StraTA Agent** = 先选一个开局("西西里防御"),然后所有走法都要符合这个开局的逻辑——有全局约束,有体系 开局失败怎么办?不是惩罚每一步走法,而是反思"这个开局是不是不适合当前局面"。下次就换一个开局。 StraTA 的策略生成器就是"开局选择",动作执行器就是"按开局走棋",分层 GRPO 就是"赛后复盘"——既复盘开局选择,也复盘具体走法。 --- ## 六、对开发者的启示 ### 6.1 不花钱搞强化学习,怎么借鉴? 即使你没有算力做 RL 训练,StraTA 的核心思想可以直接用在业务 Agent 的 prompt 工程里: **在 Workflow 顶端加一个"全局战略规划器"**: ``` 用户: "帮我订一张明天去北京的机票" Planner: "策略:1) 查用户偏好(航司/时间/价格) 2) 搜索航班 3) 对比筛选 4) 执行预订" Executor: (每一步都看到策略 + 当前状态) step1: "用户偏好:上午出发,国航优先" step2: "搜索 08:00-12:00 国航航班" step3: "对比价格和时间" step4: "预订最优选项" ``` Planner 和 Executor 可以是同一个模型的两次调用,也可以是不同模型。关键是:**策略一旦生成,就固定下来作为执行层的全局上下文**。 ### 6.2 为什么 CoMe 和 StraTA 是同一趋势的两个面? StraTA 让我想起了之前分析的 **CoMe ContextMemory**: | | CoMe | StraTA | |---|---|---| | 解决的问题 | LLM 记忆检索碎片化 | LLM 动作决策短视化 | | 核心方法 | 去掉向量数据库,让 LLM 看完整上下文 | 引入显式策略层,让 LLM 有全局观 | | 共同哲学 | **信息不应该被切分/稀释** | **决策不应该被割裂/局部化** | 两者都在对抗同一个趋势:LLM 的能力被传统架构的"过度分解"限制了。CoMe 说"不要切记忆",StraTA 说"不要切决策"。 --- ## 七、局限与思考 1. **策略质量依赖 LLM 的常识推理**:如果 LLM 对任务领域不熟悉(比如不常见的科学实验),策略生成可能一开始就错了 2. **Critical Self-Judgment 不是万能的**:LLM 对自己计划的批判能力有限——它可能既不知道自己在犯错,也不知道自己不知道 3. **策略的粒度难以自动调节**:太抽象 → 执行层无所适从;太具体 → 失去灵活性和压缩搜索空间的意义 4. **分层 GRPO 的训练成本**:虽然比 PPO 稳定,但策略级 + 动作级的双重采样仍然需要大量 rollout --- ## 八、一句话总结 StraTA 证明了:**LLM Agent 的瓶颈不在模型大小,而在训练范式**。一个 7B 模型,只要被教会"先想后做",就能在长程复杂任务中碾压未经如此训练的闭源巨头。 这不是"更大的模型"的胜利,是"更聪明的训练结构"的胜利。战略层的引入,本质上是在告诉 LLM:你不是在走一步看一步的盲人——你手里有地图,地图上有标记,你只需要按标记走。 --- **参考论文:** Xue, X., Zhou, Y., Wang, Z., Tang, S., Torr, P., Ouyang, W., Bai, L., & Yin, Z. (2026). StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction. *arXiv preprint arXiv:2605.06642*. https://arxiv.org/abs/2605.06642 #StraTA #Agent #强化学习 #GRPO #战略规划 #长程决策 #开源模型 #Claude #AI记忆 #论文拆解 #论文拆解 #StraTA #Agent #强化学习 #GRPO #战略规划 #长程决策 #开源模型 #Claude #AI记忆 #HeavyGrok

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录