<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>StraTA:让 AI 智能体告别"健忘症"的战略规划框架深度解析</title>
<link rel="preconnect" href="https://fonts.googleapis.com">
<link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
<link href="https://fonts.googleapis.com/css2?family=Noto+Sans+SC:wght@400;700&family=Noto+Serif+SC:wght@400;700&family=Source+Code+Pro:wght@400;700&display=swap" rel="stylesheet">
<script src="https://cdn.jsdelivr.net/npm/chart.js"></script>
<style>
/* --- Global Styles & Layout --- */
html, body {
margin: 0;
padding: 0;
width: 100%;
min-height: 100%;
background-color: #FFFFFF;
font-family: "Noto Serif SC", serif;
color: #212529;
font-size: 16px;
line-height: 1.8;
-webkit-font-smoothing: antialiased;
-moz-osx-font-smoothing: grayscale;
}
.container {
max-width: 800px;
margin: 40px auto;
padding: 40px 60px;
background-color: #FFFFFF;
box-shadow: 0 6px 18px rgba(0, 0, 0, 0.06);
border-radius: 8px;
}
/* --- Typography --- */
h1, h2, h3, h4, h5, h6 {
font-family: "Noto Sans SC", "Noto Serif SC", sans-serif;
font-weight: 700;
line-height: 1.4;
}
h1 {
font-size: 28px;
text-align: center;
margin-top: 24px;
margin-bottom: 20px;
color: #212529;
}
h2 {
font-size: 22px;
margin-top: 2.5em;
margin-bottom: 1em;
padding-bottom: 0.4em;
border-left: 5px solid #0D6EFD;
padding-left: 15px;
}
h3 {
font-size: 20px;
margin-top: 2em;
margin-bottom: 0.8em;
color: #212529;
}
h4 {
font-size: 18px;
margin-top: 1.5em;
margin-bottom: 0.6em;
}
p {
margin-bottom: 1.2em;
}
a {
color: #0D6EFD;
text-decoration: none;
transition: color 0.2s ease, text-decoration 0.2s ease;
}
a:hover {
color: #0a58ca;
text-decoration: underline;
}
strong, b {
font-weight: 700;
color: #212529;
}
em, i {
font-style: italic;
}
/* --- Elements --- */
blockquote {
margin: 1.5em 0;
padding: 10px 20px;
border-left: 4px solid #0D6EFD;
background-color: #F8F9FA;
color: #495057;
}
blockquote p:last-child {
margin-bottom: 0;
}
hr {
border: 0;
height: 1px;
background-image: linear-gradient(to right, rgba(13, 110, 253, 0), rgba(13, 110, 253, 0.75), rgba(13, 110, 253, 0));
margin: 3em 0;
}
code {
font-family: "Source Code Pro", monospace;
background-color: #e9ecef;
padding: 0.2em 0.4em;
border-radius: 3px;
font-size: 0.9em;
}
pre {
background-color: #f8f9fa;
border: 1px solid #e9ecef;
padding: 1em;
border-radius: 5px;
overflow-x: auto;
line-height: 1.5;
}
pre code {
background-color: transparent;
padding: 0;
font-size: 0.9em;
}
table {
width: 100%;
border-collapse: collapse;
margin: 1.5em 0;
font-size: 0.95em;
}
th, td {
padding: 12px 15px;
text-align: left;
border-bottom: 1px solid #dee2e6;
}
thead th {
border-bottom: 2px solid #0D6EFD;
color: #212529;
font-weight: 700;
}
tbody tr:hover {
background-color: #f8f9fa;
}
ul, ol {
padding-left: 2em;
margin-bottom: 1.2em;
}
/* --- Table of Contents --- */
.toc {
background-color: #f8f9fa;
border: 1px solid #e9ecef;
padding: 20px 25px;
margin-bottom: 2em;
border-radius: 8px;
}
.toc-title {
font-family: "Noto Sans SC", sans-serif;
font-size: 1.2em;
font-weight: 700;
margin-bottom: 1em;
color: #212529;
}
.toc ul {
list-style-type: none;
padding-left: 0;
margin: 0;
}
.toc-level-2 > li {
margin-bottom: 0.8em;
font-weight: bold;
}
.toc-level-2 > li > a {
color: #0D6EFD;
}
.toc-level-3 {
padding-left: 2em;
margin-top: 0.5em;
font-weight: normal;
}
.toc-level-3 li {
margin-bottom: 0.4em;
}
.toc-level-3 li a {
color: #0D6EFD;
}
.toc a:hover {
text-decoration: underline;
}
/* --- Chart --- */
.generated-chart {
margin: 2.5em 0;
padding: 0;
}
.chart-container {
position: relative;
height: 400px;
width: 100%;
}
figcaption {
text-align: center;
margin-top: 1em;
margin-bottom: 1.2em;
font-size: 0.9em;
color: #6c757d;
}
/* --- Component Group --- */
.component-group {
background-color: #f8f9fa;
border: 1px solid #e9ecef;
border-radius: 8px;
padding: 1.5em;
margin: 1.5em 0;
}
.component-group h3 {
margin-top: 0;
padding-bottom: 0.5em;
border-bottom: 1px solid #dee2e6;
margin-bottom: 1em;
}
</style>
</head>
<body>
<div class="container">
<h1>StraTA:让 AI 智能体告别"健忘症"的战略规划框架深度解析</h1>
<nav class="toc">
<div class="toc-title">目录</div>
<ul class="toc-level-2">
<li><a href="#section-1">一、反应式决策 vs. 战略规划:AI “走一步忘一步”的根源</a></li>
<li><a href="#section-2">二、分层 GRPO 训练:将 DeepSeek 封神算法升级到多回合决策</a></li>
<li><a href="#section-3">三、最远点采样:借 3D 几何算法逼迫 AI 跳出同质化思考</a></li>
<li><a href="#section-4">四、开发者落地指南:无需强化学习,用“全局战略规划器”让业务 AI 变聪明</a></li>
<li><a href="#section-5">五、结语:战略规划让 AI 智能体告别健忘,走向高效</a></li>
</ul>
</nav>
<h2 id="section-1">反应式决策 vs. 战略规划:AI “走一步忘一步”的根源</h2>
<p>当前基于大语言模型(LLM)的智能体在长程任务中往往“走一步忘一步”,难以坚持初衷。根本原因在于这些智能体采用<strong>反应式决策</strong>模式:每一步都仅根据当前观察做出反应,缺乏全局规划。这种短视策略在短期任务中尚可,但在需要多步决策的复杂任务中会迷失方向,原因有两点:</p>
<ul>
<li><strong>探索盲无目的</strong>:没有全局蓝图,智能体在探索环境时容易漫无目的地尝试,走了很多弯路却离目标越来越远【17†source】。例如,在网络购物任务中,一个没有策略的智能体可能反复浏览无关商品,却始终找不到目标物品。</li>
<li><strong>信用分配稀释</strong>:在长轨迹中,最终成功或失败的信号很难追溯到早期的关键决策【17†source】。由于每一步都是独立反应,智能体难以判断哪一步走对了、哪一步走错了,导致学习效率低下,容易重复犯错。</li>
</ul>
<p>ReAct、Reflexion 等先前方法虽然引入了推理轨迹和反思机制,但这些仍然是逐步的反应式规划,并非对整个任务轨迹的战略承诺【17†source】。换言之,当前智能体缺少的是<strong>“先画地图再出发”</strong>的全局策略:在执行具体动作前,先制定一个贯穿始终的宏观计划来指导行动。没有这样的战略约束,智能体就像无舵之舟,在复杂任务的长河中随波逐流,最终忘记最初的目标。</p>
<h2 id="section-2">分层 GRPO 训练:将 DeepSeek 封神算法升级到多回合决策</h2>
<p>《StraTA》论文的核心创新在于引入<strong>分层 GRPO</strong>(Hierarchical GRPO)训练框架,将让 DeepSeek 等模型声名大噪的 GRPO 算法扩展到智能体多回合决策领域,完美解决了长期困扰强化学习的“信用分配灾难”问题。</p>
<p><strong>GRPO 算法回顾</strong>:GRPO(Group Relative Policy Optimization)是一种基于群组相对比较的策略优化方法,由DeepSeek团队提出并用于提升大模型的推理能力【11†source】。其核心思想是:对于同一问题,生成多个候选回答,然后比较这些回答的优劣来更新策略。具体来说,GRPO 将每个回答与同一组内其他回答相对比,计算<strong>优势值</strong>(advantage),从而判断哪个回答相对更好【16†source】。这种相对比较方式避免了对绝对奖励的依赖,减轻了奖励稀疏和偏差的问题,使得模型能够更稳定地学习。在 DeepSeek 的应用中,GRPO 通过对比多次采样结果,让模型学会产出更高质量的推理路径,实现了性能的大幅飞跃。</p>
<p><strong>分层 GRPO 创新点</strong>:StraTA 将 GRPO 的思想提升到<strong>策略-动作两级</strong>,以适应智能体多回合决策的需求【17†source】。在 StraTA 框架下,一次任务执行不再是单一策略的多次独立尝试,而是<strong>先采样多条全局策略,再在每条策略下执行多回合动作</strong>。具体而言,对于给定任务,StraTA 首先让模型生成 N 条不同的全局策略(例如,N 种不同的任务解决思路),然后在每条策略下独立执行 M 次完整的交互轨迹,总共得到 N×M 条轨迹【17†source】。这 N×M 条轨迹被组织成两级群组进行比较:</p>
<ul>
<li><strong>策略级群组</strong>:比较不同策略的优劣。将每条策略看作一个“选手”,根据其下属 M 条轨迹的表现来评判该策略的好坏【17†source】。关键的是,StraTA 并非简单地对 M 条轨迹取平均,而是<strong>取表现最好的前 δ 比例轨迹的平均奖励</strong>作为该策略的奖励【17†source】。这种设计强调“策略的最好执行结果”,避免了因早期动作噪声导致的低质量轨迹拉低对策略的评价,使策略奖励更忠实于策略本身的质量而非执行瑕疵【17†source】。</li>
<li><strong>动作级群组</strong>:比较同一策略下不同执行路径的优劣。对于每条策略,其 M 次执行构成一个动作级群组,通过比较这些轨迹的相对表现来更新动作执行策略【17†source】。这样,模型可以学习在给定策略下如何更好地执行具体步骤。</li>
</ul>
<p>通过这种<strong>分层比较</strong>,StraTA 实现了对策略和动作的联合训练:策略生成器学习产出能够带来高奖励的全局计划,动作执行器学习在给定策略下选择最优行动【17†source】。分层 GRPO 将“这个计划好不好”与“这个动作执行得好不好”两个问题分开回答,从而有效解决了长程任务中的信用分配难题——策略级比较让模型明白哪条思路是正确的,动作级比较则让模型知道在既定思路下每一步该如何改进。这种<strong>先规划后执行</strong>的分层训练方式,使得智能体不再迷失于短期反馈,而是朝着全局最优的方向前进。</p>
<h2 id="section-3">最远点采样:借 3D 几何算法逼迫 AI 跳出同质化思考</h2>
<p>为了让智能体在策略空间中真正<strong>广泛探索</strong>,StraTA 引入了一项巧妙的技术——<strong>最远点采样(Farthest Point Sampling, FPS)</strong>。这项技术借鉴自三维几何处理领域,用于在候选策略中选择出语义上差异最大的子集,从而逼迫模型跳出同质化思考,实现高维策略空间的有效探索【18†source】。</p>
<p><strong>问题背景</strong>:在策略采样阶段,如果直接让模型生成多条策略,由于大模型倾向于产生相似的回答,即使提高采样温度,也往往得到语义高度重复的计划【18†source】。例如,对于同一个任务,模型可能多次生成思路几乎相同的策略,只是措辞略有不同。这种<strong>同质化</strong>会严重限制策略空间的探索,使得模型难以发现更优的解决方案。</p>
<p><strong>FPS 算法原理</strong>:最远点采样是一种贪心算法,目标是在给定候选点集中选出若干点,使得这些点彼此之间的距离(差异)尽可能大【18†source】。StraTA 的具体做法是:首先对模型过采样生成 σ×N 条候选策略(σ 为大于1的过采样倍率),然后通过预训练的文本嵌入模型(如Sentence-BERT)将每条策略编码为向量表示【18†source】。接着,算法迭代地挑选策略:第一步选择与所有候选策略向量<strong>平均向量</strong>最接近的策略作为起点;之后每一步,从未选中的策略中挑选一个与<strong>已选策略集合</strong>最不相似的策略加入集合,衡量标准是该策略与已选策略的最大余弦相似度最小【18†source】。直观地说,每一步都选出一个与已有策略“最不相同”的新策略,确保最终选出的 N 条策略在语义上尽可能多样化。</p>
<p><strong>效果与意义</strong>:通过 FPS,StraTA 能够从大量候选策略中筛选出一组<strong>高多样性</strong>的全局计划。这相当于在策略空间中进行了一次“远足”,让模型跳出熟悉的思路,去探索那些原本概率较低但可能有奇效的策略。例如,在科学实验任务中,模型可能惯于采用某种固定流程,但经过 FPS 采样,它被迫尝试一种完全不同的实验方案,结果发现该方案更高效。FPS 的引入极大提升了策略探索的覆盖面,避免了智能体陷入局部最优的思考模式,为后续的分层 GRPO 训练提供了更丰富的策略比较素材。简单来说,最远点采样让 AI 的“脑洞”开得更大,不再局限于同一条思维的重复播放,而是真正探索多样的可能性。</p>
<h2 id="section-4">开发者落地指南:无需强化学习,用“全局战略规划器”让业务 AI 变聪明</h2>
<p>对于普通开发者而言,直接实现论文中的强化学习训练流程可能门槛较高。幸运的是,StraTA 的精髓在于<strong>“先画地图再出发”</strong>的思想,这在工程落地时可以有更轻量的实现方式。开发者无需从零开始搞强化学习,也可以借鉴 StraTA,通过在现有工作流顶端加入一个<strong>“全局战略规划器”</strong>来让业务 AI 瞬间变聪明。</p>
<div class="component-group">
<h3>实践步骤</h3>
<p><strong>1. 识别业务场景中的长程决策任务</strong>:首先,确定你的应用中哪些任务属于长程、多步骤决策。例如,在客服机器人中,解决用户投诉可能需要多轮对话和多个步骤;在代码助手中,完成一个复杂功能可能需要跨多个文件多次修改。这些场景下,AI 容易迷失目标,是引入战略规划器的重点。</p>
<p><strong>2. 设计全局战略规划器</strong>:在任务开始时,增加一个<strong>策略生成</strong>步骤。该步骤由一个语言模型(可以是与执行动作相同的模型,也可以是更大的模型)根据任务描述和初始状态,产出一份<strong>紧凑的自然语言策略</strong>【17†source】。这份策略应当是<strong>全局性的</strong>,贯穿整个任务,例如:“先在厨房寻找目标物品,然后拿到卧室放入容器”【17†source】。策略不需要细化到每一步动作,但应足够具体,能够指导后续行动的方向。开发者可以通过精心设计的提示模板(prompt)来引导模型生成高质量策略,例如要求模型“在开始执行前,先提出一个全局策略,该策略应为简短文本,指导后续所有行动”【16†source】。</p>
<p><strong>3. 将策略融入执行过程</strong>:在后续的每一步决策中,将生成的策略作为<strong>额外上下文</strong>提供给动作执行模型【17†source】。也就是说,模型的输入不仅包括当前观察,还包括那条固定的全局策略。这样,模型在决策时会参考策略的指引,确保行动不偏离既定方向。例如,在客服对话中,每轮回复前都提醒模型当前的总体解决策略;在代码修改中,每次生成编辑前都告知模型整体的修改方案。</p>
<p><strong>4. 多策略比较与自我评判(可选)</strong>:如果条件允许,可以为同一任务生成多条候选策略,并让模型<strong>自我评判</strong>哪条策略更可行,再选择最佳策略执行【17†source】。这相当于实现了论文中分层 GRPO 的简化版:先比较不同策略,再执行最优策略。模型自身可以作为“评判者”,在看到策略后指出其中的漏洞或不切实际之处【17†source】。如果某策略被判定有明显缺陷,可以选择另一条策略,从而避免在明显错误的路径上浪费计算。</p>
<p><strong>5. 监控与迭代</strong>:在引入战略规划器后,观察 AI 在复杂任务上的表现是否提升。注意收集那些<strong>策略正确但执行失败</strong>的案例,以及<strong>策略本身有问题</strong>的案例,分析原因并改进策略生成的提示或模型。例如,如果发现模型经常生成不切实际的策略,可以在提示中增加约束或提供示例策略来规范其输出。</p>
</div>
<p>通过以上步骤,开发者可以在<strong>不进行强化学习训练</strong>的情况下,大幅提升业务 AI 在长程任务中的表现。这种方法的核心价值在于<strong>结构化决策</strong>:将“想”和“做”分离,先由战略规划器统筹全局,再由执行器按图索骥。实践证明,这种“先规划后执行”的模式可以显著减少 AI 在复杂任务中的迷失和返工,让有限的计算资源用在刀刃上,从而提高任务成功率【17†source】。对于资源有限的团队来说,这是快速让 AI 智能体变聪明的实用路径。</p>
<h2 id="section-5">结语:战略规划让 AI 智能体告别健忘,走向高效</h2>
<p>从“走一步忘一步”的健忘症,到“先画地图再出发”的高效决策,StraTA 论文为我们揭示了提升 AI 智能体长程决策能力的关键:引入显式的全局策略,将反应式决策升级为战略规划式的决策。分层 GRPO 训练确保了策略与行动的协同优化,最远点采样逼迫模型跳出思维舒适区探索更优策略,而这一切在工程上又可以通过简单的“全局战略规划器”来实现。实验结果令人振奋:一个 7B 参数的开源模型在引入 StraTA 后,于 WebShop 任务上的成功率从<strong>5.3%</strong>飙升至<strong>84.2%</strong>【16†source】,在 ALFWorld 上更是达到了<strong>93.1%</strong>的成功率【16†source】,甚至在 SciWorld 上以<strong>63.5%</strong>的得分超过了 Claude 等闭源巨头【16†source】。这充分证明了战略规划对于复杂决策的威力。</p>
<figure class="generated-chart">
<div class="chart-container">
<canvas id="performanceChart"></canvas>
</div>
<figcaption>图1:StraTA 框架在主要基准测试上的性能表现</figcaption>
</figure>
<p>更重要的是,StraTA 所倡导的“先规划后执行”思想具有广泛的适用性。无论是强化学习训练,还是纯工程提示设计,我们都可以从中得到启发:让 AI 在行动前先制定一个全局计划,然后严格按照计划行事,在执行过程中不忘初衷。这不仅能提高任务完成的成功率,还能让 AI 的行为更加可解释和可控。可以预见,在未来的 AI 智能体设计中,引入显式的策略层将成为标配,正如人类在复杂任务中先做计划再行动一样自然。AI 的健忘症终于有救了——只要让它学会在出发前先画好地图,它就能在复杂任务的长途跋涉中始终朝着目标前进,不再迷失方向。【17†source】</p>
</div>
<script>
document.addEventListener('DOMContentLoaded', function () {
const ctx = document.getElementById('performanceChart');
if (ctx) {
const performanceChart = new Chart(ctx, {
type: 'bar',
data: {
labels: ['WebShop (应用前)', 'WebShop (应用后)', 'ALFWorld', 'SciWorld'],
datasets: [{
label: '成功率 / 得分 (%)',
data: [5.3, 84.2, 93.1, 63.5],
backgroundColor: [
'rgba(255, 159, 64, 0.5)',
'rgba(13, 110, 253, 0.5)',
'rgba(13, 110, 253, 0.5)',
'rgba(13, 110, 253, 0.5)'
],
borderColor: [
'rgba(255, 159, 64, 1)',
'rgba(13, 110, 253, 1)',
'rgba(13, 110, 253, 1)',
'rgba(13, 110, 253, 1)'
],
borderWidth: 1
}]
},
options: {
responsive: true,
maintainAspectRatio: false,
scales: {
y: {
beginAtZero: true,
max: 100,
title: {
display: true,
text: '成功率 / 得分 (%)',
font: {
family: "'Noto Sans SC', sans-serif",
size: 14
},
color: '#212529'
},
ticks: {
color: '#212529',
font: {
family: "'Noto Sans SC', sans-serif"
}
},
grid: {
color: '#E9ECEF',
borderDash: [5, 5]
}
},
x: {
ticks: {
color: '#212529',
font: {
family: "'Noto Sans SC', sans-serif"
}
},
grid: {
display: false
}
}
},
plugins: {
legend: {
display: false
},
tooltip: {
mode: 'index',
intersect: false,
titleFont: {
family: "'Noto Sans SC', sans-serif"
},
bodyFont: {
family: "'Noto Sans SC', sans-serif"
}
},
title: {
display: false
}
}
}
});
}
});
</script>
</body>
</html>
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力