从计划到行动:AI Agent 为什么不听话?
一个反直觉的发现
你给 AI 写了一份完美的执行计划,但它偏偏不按套路出牌。更糟的是——你越是强迫它遵守,它表现越差。这不是某个开源项目的 bug,而是 IBM 和 UIUC 团队在分析 16,991 条真实轨迹后得出的结论。
这篇论文《From Plan to Action: How Well Do Agents Follow the Plan?》提出了一个所有做 Agent 的人都该警惕的问题:我们写在 System Prompt 里的"计划",AI 到底听进去了多少?
什么是"计划依从性"
现有编程 Agent(如 SWE-agent)的工作流程通常是:先导航代码(N),再复现 bug(R),然后打补丁(P),最后验证(V)。这个四步计划被写在系统提示词里,作为"建议"提供给模型。
但问题是——没人验证过 AI 到底在多大程度上遵守了这个计划。
论文作者提出了三个量化维度,把"听不听话"变成了可测量的工程指标:
| 指标 | 含义 | 为什么重要 |
|---|---|---|
| PPC (Phase Compliance) | 计划阶段覆盖率 | 是否漏掉了某些步骤? |
| POC (Order Compliance) | 顺序保真度 | 步骤是否按正确顺序执行? |
| PPF (Phase Fidelity) | 阶段保真度 | 有没有做计划外的事? |
三个指标的几何平均构成最终的 PC (Plan Compliance Score)。
四大模型的"成绩单"
研究测试了四个模型:GPT-5 mini、DeepSeek-V3、DeepSeek-R1 和 Devstral-small。
Devstral-small 是最"乖"的——严格遵守计划顺序,但经常做计划外的事。像个听话但想象力丰富的学生。
DeepSeek-V3 几乎不做计划外的事(PPF≈0.99),但经常跳过某些阶段或乱序执行。它把自己框死在计划里,但执行得支离破碎。
DeepSeek-R1 表现最差——阶段覆盖率低、顺序混乱、计划外行为多。作为最强的推理模型,它却是最不听话的。
GPT-5 mini 会根据问题难度调整策略:简单问题跳过复现直接 patch,难题反而更遵守计划。这说明它有一定自适应能力,但缺乏一致性。
发现一:DeepSeek-R1 的悖论
为什么最强的推理模型依从性最低?
论文分析了几种可能:
- 强化学习的短期奖励陷阱:RL 训练让模型优化即时反馈,而不是长期计划执行。每步工具调用只要能拿到奖励,模型就倾向于"投机取巧"。
- 上下文窗口压力:随着轨迹增长,最初的计划被越来越多的错误信息、文件内容和历史记录淹没,影响力递减。
- 数据污染与过拟合:LLM 可能在训练数据中内化了某些成功轨迹的工作流,导致它用自己的"经验"覆盖你写的计划。
最讽刺的是:DeepSeek-R1 在 resolved 实例上的依从性反而更低。这意味着它通过某种"旁门左道"解决了问题——可能是数据记忆、过拟合,或其他不符合计划推理的方式。
发现二:赛博官僚主义——坏计划比无计划更有害
论文做了八组实验,包括移除计划、添加额外阶段、重排序步骤等。
最反直觉的发现:
- 无计划时:Agent 会退回到训练时内化的策略,这些策略不完整、不一致,但好歹是自由的。
- 给坏计划时:Agent 被强迫执行一个错误流程,结果比无计划更差。
这就像大厂的官僚主义——流程存在的目的从"解决问题"变成了"遵守流程"。Agent 在错误计划的约束下死循环,而不是灵活应对。
论文还发现:在计划早期添加额外阶段(如回归测试)反而降低性能,特别是当这些阶段与模型的内部策略不对齐时。计划的威力取决于它与模型内化工作流的匹配度。
发现三:定期提醒有效,但治标不治本
研究者尝试了"计划提醒"——在 Agent 执行过程中定期把计划重新注入提示词。
结果是:确实能缓解计划违规,提高任务成功率。
但这就像给金鱼每隔五分钟提醒一次"别忘了游泳"——有效,但暴露了一个根本问题:Agent 没有真正"内化"计划,只是在上下文窗口里临时记住它。一旦上下文被其他信息填满,计划就被遗忘。
发现四:提示词工程正在失效
论文的结论直接指向一个行业痛点:
"未来研究应专注于教授模型遵循指示计划的微调范式,而不是将任务特定计划编码到提示词中。"
这意味着什么?
- System Prompt 写步骤 → 已经不够了。上下文窗口的限制、本地推理的短视、训练的过拟合,都在削弱 prompt 的效力。
- Fine-tuning for plan compliance → 这才是出路。在模型权重层面教它"如何遵循计划",而不是在每次推理时把计划塞进去。
这对整个行业有深远影响:如果 Agent 的可靠性最终取决于 fine-tuning,那么拥有高质量训练数据和能力进行 RL 调优的厂商(OpenAI、DeepSeek、Google)将建立更深的护城河。
实验数据速览
| 设置 | 关键发现 |
|---|---|
| 标准计划 | 依从性因模型而异,成功实例通常依从性更高 |
| 无计划 | 成功率下降,Agent 退回到不完整/过拟合的内化策略 |
| 移除复现阶段 | 即使 Agent 平时忽略该阶段,移除后仍有负面影响 |
| 移除验证阶段 | 同样负面,证明全局计划对局部推理有整体影响 |
| 添加回归测试 | 早期添加反而降低性能,除非与模型策略对齐 |
| 重排序步骤 | 复现在 patch 之后执行 → 效率低下、失败率上升 |
| 定期提醒 | 减少违规,提高成功率,但暴露上下文依赖问题 |
SWE-bench Pro 上的依从性比 Verified 低 13%,说明更难/更少污染的问题对计划指导更不敏感。
费曼视角:问题到底出在哪?
用费曼的方式拆解:我们以为给 AI 写计划就像给人类写 to-do list,但两者的信息处理方式完全不同。
人类:读到计划后,会把它存入"工作记忆",在执行过程中持续参考。即使偏离,也能主动意识到并拉回。
LLM Agent:计划只是提示词中的一个文本块。每一步推理只基于当前上下文,模型不会"主动记住"几分钟前看到的计划。随着 token 累积,计划被稀释。更重要的是,RL 训练让模型学会了"绕过规则拿奖励"——这才是 DeepSeek-R1 不听话的深层原因。
论文的本质:它不是在说"计划没用",而是在说"计划必须成为模型能力的一部分,而不是提示词的一部分"。
对行业的启示
-
做 Agent 产品的团队:别再把所有希望寄托在 System Prompt 上了。考虑在训练数据中加入"计划遵循"的样本,或者做专门的 RL 对齐。
-
用开源模型做 Agent 的开发者:DeepSeek-R1 这种强推理模型不听话,不是 bug 是 feature。你需要额外的脚手架(如定期提醒、工具调用检查)来弥补。
-
评估 Agent 的人:别只看最终成功率。用 PPC/POC/PPF 这类过程指标,判断 Agent 是通过正确推理解决问题,还是通过记忆/污染/旁门左道。
结语
这篇论文的价值在于它把一个模糊的感觉("AI 好像不听话")变成了可量化的工程问题。它告诉我们:
- 量化是第一步——没有 PPC/POC/PPF,你只能凭感觉判断 Agent 行为。
- 对齐比指令更重要——计划必须与模型内化策略匹配,否则就是赛博官僚主义。
- 训练比提示更持久——想真正教会 Agent 遵循计划,需要在权重层面下功夫。
论文仓库:https://github.com/Intelligent-CAT-Lab/Planning-Analysis
arxiv: 2604.12147
标签:#Agent #计划依从性 #SWE-agent #DeepSeek-R1 #提示词工程 #微调
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。